스터디라이프/빅데이터분석기사

[빅데이터분석기사 요약정리노트 03] 빅데이터 분석 방안 수립

도토리묵사발 2025. 3. 31. 19:31
728x90

데이터 분석 3요소

  • 데이터
  • 분석모델
  • 분석가

데이터 분석 기획 유형

What / How 기획 유형 분류

  • What / How 사분면으로 분류
  • What: 무엇을 분석할지 아는가?
  • How: 어떻게 분석할지 아는가?
  • 둘 다 아는 경우: 최적화
  • 둘 다 모르는 겨우: 발견
  • What만 아는 경우: 솔루션 (어떻게 할지 알려줌)
  • How만 아는 경우: 통찰 (무엇을 해야 할지 알려줌)

목표 시점에 따른 분석 기획 유형 분류

  • 과제 중심적 접근방식: 특정 과제를 빨리 해결하는게 목표
    • Speed & Test
    • Quick Win
    • Problem Solving
    • 빨리 만들고 테스트해서 문제 풀게 해줘야함
  • 마스터플랜 접근방식: 중장기적으로 문제 정의를 정확히 하고 지속적으로 데이터 분석 문화를 내재화하려는게 목표
    • Accuracy & Deploy
    • Long term
    • Problem Definition
    • 문제를 정확히 정의하고 지속적인 개선을 할 수 있어야 함

분석 기획에서 고려할 사항

  • 가용 데이터 확인: 쓸 수 있는 데이터가 있는지
  • 유즈케이스 확보: 기존 참고 사례가 있는지
  • 장애요소 식별: 앞으로 발생할 문제가 어떤게 있는지

데이터 분석 마스터플랜

  • 중장기적 분석 역량 내재화하는 과정
  • 절차
    • 과제 도출
    • 우선순위 평가
    • 세부 계획 이행
    • 중장기 분석 로드맵 수립
  • ISP (정보전략계획)을 사용해서 필요한 분석 과제를 모두 도출한 후 우선순위 세워서 단,중,장기로 나눠 실행
  • 마스터플랜수립 프레임워크 사용: 우선순위(전략적, 비즈니스ROI관점, 실행용이성) & 적용 수준(업무 내재화 수준, 분석데이터 적용수준, 기술수준)을 고려해서 분석 로드맵과 세부 계획을 수립함

우선순위 선정의 고려요소

  • 전략적 중요도: 전략적으로 얼마나 연관되나? 얼마나 시급하게 필요한가?
  • 실행용이성: 투자할 자원 확보가 얼마나 용이한가? 기술적으로 안정성을 가졌는가?
  • ROI: 비즈니스 효과가 얼마나 되나? 투자 대비 리턴(ROI)이 얼마나 되나?
  • 시급성과 난이도: 전략적으로 지금 수행하는데 부합하는가? 과제 수행 난이도가 적합한가?

우선순위 평가

ROI 기준 평가

  • ROI = 시급성(전략적 중요도, 목표가치 = 과제 수행 시 비즈니스 효과) % 난이도(데이터 분석 비용 = 과제 수행 비용)
  • ROI가 높은 과제부터 우선순위

포트폴리오 사분면 평가

  • 시급성 - 난이도 사분면에 과제를 정렬
  • 시급성 현재이고 난이도 낮은것을 우선, 나중에 해도 되고 난이도도 높은것을 나중에 수행

분석 로드맵 설정

  • 과제 우선순위가 결정된 후에 로드맵을 수립

분석 문제 정의

상향식, 하향식 접근법

  • What & How 사분면
  • 하향식: 분석 대상을 먼저 알고 그에 대한 문제를 풀어나가는 경우
    • 문제 탐색 (비즈니스 모델 기반 또는 외부 사례 기반으로)
    • 문제 정의 (탐색한 문제를 데이터 분석 문제로 변환)
    • 해결법 탐색 (어떤 방식으로 문제를 풀지 고민)
    • 타당성 검토 (도출된 과제가 경제적, 데이터적, 기술적으로 타당한지 검토 타당하면 과제로 선정)
  • 상향식: 주어진 데이터에서 통찰을 얻어 문제를 발견해나가는 경우. 비지도학습과 프로토타이핑 접근법
    • 프로세스 분류 (기존 업무 프로세스를 정의)
    • 프로세스 흐름 분석 (프로세스 별로 업무 흐름을 상세히 표현)
    • 분석 요건 식별 (프로세스 상의 주요 의사결정 포인트 식별)
    • 분석 요건 정의 (분석 요건 정의)
    • 순서 기출 나옴! **분류 > 분석 > 식별 > 정의**
    • 분류하고 나서 분석하는 것.
  • 디자인 싱킹: 상향식(확산) 하향식(수렴) 접근을 반복하는 프로세스
    • Empathize: 사용자를 이해
    • Define: 문제 찾기
    • Ideate: 해결 아이디어 모색
    • Prototype: 해결책을 빠르게 시도
    • Test: 테스트 하고 보완
    • EDIPT (이딥트)
    • 상-확-하-수분석 활용 시나리오 및 분석과제정의서
    • 상향식이 확산이고 하향식이 수렴인데 상향식은 주어진 상황에서 여러가지를 계속 고려해나가면서 문제를 찾아야되고, 하향식은 정해진 문제에서 솔루션을 찾아나가는 과정이라 수렴임
    • 역피라미드 형태로 생각하면 편하다.
  • 과제 도출 했으면 과제를 정의하기 위해 작성
  • 분석활용 시나리오: 분석 과제가 운영 프로세스에 반영되었을 때 어떻게 활용되는지 시나리오 작성
  • 분석과제정의서: 명확하게 분석 과제를 정의하고 이를 수행하는 사람들이 이해할 수 있게 작성

분석 방안

분석 모델과 방법론

  • 고정관념, 편향된 생각, 프레이밍 효과를 제거해야 함

분석모델종류

  • 폭포수 모델
    • 단계별로 정의하고 순차적으로 진행, 정형화된 진행이 가능
    • 문제 발생시 수정 비용 크고 피드백에 의한 수정 반복 어려움
  • 프로토타입 모델
    • 요구사항 신속히 개발하고 피드백 받고 수정 보완
    • 사용자 요구사항 도출 쉽고 의사소통 원활
    • 과도한 요구 발생, 개발속도 지연
  • 나선형 모델
    • 계획 > 위험분석 > 개발 > 고객평가를 돌면서 진행
    • 대규모 시스템에 적합
    • 프로젝트 관리 어려움
  • 애자일 모델
    • 유연하고 기민하게 대응하며 개발

데이터 분석 방법론

  • 통계적 방법론: 전통 통계분석, 가설 검증 및 추론
  • 데이터마이닝 방법론: 자료로 패턴 뽑아내는 방법론
  • 빅데이터 분석 방법론: 빅데이터 사용한 새로운 방법론

데이터 마이닝 방법론

  • KDD(Knowledge Discovery in DBS)
    • Selection
    • Preprocessing
    • Transformation
    • Data Mining
    • Evaluation
  • CRISP-DM(Cross Industry Standard Process for Data Mining)
    • 6단계 절차
      • 업무이해
      • 데이터이해
      • 데이터준비
      • 모델링
      • 평가
      • 배포
      • 4 계층 프로세스
      • 최상위 레벨 (단계)
      • 일반화 태스크
      • 세분화 태스크
      • 프로세스 실행
  • SEMMA(Sampling Exploration Modification Modeling Assessment)
    • 샘플링(데이터 생성)
    • 데이터 탐색
    • 데이터 수정
    • 모델링
    • 모델 평가

빅데이터 분석 방법론

  • 계층적 프로세스 모델 (Stepwised Process Model)
    • 단계 - 태스크 - 스탭으로 프로세스 계층 분리
  • 5단계 절차
    • 분석 기획 단계
      • 비즈니스 이해
      • 프로젝트 정의 및 계획
      • 프로젝트 위험 계획 수립
    • 데이터 준비
      • 필요 데이터 정의
      • 데이터 스토어 설계
      • 데이터 수집
    • 데이터 분석
      • 데이터 분석 및 모델링
      • 모델 평가 및 검증
    • 시스템 구현
      • 설계 및 구현, 시스템 테스트
    • 평가 및 전개
      • 프로젝트 평가 및 보고
  • 기 > 준 > 분 > 구 > 전
728x90