스터디라이프/빅데이터분석기사

[빅데이터분석기사 요약정리노트 01] 빅데이터 개요 및 활용

도토리묵사발 2025. 3. 27. 02:26
728x90

빅데이터 개요 및 활용

데이터 의미

  • 가공되지 않아 의미 없는 정보 단위
  • 가공하면 정보(Information)가 됨

DIKW 피라미드

  • 딕 피라미드
  • 데이터 가공에 따른 계층구조
  • 가공할수록 Data -> Information -> Knowledge -> Wisdom 순으로 가치가 증대함
  • 데이터 가공하여 의미가 부여되면 정보, 정보를 가지고 패턴을 찾으면 지식, 지식을 고도로 추상화해서 창의적 아이디어를 도출하면 지혜가 됨

지식창조모델

  • 공표연내
  • 암묵지 / 형식지로 지식의 카테고리가 나뉨
  • 암묵지는 자전거타는법처럼 설명하기 힘든 지식
  • 형식지는 언어로 설명 가능한 지식
  • 이 형태가 바뀌면서 지식 전달이 됨 (공통화 -> 표출화 -> 연결화 -> 내면화)
    • 공통화: 내가 아는 암묵지를 다른사람에게 알려줌 (자전거 타는거 알려줌)
    • 표출화: 배운 암묵지를 언어화해서 형식지로 바꿈 (자전거 잘 타는 법 글로 작성함)
    • 연결화: 다른 사람이 표출해놓은 형식지를 업그레이드함 (자전거 더 잘타는법 v2 작성해서 블로그에 올림)
    • 내면화: 어떤 사람이 표출~연결해서 만들어놓은 형식지를 가지고 또 내가 배워서 암묵지로 만듬 (자저거 타는 법 보고 자전거 타는거 배움)
  • 공->표->연->내 사이클이 돌아가면서 지식이 창조되고 학습된다는게 지식창조모델

데이터베이스의 특징

  • 통합데이터: 중복이 최소화되어있음
  • 저장데이터: 저장매체에 기록되어있음
  • 운영데이터: 조직이 기능 수행하면서 운영되는데 사용됨
  • 공용데이터: 여러 주체에 의해 공동으로 유지 관리됨

OLTP & OLAP

  • OLTP는 데이터를 넣고 꺼내고 수정하고 삭제하는 트랜잭션 처리, OLAP는 있는 데이터를 분석해서 의미를 꺼내주는거임
  • OLTP (OnLine Transaction Processing)
    • 실시간으로 최신 데이터를 업데이트함
    • 빠르게 CRUD 기능이 수행됨
    • 데이터 무결성 유지가 중요함
    • 앱이나 일반 사용자가 접근하고 쓰는게 목적임
  • OLAP (OnLine Analytical Processing)
    • 이미 있는 과거 데이터를 대상으로함
    • OLTP 보다는 느려도 됨
    • 주기적으로 데이터 처리함
    • 데이터 분석가나 서비스 경영하는 사람이 필요로 하는 정보 제공이 목적임

빅데이터 정의

  • 최초 정의: 매우 큰 규모의 데이터
  • 분석과 가치를 중점: 기존 관리도구로 관리할 역량이 넘어설정도로 거대한 정형 / 비정형 데이터로부터 가치 추출하는 것
  • 한국데이터진흥원: 데이터에 대한 기존 접근방식으로 얻을 수 없던 통찰과 가치를 창출하는 모든 것

데이터 단위

  • bit - byte - KB(2의 10승 바이트) - MB - GB - TB - PB - EB - ZB - YB
  • P-E-Z-Y (패지요)

빅데이터 부각 배경

  • 정보통신기기, 기술 발전으로 데이터 생성이 폭발적으로 증가함
  • 폭발적으로 증가하는 데이터를 저장하는 기술도 많이 발전함
  • 저장된 많은 데이터를 분석하는 기술(통계, 머신러닝, 딥러닝)도 많이 발전함
  • 빅데이터를 분석해서 나오는 가치에 대한 수요도 증가함

빅데이터 특징

  • 3V
  • 크고(Volume), 다양하고(Variety), 빠름(Velocity)
  • 6V: 위에 3V에 추가
  • Value: 가치창출가능
  • Veracity(진실성): 신뢰할 수 있어야 함 (의사결정의 근거로 사용하니까)
  • Visualization(시각화): 시각화를 잘해야 활용도가 높음
  • Validity(정확성): 정확하고 유효한 정보여야함
  • Volatility(휘발성): 유통기한을 갖고있음

빅데이터로 바뀌는 것들

  • 사전 -> 사후: 일단 많은 데이터를 모아본 후에 처리해서 무언가 가치있는걸 찾아냄
  • 표본 -> 전수: 표본만 조사할 필요 없이 가능한 많은 데이터를 처리해버림
  • 질 -> 양: 데이터 질이 좋지 않아도 충분히 많은 양을 가지고 처리하면 가치가 있음
  • 인과 -> 상관: 데이터로 뽑아낸 상관관계로 예측하는게 더 의미가 있음

빅데이터의 가치

  • 혁신 추구
    • 데이터 중심으로 모든 분야의 생산성 업
    • 새로운 범주의 산업 등장
    • 플랫폼으로 비즈니스 가치 증대
  • 생산성 향상
    • 데이터로 생산성 올리고 낭비 줄임
  • 경쟁력 확보
    • 고객 맞춤형 서비스 제공
    • 데이터 기반 근거로 의사결정 좋아짐
    • 새로운 비즈니스 모델 발굴 가능
  • 미래 대응
    • 데이터 기반으로 사회변화를 정보를 추출 및 예측해서 미래에 대응

빅데이터 활용 3요소

  • 자원: 자원 = 데이터, 데이터 축적해야 활용 가능
  • 기술: 데이터를 저장, 처리, 분석할 기술이 있어야 활용 가능
  • 인력: 분석 및 처리를 위한 인력이 있어야 활용 가능

빅데이터 위기 요인과 통제

  • 사생활 침해
    • 개인정보 포함된 데이터가 오용될 경우가 있음
    • 동의 -> 책임으로 데이터 주는 사람이 책임지는게 아니라 가져다 쓰는 사람이 책임지게 변화
  • 책임 원칙 훼손
    • 빅데이터 기반으로 판단하면 알고리즘이 판단하는거라 피해보는 사람들이 생김
    • 특정인의 성향이나 특징을 가지로 알고리즘이 판단하는게 아니라 "행동 결과"에 따라서만 판단하고 처벌해야함
  • 데이터 오용
    • 빅데이터 기반의 기술을 쓰는 사람이 너무 맹신해서 추종하다보면 틀릴경우 손실이 발생
    • 알고리즘 접근권을 허용, 피해자를 구제. (알고리즈미스트)

데이터 산업의 진화과정

  • 처리: 프로그래머들이 코딩해서 데이터 처리하는 시대
  • 통합: DBMS, 데이터 웨어하우스로 무결성 유지하면서 데이터 관리하는 시대
  • 분석: 분산시스템으로 대규모 데이터 저장, 처리하는 시대. 데이터 레이크 사용
  • 연결: 기기간 상호 연결되며 데이터 개방되고 상호작용하는 시대
  • 권리: 개인이 데이터를 소유하고 권리를 행사하는 시대.
  • 코딩해서 처리하던걸 DB로 통합하고 분산저장해서 분석하다가 서로 연결하고 권리를 찾는다

빅데이터 조직 필요성

  • 데이터 과제 발굴: 비즈니스 도메인에서 문제 정의하고 개선할 과제를 발견함
  • 기술 검토: 데이터나 기술적 타당성을 검토함
  • 전사 업무 적용 계획: 전사 업무에 적용할 계획을 수립하고 운영 계획을 전파함
  • 데이터 분석: 비즈니스 기반 데이터를 분석함
  • 데이터 활용: 데이터 자산화 및 활용 관리

데이터 분석 거버넌스 체계 구성요소

    • 조직
    • 프로세스
    • 시스템
    • 데이터
    • 인적자원
    • 사람 (조직, 인적자원), 기술(시스템, 프로세스), 재료(데이터)

데이터 분석 수준 진단 프레임워크

  • 조직이 가진 분석 수준을 명확히 진단해서 향후 목표를 제대로 설정하기 위함
  • 분석 준비도(readiness), 분석 성숙도(maturity)로 나누어 2차원으로 평가

분석 준비도

  • 6가지 진단 영역이 있음
  • 분석 업무 파악
  • 인력 및 조직
  • 분석 기법
  • 분석 데이터
  • 분석 문화
  • IT 인프라

분석 성숙도

  • 3개 부문을 대상으로 4 단계로 파악함
  • 비즈니스, 조직/역량, IT 부문
  • 도입 - 활용 - 확산 - 최적화 단계
    • 도입단계: 실적 정기 보고 정도의 업무 / 일부 부서 일부 담당자가 수행 / 데이터 웨어하우스, 마트 정도
    • 활용단계: 미래 결과를 예측하고 시뮬레이션함 / 전문 담당 부서가 있음 / 실시간 대시보드로 통계 분석함
    • 확산단계: 전사의 성과를 실시간 분석함 / 분석 COE 조직이 있고 데이터사이언티스트가 있음 / 빅데이터 관리 환경이 마련됨
    • 최적화단계: 외부환경까지 분석함 / 데이터사이언스 그룹, 경영진 분석 활용 / 분석 협업 환경, 프로세스 내재화됨

결과 진단

  • 준비도랑 성숙도가지고 4분면으로 파악함
  • 준비형, 정착형, 도입형, 확산형으로 나눔
  • 준비형: 준비도랑 성숙도가 다 낮음. 일단 준비가 필요
  • 정착형: 성숙도는 높은데 준비가 안됨. 일단 조직에 분석 정착이 필요함
  • 도입형: 준비도는 높은데 성숙도가 낮음. 분석 도입이 필요함
  • 확산형: 둘 다 높음 지속적으로 단계를 확장하면 됨

데이터 거버넌스

  • 데이터 분석이 조직의 문화로 정착하고 고도화하기위한 조직 내 분석 관리 체계
  • 조직 내에 있는 데이터에 대해 정책을 확립하고 표준화 관리 체계, 저장소 및 프레임워크를 구축함
  • 조직 내에 데이터를 분석하고 활용하기 위한 표준화된 체계
  • 관리대상: 관리해야 할 데이터
    • 마스터 데이터: 잘 안변하는 기본 운용 데이터
    • 메타 데이터: 데이터에 대한 데이터
    • 데이터 사전: 자료에 관한 정보의 모음집
  • 구성요소
    • 원칙: 데이터 유지 관리 지침
    • 조직: 데이터 관리하는 조직에 대한 정의
    • 프로세스: 데이터 관리 활동에 대한 체계
  • 거버넌스 체계
    • 데이터 표준화: 조직 시스템 안의 정보에 대해 정의하고 체계화하고 표준 용어나 메타데이터, 데이터사전, 생명주기를 설정하는 작업
    • 데이터 관리체계: 데이터 관리를 위한 원칙을 수립하고 담당자나 조직을 정의
    • 저장소 관리: 조직 내의 저장소를 만들고 통제
    • 표준화 활동: 거버넌스 체계가 잘 준수되는지 지속적 모니터링
    빅데이터 분석조직업무 수행 주체에 따라 세 가지로 나뉨
    • 집중구조: 분석 조직이 따로 있고 다른 부서에서 분석 업무를 맡김. 한군데서 처리하니까 전사적으로 중요한것에 집중해서 하기 쉬우나 기존 현업 부서에서의 분석 업무와 이원화됨
    • 기능구조: 각 부서별로 분석을 알아서 수행. 이 경우 전사적 관점의 분석 수행 어렵다.
    • 분산구조: 분석 조직에서 각 부서로 분석 인력을 배치해서 수행함. 전사 차원의 우선순위도 가질 수 있고 신속한 업무 수행 가능하지만 부서 분석과 병행되며 업무 과다됨.

데이터 분석 조직 인력 구성

  • 다양한 구성이 필요함
  • 비즈니스, IT, 분석전문가

데이터 직무 (구분)

  • 데이터 개발자: DB 및 데이터 기술 이용해서 프로그래밍 하는 직무
  • 데이터 엔지니어: DB 및 데이터 기술 이용해서 개발 및 유지보수
  • 데이터 분석가: 다양한 데이터를 식별 및 분석해서 기업의 의사결정에 필요한 자료 생성. 통계, 머신러닝 및 결과 시각화 포함
  • 데이터베이스 관리자: DB 관리 및 운영
  • 데이터 과학자: 조직 내 외부의 분석체계 만들고 분석을 통해 프로세스 혁신 및 의사결정을 이끌어냄
  • 데이터 컨설턴트: 모델 성능 튜닝 및 데이터 아키텍처 등의 문제 해결. 빅데이터 분석 통해 앞으로 기업이 나아갈 방향 제시
  • 데이터 기획자: 빅데이터 관련 제품이나 서비스 기획, 데이터 수집 기획
  • 데이터 아키텍트: 데이터 기반 IT 정책이나 표준화, 구조 설계, 개념, 논리, 물리적 데이터 설계
  • 데이터 라벨러: 데이터 구축 기획 및 전처리 나 라벨링 수행

빅데이터 전문인력

  • 데이터사이언티스트: 분석능력, IT 전문성, 비즈니스 컨설팅 능력을 갖춤
    • 하드스킬: 빅데이터에 대한 이론적 지식 및 분석 기술 숙련도
    • 소프트 스킬: 분석 통찰력, 설득 전달 위한 스토리텔링 및 시각화, 다분야 간 협력 위한 커뮤니케이션 스킬
  • 알고리즈미스트: 알고리즘으로 부당한 피해 발생 예방하는 전문가.
  • 인포그래픽 아티스트: 데이터를 분석한 결과를 이해하기 쉽게 시각화 하는 전문가
728x90