728x90
빅데이터 개요 및 활용
데이터 의미
- 가공되지 않아 의미 없는 정보 단위
- 가공하면 정보(Information)가 됨
DIKW 피라미드
- 딕 피라미드
- 데이터 가공에 따른 계층구조
- 가공할수록 Data -> Information -> Knowledge -> Wisdom 순으로 가치가 증대함
- 데이터 가공하여 의미가 부여되면 정보, 정보를 가지고 패턴을 찾으면 지식, 지식을 고도로 추상화해서 창의적 아이디어를 도출하면 지혜가 됨
지식창조모델
- 공표연내
- 암묵지 / 형식지로 지식의 카테고리가 나뉨
- 암묵지는 자전거타는법처럼 설명하기 힘든 지식
- 형식지는 언어로 설명 가능한 지식
- 이 형태가 바뀌면서 지식 전달이 됨 (공통화 -> 표출화 -> 연결화 -> 내면화)
- 공통화: 내가 아는 암묵지를 다른사람에게 알려줌 (자전거 타는거 알려줌)
- 표출화: 배운 암묵지를 언어화해서 형식지로 바꿈 (자전거 잘 타는 법 글로 작성함)
- 연결화: 다른 사람이 표출해놓은 형식지를 업그레이드함 (자전거 더 잘타는법 v2 작성해서 블로그에 올림)
- 내면화: 어떤 사람이 표출~연결해서 만들어놓은 형식지를 가지고 또 내가 배워서 암묵지로 만듬 (자저거 타는 법 보고 자전거 타는거 배움)
- 공->표->연->내 사이클이 돌아가면서 지식이 창조되고 학습된다는게 지식창조모델
데이터베이스의 특징
- 통합데이터: 중복이 최소화되어있음
- 저장데이터: 저장매체에 기록되어있음
- 운영데이터: 조직이 기능 수행하면서 운영되는데 사용됨
- 공용데이터: 여러 주체에 의해 공동으로 유지 관리됨
OLTP & OLAP
- OLTP는 데이터를 넣고 꺼내고 수정하고 삭제하는 트랜잭션 처리, OLAP는 있는 데이터를 분석해서 의미를 꺼내주는거임
- OLTP (OnLine Transaction Processing)
- 실시간으로 최신 데이터를 업데이트함
- 빠르게 CRUD 기능이 수행됨
- 데이터 무결성 유지가 중요함
- 앱이나 일반 사용자가 접근하고 쓰는게 목적임
- OLAP (OnLine Analytical Processing)
- 이미 있는 과거 데이터를 대상으로함
- OLTP 보다는 느려도 됨
- 주기적으로 데이터 처리함
- 데이터 분석가나 서비스 경영하는 사람이 필요로 하는 정보 제공이 목적임
빅데이터 정의
- 최초 정의: 매우 큰 규모의 데이터
- 분석과 가치를 중점: 기존 관리도구로 관리할 역량이 넘어설정도로 거대한 정형 / 비정형 데이터로부터 가치 추출하는 것
- 한국데이터진흥원: 데이터에 대한 기존 접근방식으로 얻을 수 없던 통찰과 가치를 창출하는 모든 것
데이터 단위
- bit - byte - KB(2의 10승 바이트) - MB - GB - TB - PB - EB - ZB - YB
- P-E-Z-Y (패지요)
빅데이터 부각 배경
- 정보통신기기, 기술 발전으로 데이터 생성이 폭발적으로 증가함
- 폭발적으로 증가하는 데이터를 저장하는 기술도 많이 발전함
- 저장된 많은 데이터를 분석하는 기술(통계, 머신러닝, 딥러닝)도 많이 발전함
- 빅데이터를 분석해서 나오는 가치에 대한 수요도 증가함
빅데이터 특징
- 3V
- 크고(Volume), 다양하고(Variety), 빠름(Velocity)
- 6V: 위에 3V에 추가
- Value: 가치창출가능
- Veracity(진실성): 신뢰할 수 있어야 함 (의사결정의 근거로 사용하니까)
- Visualization(시각화): 시각화를 잘해야 활용도가 높음
- Validity(정확성): 정확하고 유효한 정보여야함
- Volatility(휘발성): 유통기한을 갖고있음
빅데이터로 바뀌는 것들
- 사전 -> 사후: 일단 많은 데이터를 모아본 후에 처리해서 무언가 가치있는걸 찾아냄
- 표본 -> 전수: 표본만 조사할 필요 없이 가능한 많은 데이터를 처리해버림
- 질 -> 양: 데이터 질이 좋지 않아도 충분히 많은 양을 가지고 처리하면 가치가 있음
- 인과 -> 상관: 데이터로 뽑아낸 상관관계로 예측하는게 더 의미가 있음
빅데이터의 가치
- 혁신 추구
- 데이터 중심으로 모든 분야의 생산성 업
- 새로운 범주의 산업 등장
- 플랫폼으로 비즈니스 가치 증대
- 생산성 향상
- 데이터로 생산성 올리고 낭비 줄임
- 경쟁력 확보
- 고객 맞춤형 서비스 제공
- 데이터 기반 근거로 의사결정 좋아짐
- 새로운 비즈니스 모델 발굴 가능
- 미래 대응
- 데이터 기반으로 사회변화를 정보를 추출 및 예측해서 미래에 대응
빅데이터 활용 3요소
- 자원: 자원 = 데이터, 데이터 축적해야 활용 가능
- 기술: 데이터를 저장, 처리, 분석할 기술이 있어야 활용 가능
- 인력: 분석 및 처리를 위한 인력이 있어야 활용 가능
빅데이터 위기 요인과 통제
- 사생활 침해
- 개인정보 포함된 데이터가 오용될 경우가 있음
- 동의 -> 책임으로 데이터 주는 사람이 책임지는게 아니라 가져다 쓰는 사람이 책임지게 변화
- 책임 원칙 훼손
- 빅데이터 기반으로 판단하면 알고리즘이 판단하는거라 피해보는 사람들이 생김
- 특정인의 성향이나 특징을 가지로 알고리즘이 판단하는게 아니라 "행동 결과"에 따라서만 판단하고 처벌해야함
- 데이터 오용
- 빅데이터 기반의 기술을 쓰는 사람이 너무 맹신해서 추종하다보면 틀릴경우 손실이 발생
- 알고리즘 접근권을 허용, 피해자를 구제. (알고리즈미스트)
데이터 산업의 진화과정
- 처리: 프로그래머들이 코딩해서 데이터 처리하는 시대
- 통합: DBMS, 데이터 웨어하우스로 무결성 유지하면서 데이터 관리하는 시대
- 분석: 분산시스템으로 대규모 데이터 저장, 처리하는 시대. 데이터 레이크 사용
- 연결: 기기간 상호 연결되며 데이터 개방되고 상호작용하는 시대
- 권리: 개인이 데이터를 소유하고 권리를 행사하는 시대.
- 코딩해서 처리하던걸 DB로 통합하고 분산저장해서 분석하다가 서로 연결하고 권리를 찾는다
빅데이터 조직 필요성
- 데이터 과제 발굴: 비즈니스 도메인에서 문제 정의하고 개선할 과제를 발견함
- 기술 검토: 데이터나 기술적 타당성을 검토함
- 전사 업무 적용 계획: 전사 업무에 적용할 계획을 수립하고 운영 계획을 전파함
- 데이터 분석: 비즈니스 기반 데이터를 분석함
- 데이터 활용: 데이터 자산화 및 활용 관리
데이터 분석 거버넌스 체계 구성요소
- 조직
- 프로세스
- 시스템
- 데이터
- 인적자원
- 사람 (조직, 인적자원), 기술(시스템, 프로세스), 재료(데이터)
데이터 분석 수준 진단 프레임워크
- 조직이 가진 분석 수준을 명확히 진단해서 향후 목표를 제대로 설정하기 위함
- 분석 준비도(readiness), 분석 성숙도(maturity)로 나누어 2차원으로 평가
분석 준비도
- 6가지 진단 영역이 있음
- 분석 업무 파악
- 인력 및 조직
- 분석 기법
- 분석 데이터
- 분석 문화
- IT 인프라
분석 성숙도
- 3개 부문을 대상으로 4 단계로 파악함
- 비즈니스, 조직/역량, IT 부문
- 도입 - 활용 - 확산 - 최적화 단계
- 도입단계: 실적 정기 보고 정도의 업무 / 일부 부서 일부 담당자가 수행 / 데이터 웨어하우스, 마트 정도
- 활용단계: 미래 결과를 예측하고 시뮬레이션함 / 전문 담당 부서가 있음 / 실시간 대시보드로 통계 분석함
- 확산단계: 전사의 성과를 실시간 분석함 / 분석 COE 조직이 있고 데이터사이언티스트가 있음 / 빅데이터 관리 환경이 마련됨
- 최적화단계: 외부환경까지 분석함 / 데이터사이언스 그룹, 경영진 분석 활용 / 분석 협업 환경, 프로세스 내재화됨
결과 진단
- 준비도랑 성숙도가지고 4분면으로 파악함
- 준비형, 정착형, 도입형, 확산형으로 나눔
- 준비형: 준비도랑 성숙도가 다 낮음. 일단 준비가 필요
- 정착형: 성숙도는 높은데 준비가 안됨. 일단 조직에 분석 정착이 필요함
- 도입형: 준비도는 높은데 성숙도가 낮음. 분석 도입이 필요함
- 확산형: 둘 다 높음 지속적으로 단계를 확장하면 됨
데이터 거버넌스
- 데이터 분석이 조직의 문화로 정착하고 고도화하기위한 조직 내 분석 관리 체계
- 조직 내에 있는 데이터에 대해 정책을 확립하고 표준화 관리 체계, 저장소 및 프레임워크를 구축함
- 조직 내에 데이터를 분석하고 활용하기 위한 표준화된 체계
- 관리대상: 관리해야 할 데이터
- 마스터 데이터: 잘 안변하는 기본 운용 데이터
- 메타 데이터: 데이터에 대한 데이터
- 데이터 사전: 자료에 관한 정보의 모음집
- 구성요소
- 원칙: 데이터 유지 관리 지침
- 조직: 데이터 관리하는 조직에 대한 정의
- 프로세스: 데이터 관리 활동에 대한 체계
- 거버넌스 체계
- 데이터 표준화: 조직 시스템 안의 정보에 대해 정의하고 체계화하고 표준 용어나 메타데이터, 데이터사전, 생명주기를 설정하는 작업
- 데이터 관리체계: 데이터 관리를 위한 원칙을 수립하고 담당자나 조직을 정의
- 저장소 관리: 조직 내의 저장소를 만들고 통제
- 표준화 활동: 거버넌스 체계가 잘 준수되는지 지속적 모니터링
- 집중구조: 분석 조직이 따로 있고 다른 부서에서 분석 업무를 맡김. 한군데서 처리하니까 전사적으로 중요한것에 집중해서 하기 쉬우나 기존 현업 부서에서의 분석 업무와 이원화됨
- 기능구조: 각 부서별로 분석을 알아서 수행. 이 경우 전사적 관점의 분석 수행 어렵다.
- 분산구조: 분석 조직에서 각 부서로 분석 인력을 배치해서 수행함. 전사 차원의 우선순위도 가질 수 있고 신속한 업무 수행 가능하지만 부서 분석과 병행되며 업무 과다됨.
데이터 분석 조직 인력 구성
- 다양한 구성이 필요함
- 비즈니스, IT, 분석전문가
데이터 직무 (구분)
- 데이터 개발자: DB 및 데이터 기술 이용해서 프로그래밍 하는 직무
- 데이터 엔지니어: DB 및 데이터 기술 이용해서 개발 및 유지보수
- 데이터 분석가: 다양한 데이터를 식별 및 분석해서 기업의 의사결정에 필요한 자료 생성. 통계, 머신러닝 및 결과 시각화 포함
- 데이터베이스 관리자: DB 관리 및 운영
- 데이터 과학자: 조직 내 외부의 분석체계 만들고 분석을 통해 프로세스 혁신 및 의사결정을 이끌어냄
- 데이터 컨설턴트: 모델 성능 튜닝 및 데이터 아키텍처 등의 문제 해결. 빅데이터 분석 통해 앞으로 기업이 나아갈 방향 제시
- 데이터 기획자: 빅데이터 관련 제품이나 서비스 기획, 데이터 수집 기획
- 데이터 아키텍트: 데이터 기반 IT 정책이나 표준화, 구조 설계, 개념, 논리, 물리적 데이터 설계
- 데이터 라벨러: 데이터 구축 기획 및 전처리 나 라벨링 수행
빅데이터 전문인력
- 데이터사이언티스트: 분석능력, IT 전문성, 비즈니스 컨설팅 능력을 갖춤
- 하드스킬: 빅데이터에 대한 이론적 지식 및 분석 기술 숙련도
- 소프트 스킬: 분석 통찰력, 설득 전달 위한 스토리텔링 및 시각화, 다분야 간 협력 위한 커뮤니케이션 스킬
- 알고리즈미스트: 알고리즘으로 부당한 피해 발생 예방하는 전문가.
- 인포그래픽 아티스트: 데이터를 분석한 결과를 이해하기 쉽게 시각화 하는 전문가
728x90
'스터디라이프 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 요약정리노트 O4] 빅데이터 분석 절차 (0) | 2025.04.02 |
---|---|
[빅데이터분석기사 요약정리노트 03] 빅데이터 분석 방안 수립 (0) | 2025.03.31 |
[빅데이터분석기사 요약정리노트 02] 빅데이터 기술 및 제도 (0) | 2025.03.30 |