[ADSP] 2장. 데이터의 가치와 미래

2023. 10. 5. 18:52ADSP

728x90

 

ㅇ빅데이터의 3V

  • 양(Volume) : 데이터의 규모
  • 다양성(Variety) : 데이터의 유형과 소스
  • 속도(Velocity) : 데이터의 수집과 처리
  • 가치(Value)
  • 시각화(Visualization)
  • 정확성(Veracity)

ㅇ빅데이터 정의의 범주 및 효과

  • 데이터 변화 (규모, 형태, 속도)

-> 기술 변화 (데이터 처리-저장-분석 기술 및 아키텍쳐, 클라우드 컴퓨팅 활용)

-> 인재, 조직 변화 (Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직)

ㅇ 빅데이터에 거는 기대의 비유적 표현

  • 산업혁명의 석탄과 철 : 혁명적 변화
  • 21세기의 원유 : 생산성의 향상, 새로운 범주의 산업
  • 렌즈 :산업 발전에 영향
  • 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물

ㅇ빅데이터가 만들어내는 변화

  • 사전처리 -> 사후처리 : 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
  • 표본조사 -> 전수조사 : 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터를 활용
  • 질 -> 양 : 양질의 정보가 전체적으로 좋은 결과 산출에 긍정정인 영향
  • 인과관계 -> 상관관계 : 특정 현상의 발생 가능성 포착

ㅇ빅데이터 가치 산정이 어려운 이유

  • 데이터 활용 방식 : 특정 데이터를 언제-어디서-누가 활용하는지 알 수 없음, 가치 선정이 어려움
  • 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움
  • 분석기술 발전 : 가치가 없는 데이터일지라고 새로운 분석 기법이 등장한다면 거대한 가지를 지닐 수 있음

ㅇ 빅데이터 활용 기본 테크닉

  • 정형데이터 활용

ㄴ 연관규칙학습 : 상관관계의 발견

ㄴ 유형분석 : 분류

ㄴ 유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 점진적으로 진화

ㄴ 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측

ㄴ 회귀분석 : 독립변수의 조작에 따른 종속변수의 변화를 보면서 두 변인의 관계를 파악

  • 비정형데이터 활용

ㄴ 감정분석 : 감정을 분석

ㄴ 쇼셜네트워크분석(=사회관계망분석) : 영향력있는 사람을 찾아냄

ㅇ 빅데이터 시대의 위기 요인

  • 사생활 침해 (여행 사실을 트윗 한 사람의 집을 강도가 노림)
  • 책임 원칙 훼손 (범행을 저지르기 전에 체포)
  • 데이터 오용 (과장된 데이터)

ㅇ위기 요인에 따른 통제 방안

  • 사생활 침해 -> 동의에서 책임으로
  • 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수
  • 데이터 오용 -> 알고리즘 접근 허용 (예측 알고리즘의 부당함을 반증할 수 있는 방법-알고리즈미스트)

ㅇ빅데이터 활용의 3요소

  • 데이터 : 모든 것이 데이터화
  • 기술 : 진화하는 알고리즘, 인공지능
  • 인력 : 데이터 사이언티스트, 알고리즈미스트

3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

ㅇ산업별 분석 애플리케이션

  • 금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 고객 수익성분석, 클레임 분석
  • 병원 : 가격 책정, 고객 로열티, 수익 관리
  • 에너지 : 트레이딩, 공급, 수요 예측
  • 정부 : 사기 탐지, 사례관리, 범죄 방지, 수익 최적화

ㅇ데이터 사이언티스트의 요구 역량

  • Hard Skill : 빅데이터 이론적 지식, 분석 기술 등
  • Soft Skill : 통찰력(창의적 사고,호기심,논리적 비판), 설득력(스토리텔링,시각화), 협력(커뮤니케이션) 등

ㅇ전략적 통찰력과 인문학의 부활

  • 컨버전스 -> 디버전스 : 단순세계화에서 복잡한 세계화로의 변화
  • 생산 -> 서비스 : 비즈니스 중심이 제품생산에서 서비스로 이동
  • 생산 -> 시장창조 : 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화

ㅇ빅데이터 가치 패러다임의 변화

  • 과거(디지털화 Digitalization) : 아날로그 세상을 어떻게 효과적으로 디지털화 하는가

-> 현재(연결 Connection) : 연결을 더 효과적이고 효율적으로 제공해 주는가

-> 미래(에이전시 Agency) : 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가

ㅇ데이터 사이언스의 한계

  • 인간의 해석이 개입
  • 사람에 따라 전혀 다른 해석과 결론
  • 모든 분석은 가정에 근거

+.

ㅇ DBMS(Data Base management System)

  • 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용하라 수 있는 환경을 제공
  • 효율적인 데이터 검색, 저장 기능 등 제공
  • 오라클, 인포믹스, 액세스

ㅇ DBMS의 종류

  • 관계형 DBMS

ㄴ 컬럼과 로우를 이루는 하나 이상의 테이블로 정리

ㄴ 키가 존재

  • 객체지향 DBMS

ㄴ 정보를 객체 형태로 표현하는 데이터베이스 모델

  • 네트워크 DBMS

ㄴ 레코드=노드, 관계=간선, 으로 표현되는 그래프 기반 데이터베이스 모델

  • 계층형 DBMS

ㄴ 트리 구조를 기반으로 하는 계층 데이터베이스 모델

ㅇ 개인정보 비식별 기술

  • 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)
  • 가명처리 : 다른 값으로 대체 (홍국돈, 항곡대학)
  • 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
  • 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)
  • 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)

ㅇ 데이터 무결성

  • 데이터에 대한 정확한 일관성, 유효성, 신뢰성 보장을 위해 제한

ㅇ 데이터 레이크

  • 데이터 형식, 방식에 상관없이 데이터를 저장하는 시스템

ㅇ 빅데이터 분석 기술

  • 하둡(Hadoop) : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
  • Apache Spark : 실시간 분산형 컴퓨팅 플랙폼, In-Memory 방식으로 하둡에 비해 처리속도가 빠름
  • Smart Factory : 공장 내 설비와 기계에 사물인터넷이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화
  • Machine Learning : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법
  • Deep Learning : 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 기반하여 구축한 기계학습 기술 중 하나

ㅇ 데이터의 유형

  • 정형데이터 : 형태 존재, 연산 가능, RDBMS에 저장 (RDBMS, CSV, spread sheet 등)
  • 반정형데이터 : 형태 존재, 연산 불가능, 파일로 저장 (XML, HTML, JSON, 웹로그, 센서데이터 등)
  • 비정형데이터 : 형태 없음, 연산 불가능, NoSQL에 저장 (소셜데이터, 영상, 이미지, 음성, 텍스트 등)
728x90