2023. 10. 5. 18:52ㆍADSP
ㅇ빅데이터의 3V
- 양(Volume) : 데이터의 규모
- 다양성(Variety) : 데이터의 유형과 소스
- 속도(Velocity) : 데이터의 수집과 처리
- 가치(Value)
- 시각화(Visualization)
- 정확성(Veracity)
ㅇ빅데이터 정의의 범주 및 효과
- 데이터 변화 (규모, 형태, 속도)
-> 기술 변화 (데이터 처리-저장-분석 기술 및 아키텍쳐, 클라우드 컴퓨팅 활용)
-> 인재, 조직 변화 (Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직)
ㅇ 빅데이터에 거는 기대의 비유적 표현
- 산업혁명의 석탄과 철 : 혁명적 변화
- 21세기의 원유 : 생산성의 향상, 새로운 범주의 산업
- 렌즈 :산업 발전에 영향
- 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물
ㅇ빅데이터가 만들어내는 변화
- 사전처리 -> 사후처리 : 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
- 표본조사 -> 전수조사 : 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터를 활용
- 질 -> 양 : 양질의 정보가 전체적으로 좋은 결과 산출에 긍정정인 영향
- 인과관계 -> 상관관계 : 특정 현상의 발생 가능성 포착
ㅇ빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식 : 특정 데이터를 언제-어디서-누가 활용하는지 알 수 없음, 가치 선정이 어려움
- 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움
- 분석기술 발전 : 가치가 없는 데이터일지라고 새로운 분석 기법이 등장한다면 거대한 가지를 지닐 수 있음
ㅇ 빅데이터 활용 기본 테크닉
- 정형데이터 활용
ㄴ 연관규칙학습 : 상관관계의 발견
ㄴ 유형분석 : 분류
ㄴ 유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 점진적으로 진화
ㄴ 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측
ㄴ 회귀분석 : 독립변수의 조작에 따른 종속변수의 변화를 보면서 두 변인의 관계를 파악
- 비정형데이터 활용
ㄴ 감정분석 : 감정을 분석
ㄴ 쇼셜네트워크분석(=사회관계망분석) : 영향력있는 사람을 찾아냄
ㅇ 빅데이터 시대의 위기 요인
- 사생활 침해 (여행 사실을 트윗 한 사람의 집을 강도가 노림)
- 책임 원칙 훼손 (범행을 저지르기 전에 체포)
- 데이터 오용 (과장된 데이터)
ㅇ위기 요인에 따른 통제 방안
- 사생활 침해 -> 동의에서 책임으로
- 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수
- 데이터 오용 -> 알고리즘 접근 허용 (예측 알고리즘의 부당함을 반증할 수 있는 방법-알고리즈미스트)
ㅇ빅데이터 활용의 3요소
- 데이터 : 모든 것이 데이터화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트
3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
ㅇ산업별 분석 애플리케이션
- 금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 고객 수익성분석, 클레임 분석
- 병원 : 가격 책정, 고객 로열티, 수익 관리
- 에너지 : 트레이딩, 공급, 수요 예측
- 정부 : 사기 탐지, 사례관리, 범죄 방지, 수익 최적화
ㅇ데이터 사이언티스트의 요구 역량
- Hard Skill : 빅데이터 이론적 지식, 분석 기술 등
- Soft Skill : 통찰력(창의적 사고,호기심,논리적 비판), 설득력(스토리텔링,시각화), 협력(커뮤니케이션) 등
ㅇ전략적 통찰력과 인문학의 부활
- 컨버전스 -> 디버전스 : 단순세계화에서 복잡한 세계화로의 변화
- 생산 -> 서비스 : 비즈니스 중심이 제품생산에서 서비스로 이동
- 생산 -> 시장창조 : 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화
ㅇ빅데이터 가치 패러다임의 변화
- 과거(디지털화 Digitalization) : 아날로그 세상을 어떻게 효과적으로 디지털화 하는가
-> 현재(연결 Connection) : 연결을 더 효과적이고 효율적으로 제공해 주는가
-> 미래(에이전시 Agency) : 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가
ㅇ데이터 사이언스의 한계
- 인간의 해석이 개입
- 사람에 따라 전혀 다른 해석과 결론
- 모든 분석은 가정에 근거
+.
ㅇ DBMS(Data Base management System)
- 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용하라 수 있는 환경을 제공
- 효율적인 데이터 검색, 저장 기능 등 제공
- 오라클, 인포믹스, 액세스
ㅇ DBMS의 종류
- 관계형 DBMS
ㄴ 컬럼과 로우를 이루는 하나 이상의 테이블로 정리
ㄴ 키가 존재
- 객체지향 DBMS
ㄴ 정보를 객체 형태로 표현하는 데이터베이스 모델
- 네트워크 DBMS
ㄴ 레코드=노드, 관계=간선, 으로 표현되는 그래프 기반 데이터베이스 모델
- 계층형 DBMS
ㄴ 트리 구조를 기반으로 하는 계층 데이터베이스 모델
ㅇ 개인정보 비식별 기술
- 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)
- 가명처리 : 다른 값으로 대체 (홍국돈, 항곡대학)
- 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
- 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)
- 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)
ㅇ 데이터 무결성
- 데이터에 대한 정확한 일관성, 유효성, 신뢰성 보장을 위해 제한
ㅇ 데이터 레이크
- 데이터 형식, 방식에 상관없이 데이터를 저장하는 시스템
ㅇ 빅데이터 분석 기술
- 하둡(Hadoop) : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- Apache Spark : 실시간 분산형 컴퓨팅 플랙폼, In-Memory 방식으로 하둡에 비해 처리속도가 빠름
- Smart Factory : 공장 내 설비와 기계에 사물인터넷이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화
- Machine Learning : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법
- Deep Learning : 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 기반하여 구축한 기계학습 기술 중 하나
ㅇ 데이터의 유형
- 정형데이터 : 형태 존재, 연산 가능, RDBMS에 저장 (RDBMS, CSV, spread sheet 등)
- 반정형데이터 : 형태 존재, 연산 불가능, 파일로 저장 (XML, HTML, JSON, 웹로그, 센서데이터 등)
- 비정형데이터 : 형태 없음, 연산 불가능, NoSQL에 저장 (소셜데이터, 영상, 이미지, 음성, 텍스트 등)
'ADSP' 카테고리의 다른 글
| [미완]데이터분석 준전문가 요약 (0) | 2023.10.05 |
|---|---|
| [ADSP Day 3~6] 데이터 분석 기획의 이해 (0) | 2023.10.05 |
| [ADSP]1.2. 데이터베이스 (0) | 2023.09.29 |
| [ADSP요약] 1과목 1. 데이터의 이해 (0) | 2023.09.26 |