반응형
이 글은 빅데이터 개념, 데이터의 세 가지 종류, 기존 데이터와 빅데이터의 차이 핵심 정리를 담고 있습니다.
빅데이터(Big Data) 개념
- 관리에 고비용이 필요하거나, 가치를 추출하기 어려운 모든 데이터를 의미
- 일반적인 DB SW 범위를 초과하는 규모의 데이터를 의미
- 방대한 양 volume(TB, PB, ZB...) + 비정형성/다양성 variety(이미지, 음성, 텍스트...) + 단기간/빠른 생산 속도 velocity + 복잡성 complexity
데이터의 세 가지 종류
- 정형 데이터(Structured Data)
定(정할 정) + 型(거푸집 형): 형식이나 틀이 정해져 있다.
즉, 엑셀 시트, table의 컬럼과 로우로 정해진 형식(구조)에 따라 저장되는 데이터.
이산형(숫자, 날짜) 및 짧은 텍스트 등이 데이터로 저장된다.
- 비정형 데이터(Unstructured Data)
非(아닐 비) + 定(정할 정) + 型(거푸집 형): 형식이나 틀이 정해져 있지 않다.
즉, SNS에 자유롭게 올라오는 이미지, 음성, 영상, 텍스트처럼 정해진 형식(구조) 없이 저장되는 데이터.
지금 이 블로그의 글도 비정형 데이터이다.
- 반정형 데이터(Semi-Structured Data)
半(반 반) + 定(정할 정) + 型(거푸집 형): 완전한 정형이 아닌, 약한 정형.
데이터 형식(구조)이 변할 수 있기에, 데이터 형식(구조) 정보 설명을 함께 저장한 파일 형식 데이터.
파일 내 설명을 바탕으로, 반정형 데이터를 table형식의 데이터베이스 스키마로 변환 후 데이터를 매핑하면 정형 데이터로 변환 가능하다.
반정형 데이터로는 오픈 API(JSON, XML) / URL(HTML) / 센싱 데이터 등이 있고, 이를 통해 데이터를 교환할 수 있다.
기존 데이터 VS 빅데이터
- 빅데이터는 기존 데이터보다 실시간으로, 빠르게 생산됨.
- 빅데이터는 주로 반정형, 비정형 데이터. 기존 데이터는 주로 정형 데이터.
- 이에 따라 현재 데이터 분석은 미래 예측, 솔루션 제안 등의 방향성을 보임.
반응형
'개념 및 기타 정리' 카테고리의 다른 글
개인화 마케팅 초개인화 마케팅 차이 (개념과 사례 핵심 정리) (6) | 2024.09.26 |
---|---|
공간 시각화 개념 핵심 정리 (0) | 2024.05.16 |
Stickiness(고착도) 개념 핵심 정리 (0) | 2024.04.01 |
리텐션 측정 방법 세 가지(클래식, 롤링, 레인지 리텐션) 개념 핵심 정리 (1) | 2024.03.29 |
리텐션(Retention) 개념 핵심 정리 (0) | 2024.03.27 |