개념 및 기타 정리

빅데이터(Big Data) 개념 핵심 정리

진리뷰 2024. 4. 3. 09:00
반응형

 

 

빅데이터(Big-Data)-개념-핵심-정리-썸네일
빅데이터 개념 핵심 정리

 

 

 

이 글은 빅데이터 개념, 데이터의 세 가지 종류, 기존 데이터와 빅데이터의 차이 핵심 정리를 담고 있습니다.

 

 

 

빅데이터(Big Data) 개념

 

  • 관리에 고비용이 필요하거나, 가치를 추출하기 어려운 모든 데이터를 의미
  • 일반적인 DB SW 범위를 초과하는 규모의 데이터를 의미
  • 방대한 양 volume(TB, PB, ZB...) + 비정형성/다양성 variety(이미지, 음성, 텍스트...) + 단기간/빠른 생산 속도 velocity + 복잡성 complexity

 

 

 

데이터의 세 가지 종류

 

데이터종류-정형-비정형-반정형-데이터
이미지 출처: https://www.researchgate.net/figure/Different-data-types-structured-semi-structured-and-unstructured-Structured-data-is_fig4_368672613

 

 

  • 정형 데이터(Structured Data)

定(정할 정) + 型(거푸집 형): 형식이나 틀이 정해져 있다.

즉, 엑셀 시트, table의 컬럼과 로우로 정해진 형식(구조)에 따라 저장되는 데이터.

이산형(숫자, 날짜) 및 짧은 텍스트 등이 데이터로 저장된다.

 

정형데이터-예시-엑셀
정형 데이터 예시(엑셀)

 

 

  • 비정형 데이터(Unstructured Data)

非(아닐 비) + 定(정할 정) + 型(거푸집 형): 형식이나 틀이 정해져 있지 않다.

즉, SNS에 자유롭게 올라오는 이미지, 음성, 영상, 텍스트처럼 정해진 형식(구조) 없이 저장되는 데이터.

지금 이 블로그의 글도 비정형 데이터이다.

데이터종류-비정형데이터
비정형 데이터 예시(SNS)

 

 

  • 반정형 데이터(Semi-Structured Data)

半(반 반) + 定(정할 정) + 型(거푸집 형): 완전한 정형이 아닌, 약한 정형.

데이터 형식(구조)이 변할 수 있기에, 데이터 형식(구조) 정보 설명을 함께 저장한 파일 형식 데이터.

파일 내 설명을 바탕으로, 반정형 데이터를 table형식의 데이터베이스 스키마로 변환 후 데이터를 매핑하면 정형 데이터로 변환 가능하다.

반정형 데이터로는 오픈 API(JSON, XML) / URL(HTML) / 센싱 데이터 등이 있고, 이를 통해 데이터를 교환할 수 있다.

 

데이터종류-반정형데이터
반정형 데이터 예시(HTML)

 

 

 

기존 데이터 VS 빅데이터

 

  • 빅데이터는 기존 데이터보다 실시간으로, 빠르게 생산됨.
  • 빅데이터는 주로 반정형, 비정형 데이터. 기존 데이터는 주로 정형 데이터.
  • 이에 따라 현재 데이터 분석은 미래 예측, 솔루션 제안 등의 방향성을 보임.

 

반응형
top