개념 및 기타 정리

데이터 분석에서 흔히 하는 실수(feat. 데이터문해력-카사와기 요시키)

진리뷰 2024. 3. 6. 09:00
반응형

 
 
 

빅데이터-시대-성과를-이끌어내는-데이터문해력
데이터 문해력, 카사와기 요시키

 
 
이 글은 카사와기 요시키의 "빅데이터 시대, 성과를 이끌어내는 데이터 문해력"을 읽으면서 데이터 분석에 대해 간단히 정리한 글입니다.
 
 

데이터 문해력

 

  • 문해력: 글을 제대로 읽고 이해하는 능력, 문해력은 단순히 글을 읽고 쓴다는 차원이 아니다.

 
이 책은 제목 그대로 데이터 문해력, 데이터를 제대로 "활용"하는 방식을 다루고 있다.
조금 더 풀어보면, 데이터를 활용할 때의 사고방식 / 데이터 분석의 핵심 등을 담고 있다.
 
이 책의 목차는 크게 8개로 나뉘어 있다.
이 중 두 번째 목차인 "올바른 데이터로 올바른 문제를 풀고 있는가?"에 대해 간단히 정리해보려 한다.
 
 
 

목적 사고력

 
저자는 두번째 목차에서 데이터 활용 시 자주 하는 실수, 데이터 활용의 실패 이유 등을 언급하며, 목적 사고력이라는 개념을 사용한다.
 

  • 목적 사고력: 목적에 맞는 문제를 설정하고, 그에 맞는 데이터를 사용하는가?를 사고하는 능력

 
이 개념을 강조하는 이유는 많은 사람들이 데이터 활용 프로세스를 간과하기 때문이다.

* 데이터 활용 프로세스 6단계

  • 1. 목적/문제 정의
  • 2. 지표 결정
  • 3. 현 상태 파악
  • 4. 평가
  • 5. 원인 분석
  • 6. 해결 방안 모색

 
데이터 활용에서 가장 먼저 해야 할 일은 목적과 문제를 정의하는 것이며, 이후에 사용할 지표를 결정해야 한다.
하지만 데이터 활용 및 분석에서 흔히 하는 실수는 이를 간과하면서 시작된다.
 
 
 

데이터 분석에서 흔히 하는 실수; 문제 정의의 불명확성, 사용한 데이터의 불일치성

 
저자가 언급하는 데이터 분석에서 흔히 하는 실수의 공통점은 다음과 같다.
 

  • 기존의 자료(데이터/표)를 전제로 결론을 도출한다는 점
  • 사고 전개 과정에서 주관성이 개입한다는 점

 
보통 데이터 분석에 익숙하지 않은, 초보자들은 데이터 분석을 다음의 과정으로 생각한다.
 
😶‍🌫️ 데이터 분석? 그래프/표 수집하고 해당 자료로부터 결론 도출하는 거 아냐?
 
생각해 보면, 대학생 시절의 나 또한 해당 과정으로 과제들을 해결했던 적이 종종 있었다. 기업 분석할 때 시간과 정보 부족의 이유로, 대략적인 현황을 뉴스나 해당 산업 아티클로 파악했다. 그리고 기사에 실린 혹은 기업에서 제공하는 그래프/표를 수집했다. 이후 해당 자료들로부터 표면적인 현상과 문제점을 결론으로 도출하곤 했다.
 
저자는 이런 과정을 다음과 같이 말했다.

프레젠테이션 발표자료에 인구 유출과 유입 관련 그래프를 올려놓고 그 제목에
"매년 인구 유출이 급증하고 있음!"이라고 달아 놓은 것과 마찬가지입니다.

 
* 이렇게 보면 너무나도 당연하게 "실수했네ㅋㅋㅋ 누가 저렇게 해? 바보 아냐?"라고 할 수 있다. 나 또한 처음에는 너무 당연한 이야기라고 생각했으나, 위에서 언급했듯 다양한 이유로 종종 범하던 실수였다.

 
자, 다시 한번 이야기하면 데이터 분석은 가장 먼저 목적/문제 정의부터 명확하게 해야 한다.
 


 
1. 목적/문제 정의
 

  • 사용하는 언어의 구체성과 명확성
"이용자 수가 감소하고 있어서, 수입도 감소한다"라는 문제에 대하여.

 
이 문제에 대해 고려할 것은 이용자, 수입, 감소 등에 대한 언어의 구체성과 명확성이다.
이용자 수가 무료/유료 이용자인지,  DAU/WAU/MAU인지 등을 구체적으로 설정해야 한다.
또한 수입은 순이익/매출액/매출 대비 수익률 등으로 분류될 수 있으므로, 이 또한 구체적으로 설정해야 한다.
감소는 일시적 감소인지, 지속적 감소인지 등으로 분류하고 일시적이라면 얼마나 일시적인지.. 얼마나 지속적인지 설정해야 한다.
 


 

2. 사용한 데이터의 불일치성
 

  • 목적/문제로부터 시작하는가

목적/문제를 명확하게 설정한 이후, 그에 걸맞은 지표를 설정해야 한다.
물론 지표로부터 시작할 수도 있다. 하지만 이런 경우는 보통 지표에 끼워 맞추기 식 결론 도출로 이어지기에, 논리에 허점이 많이 생긴다.
즉, 데이터가 중심이 되지 않고 목적/문제가 중심 되어야 한다.
 

  • 목적/문제에 연결되는 데이터인가

뇌피셜 시나리오는 정확하고 객관적인 데이터일지라도 그 힘을 잃게 만든다는 것이 핵심이다.
책의 사례는 다음과 같다.

"연금 재정이 불안정하다, 때문에 20~30대 정규직이 감소했다"라는 문제에 대하여.

 
분석자는 국민연금 보험료와 연평균 수입 자료를 사용했다. 그리고 두 자료를 바탕으로, "연평균 수입 하락으로 세수가 감소했으며, 이는 연금 재정 악화로 이어진다"는 시나리오를 도출했다.
 
이 사례의 문제점은 여러 가지인데, 그중 핵심적인 문제는 다음과 같다.
분석자는 국민연금 보험료 추이를 연금 재정으로 명명했다. 연금 재정이라는 데이터가 없음에도 데이터를 주관적으로 해석하며 연평균 수입이 감소하는 자료와 연결시켜, 뇌피셜 시나리오를 쓴 것이다.
 


 
이 목차를 읽으면서 느낀 점은 크게 두 가지이다.
 

  • 나의 예민한 감각을 살리자

나는 글을 읽을 때, 말을 할 때 사용한 언어나 문장에 대해 날카로워질 때가 있다. 그러므로 이런 점을 살려서 목적 및 문제점 설정 시, 사회/해당 산업분야에서 통용되는 의미와 사전적 의미를 더욱 더 고려해야겠다.
 

  • 편향성을 경계하자

AI도 편향성을 갖는데, 인간인 나라고 편향성이 없겠는가? 내가 보는 자료와 내가 생각하는 논리는 모두 편향성의 영향력에서 벗어나기 어렵다. 그러므로 나의 시나리오를 타인에게 공유하며 다양한 관점으로 보는 경험을 계속 쌓아야겠다.

반응형
top