본문 바로가기
데이터 분석

[데이터 분석] 문제 정의 (Problem Definition) 의 중요성

by 명석한 쭌이 2024. 1. 10.

 

 

들어가기에 앞서

데이터 분석과정은 문제 정의 > 가설 수립 > 실험 설계 > 결론 도출의 과정을 거칩니다.

 

그중에서 이번 포스팅에서는 그 첫 단계인 문제정의에 대해 자세히 다뤄보겠습니다. 

 

문제 정의의 개념을 설명하기 전에 한가지 예시를 들려드릴 건데요.

 

당신은 친구와의 약속을 위해 A라는 곳을 향해 운전을 해서 가야 합니다. 하지만 A라는 곳은 외진 곳으로 전혀 가본 적도 없는 당신은 결국 내비게이션을 써야 합니다. 네비게이션을 통해 목적지를 정확히 확인한 당신은 목적지 A에 무사히 도착할 수 있었습니다.

 

이 예시 과정을 데이터 분석 과정에 빗대어 보면 내비게이션을 통해 목적지를 분명히 확인하는 과정이 문제 정의 과정에 해당됩니다. 이를 통해 문제 정의가 얼마나 중요한 단계인지 감이 오시나요?

 

 

문제 정의란?

 

데이터 분석에서 제일 먼저 시행하는 단계로 문제 및 목적을 명확히 정의하는 단계입니다. 문제 정의를 어떻게 하느냐에 따라 분석의 방향이 완전히 달라질 수 있으며, 여러 좋고 나쁜 결과를 가져울 수 있습니다. 

 

문제 정의에 있어서 중요한 부분 중 하나는 바로 구체화입니다. 두리뭉실한 문제 정의로는 분석의 방향성을 잡기가 어렵습니다. 서울시 종로구 창신동을 가야 하는 데 서울시 종로구로만 목적지를 알고 출발하는 것과 같습니다.

 

문제 정의 예시

 

제가 하나의 예시를 알려드리려 합니다.

데이터 분석 좀 해봤다 하시는 분들은 아시는 자전거 대여 데이터입니다.

https://www.kaggle.com/c/bike-sharing-demand

 

 

문제 정의

 

사람들이 이용하는 자전거 대여량(count)의 현황과 어떨 때에 대여량이 높을까?

 

 

위의 문제 정의는 명확성이 떨어집니다. 가령, 여기서 말하는 '사람'들은 누구인가?

'어떨 때'는 시간을 말하는가? 날씨를 말하는가? 의 의문을 가질 수 있습니다.

 

이것들이 바로 문제 정의를 구체화할 수 있는 열쇠가 됩니다. 아래와 같이 정리해 두었습니다.

  • 위에 말하는 사람들이란 누구인가?
  • 대여량이란 무엇을 기준으로 계산되어지는가?
  • 그 현황이란 대체 언제부터 언제까지를 말하는가?
  • 여기서 말하는 시간은 주(Week) 단위인가? 일(Daily)인가?

 

자 그럼 이걸 통해 구체화된 문제 정의는 다음과 같습니다.

 

최근 3년간 평일의 자전거 대여량과 주말의 자전거 대여량을 구분하여
기후, 날씨, 계절, 날짜/시간 별로 어떻게 대여량이 영향을 받는가?

 

 

이 문제 정의를 보는 순간 데이터 분석의 목적이 더 명확해집니다. 또한 보는 순간 어떤 데이터가 필요한지 보입니다.

"최근 3년의 데이터만 뽑아내면 되고, 컬럼은 시간, 기후, 날씨, 계절 정도가 필요하겠군" 이렇게 생각이 되겠죠

 

하지만 여기서 끝이 아니고 이 문제 정의를 토대로 이후 단계인 가설 설정 단계까지 거쳐야 보다 확실한 분석의 방향성을 잡을 수 있습니다. 가설 설정은 나중에 따로 포스팅할 예정이니 많이 보러 와주세요.^^

 

마무리

 

마지막으로 하고 싶은 말은 문제 정의는 정답이 없다는 것입니다. 방금 예시로 올린 것도 저의 방식 대로 정의한 예시이지 정답이라고 볼 수 없습니다. 이번 포스팅에서 문제 정의에 대한 이해와 제가 얘기하는 핵심 내용들을 알고 가시면 좋겠습니다.