본문 바로가기

데이터 분석12

[데이터 분석] 문제 정의 (Problem Definition) 의 중요성 들어가기에 앞서 데이터 분석과정은 문제 정의 > 가설 수립 > 실험 설계 > 결론 도출의 과정을 거칩니다. 그중에서 이번 포스팅에서는 그 첫 단계인 문제정의에 대해 자세히 다뤄보겠습니다. 문제 정의의 개념을 설명하기 전에 한가지 예시를 들려드릴 건데요. 당신은 친구와의 약속을 위해 A라는 곳을 향해 운전을 해서 가야 합니다. 하지만 A라는 곳은 외진 곳으로 전혀 가본 적도 없는 당신은 결국 내비게이션을 써야 합니다. 네비게이션을 통해 목적지를 정확히 확인한 당신은 목적지 A에 무사히 도착할 수 있었습니다. 이 예시 과정을 데이터 분석 과정에 빗대어 보면 내비게이션을 통해 목적지를 분명히 확인하는 과정이 문제 정의 과정에 해당됩니다. 이를 통해 문제 정의가 얼마나 중요한 단계인지 감이 오시나요? 문제 정의.. 2024. 1. 10.
[데이터 분석] 1분 안에 이해하는 인과관계와 상관관계 인과관계를 가진다는 것은 곧 상관관계를 가진다는 뜻이나, 상관관계를 가진다고 해서 항상 인과관계를 가지는 것이 아니다. 상관관계 말 그래도 두 개의 변수와의 상관성을 나타내는 지표를 말한다. 이 상관관계의 정도를 수치값으로 표현한 지표가 있는 데 그것이 바로 상관계수이다. 통계학의 관점에서 보자면 보통 -1 ~ 1 사이의 값으로 표현되며, 상관관계가 없음을 나타내는 0을 기준으로 -1에 가까울수록 음의 상관관계, 1에 가까울수록 양의 상관관계가 강하게 나타난다고 해석할 수 있다. 인과관계 '원인과 결과의 관계를 말한다.' 사건 A가 발생했기 때문에 사건 B가 발생했다. 라면 사건 A와 사건 B는 인과관계인 것이다. 인과관계와 상관관계를 헷갈리시는 분들이 많은 데 하나의 예시를 통해 설명해보겠다. '한 겨.. 2024. 1. 8.
머신러닝이란? [ 지도 / 비지도 / 준지도 / 강화 4가지 학습법 ] 머신러닝 ( Machine Learning )이란? 많은 분들이 모르시겠지만 머신러닝은 이미 100여 년의 역사는 가지고 있으며, 인터넷 도입되고 1990년대부터 본격적으로 그 유용성이 널리 알려지게 되어, 현재 각광받는 단계까지 오게 되었다. 머신러닝은 IT 및 데이터 계열의 기업 및 조직 내에서는 이미 대부분이 사용하고 있으며, 엄청난 잠재력을 갖고 있다. 더 주목해야 할 점은 머신러닝의 성장 및 발전은 아직도 현재진행형이라는 것이다. 머신러닝이란 말 그대로 "기계가 스스로 학습하는 능력"을 의미합니다. 기계가 경험을 통해 지능을 얻을 수 있도록 돕는 인공지능의 한 부분이라고 할 수 있습니다. 머신러닝의 흥미로운 부분 중 하나는 일부 데이터에 대해 무작위로 시작된 학습이 주어진 작업에 대한 의미있는 .. 2023. 9. 16.
[확률과 통계]통계학의 개념 및 역할 4가지 통계학의 개념 실험이나 조사 등을 수행할 때 계측 또는 관측 대상인 사람이나 사물의 집합을 모집단이라고 한다. 이 모집단은 보통 규모가 매우 크므로, 모집단 내 모든 개체를 전수조사하는 것은 금전적 혹은 시간적으로 쉽지 않은 일이다. 이에 대한 대안책으로 모집단의 일부를 추출한 표본을 조사하게 되는 데 이를 표본조사라고 한다. 통계학 특징 통계학은 여러 실무 사례에서 응용되고 있어 구체적이며, 객관적인 요소들이 많다. 따라서 접근성이 좋다고 할 수 있지만 수학적 언어를 베이스로 하는 학문이기 때문에 이것을 먼저 알아야 한다. 하지만 이런 부분이 배움에 있어서 이득이라고 할 수 있다. 수학은 여러 학문에 통용되는 언어이기에 수학 이론을 통해서 데이터 해석에 대해서 논리적으로 일반성 및 범용성을 부여할 수도.. 2023. 5. 21.