통계학의 개념
실험이나 조사 등을 수행할 때 계측 또는 관측 대상인 사람이나 사물의 집합을 모집단이라고 한다.
이 모집단은 보통 규모가 매우 크므로, 모집단 내 모든 개체를 전수조사하는 것은 금전적 혹은 시간적으로 쉽지 않은 일이다. 이에 대한 대안책으로 모집단의 일부를 추출한 표본을 조사하게 되는 데 이를 표본조사라고 한다.
통계학 특징
통계학은 여러 실무 사례에서 응용되고 있어 구체적이며, 객관적인 요소들이 많다. 따라서 접근성이 좋다고 할 수 있지만 수학적 언어를 베이스로 하는 학문이기 때문에 이것을 먼저 알아야 한다. 하지만 이런 부분이 배움에 있어서 이득이라고 할 수 있다. 수학은 여러 학문에 통용되는 언어이기에 수학 이론을 통해서 데이터 해석에 대해서 논리적으로 일반성 및 범용성을 부여할 수도 있기 때문이다.
즉, 자신의 전문 분야가 경제든 마케팅이든 혹은 의료, 생물, 품질 관리든 상관없이 같은 데이터 해석의 논리를 이용할 수 있어서 누구나 배우고 응용할 수 있다. 여러 번 얘기하지만 통계학의 일반성은 바로 수학에서 나온다고 할 수 있다.
통계학의 역할 4가지
1. 개념의 수치화
말 그대로 개념을 수치로 나타내는 역할을 말한다. 무수한 예시들이 있지만 이해를 돕기 위한 예시 2가지를 들자면
상위 부자들의 자산 규모, 인간의 신체 정보(키, 몸무게)가 있다.
이와 같이 사회에 적용되는 개념을 수치로 나타낼 수 있는 가지 수는 셀 수 없이 많을 것이다. 이를 개념의 수치화 역할이라고 한다. 이 수치의 데이터는 객관성을 지니고 있다.
수치 자체는 객관성을 가지지만 수치 데이터와 개념이 무조건 똑같이 대응하는 것은 아니다. 예를 들면 어느 축구 선수의 패스 성공률이 높다고 해서 선수의 능력이 반드시 완전히 대응되는 것은 아니다. 능력에는 패스를 잘하는 것 만으로 나타내기 어려운 측면이 있기 때문이다.
2. 예측
흔한 예시로는 비즈니스가 있다. 미래의 확실치 않은 수치를 현재에서 미리 예측해야 할 때가 있다.
이를 가능하게 해주는 것이 통계이며, 통계학적 근거를 통해 예측의 정확도를 미리 알아낼 수 있다.
대표적인 예측을 위한 통계 기법에는 회귀 분석과 시계열 분석이 있다.
회귀 분석은 x(독립변수)를 통해서 y(종속변수)를 예측하는 것으로 산점도를 통해 활용하는 것이 일반적이다. 즉, 모두 수치 데이터여야만 하며, 상관관계의 척도인 나타낸 회귀선을 통해 일어나지 않은 구간의 y값을 예측할 수 있게 된다.
시계열 분석은 시간의 흐름에 따른 수치데이터의 분석기법으로 시간 데이터가 독립변수로 활용된다는 점이 회귀분석과의 차이점이다. 시간의 흐름에 따른 종속변수의 변화를 토대로 아직 확인되지 않은 미래의 종속변수 값을 유추할 수 있게 된다.
3. 가설 설정
어느 빵집에서 빵 1000개를 만드는 시간이 평균 50시간 표준편차 15시간이라고 가정하자. 만약 빵집의 제조법을 바꾸었을 때 1000개를 만드는 시간이 보다 빨라질지 혹은 느려질지 알고 싶다.
여기에 대한 답은 통계적 가설 검정의 틀을 사용해서 얻을 수 있다. 모집단에 대해 귀무가설, 대립가설 두 가지 가설이 있을 때 데이터를 근거로 하여 한쪽 가설을 선택하는 통계 기법을 말한다. 경제, 의학, 상업, 비즈니스 등 여러 분야에서 활용된다.
4. 분류
국내 여행사가 놀러 온 외국인 관람객들을 안내하고 있다. 이들이 추천하는 여행코스는 경기도, 경상도, 전라도 , 강원도, 제주도 총 5가지 경우의 수가 있으며, 외국인 관람객들에게 이 중 하나의 여행지를 제안해야 한다면 어디가 좋을까?
이러한 경우를 분류 문제로 볼 수 있다. 외국인 관람객들의 여러 특성, 성향을 토대로 맞는 여행코스를 추천해 줄 수 있을 것이다. 분류 분석의 핵심은 종속변수가 수치가 아닌 문자 데이터라는 것도 주목하자.
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 1분 안에 이해하는 인과관계와 상관관계 (1) | 2024.01.08 |
---|---|
머신러닝이란? [ 지도 / 비지도 / 준지도 / 강화 4가지 학습법 ] (0) | 2023.09.16 |
[선형대수학] 전치행렬, 단위행렬, 역행렬에 대해서 제대로 알아보자! (0) | 2023.01.02 |
[python] 함수 호출 return문, print문 차이 (0) | 2022.12.31 |
[Python] 시계열 데이터 '분(m)' 데이터를 '시간(h):분(mm)' 형식으로 변환 (0) | 2022.12.29 |