본문 바로가기
데이터 분석

[데이터 분석] 1분 안에 이해하는 인과관계와 상관관계

by 명석한 쭌이 2024. 1. 8.

 

인과관계를 가진다는 것은 곧 상관관계를 가진다는 뜻이나,
상관관계를 가진다고 해서 항상 인과관계를 가지는 것이 아니다.


상관관계

말 그래도 두 개의 변수와의 상관성을 나타내는 지표를 말한다. 이 상관관계의 정도를 수치값으로 표현한 지표가 있는 데 그것이 바로 상관계수이다. 통계학의 관점에서 보자면 보통 -1 ~ 1 사이의 값으로 표현되며, 상관관계가 없음을 나타내는 0을 기준으로 -1에 가까울수록 음의 상관관계, 1에 가까울수록 양의 상관관계가 강하게 나타난다고 해석할 수 있다.

 

인과관계

'원인과 결과의 관계를 말한다.' 사건 A가 발생했기 때문에 사건 B가 발생했다. 라면 사건 A와 사건 B는 인과관계인 것이다.

인과관계와 상관관계를 헷갈리시는 분들이 많은 데 하나의 예시를 통해 설명해보겠다.

'한 겨울날 기온이 영하권으로 떨어질 정도의 극심한 한파 속에 패딩의 판매가 증가하였으며, 독감환자의 수가 늘어났다'

 

여기서 주목해야 할 것은 3가지 사건이다

1. 기온이 영하권으로 떨어졌다.

2. 패딩의 판매가 증가하였다.

3. 독감환자의 수가 늘어났다.

 

이 중 2가지 사건을 뽑아 상관관계 유무를 판단할 시 모든 경우에 대해 상관관계가 성립한다.

 

하지만 인과관계의 경우는 다르다. 2번과 3번의 사건은 인과관계가 성립이 되지 않는다. 왜일까?

인과관계의 성립 조건은 원인 인자인 독립변수가 결과 인자인 종속변수에 직접적인 영향을 주어야 한다.

패딩의 판매가 증가한 것이 독감환자의 수가 늘어난 것에 직접적인 영향을 주었다고 보는가?

이 둘의 관계는 단지 기온이라는 독립 변수의 변화로 인해 같이 영향을 받은 별개의 종속변수일뿐이다.

(따라서 기온과 패딩, 기온과 독감환자는 인과관계가 성립한다.)

 

결론은

패딩의 판매와 독감환자의 수는 상관관계는 성립하나 인과관계는 성립하지 않는다.

이 예시가 인과관계와 상관관계의 차이를 이해하는 데 큰 도움이 될 것이다.