본문 바로가기
데이터 분석

머신러닝이란? [ 지도 / 비지도 / 준지도 / 강화 4가지 학습법 ]

by 명석한 쭌이 2023. 9. 16.

 

 

머신러닝 ( Machine Learning )이란?

 

출처:픽사베이(Pixabay)

많은 분들이 모르시겠지만 머신러닝은 이미 100여 년의 역사는 가지고 있으며, 인터넷 도입되고 1990년대부터 본격적으로 그 유용성이 널리 알려지게 되어, 현재 각광받는 단계까지 오게 되었다. 머신러닝은 IT 및 데이터 계열의 기업 및 조직 내에서는 이미 대부분이 사용하고 있으며, 엄청난 잠재력을 갖고 있다. 더 주목해야 할 점은 머신러닝의 성장 및 발전은 아직도 현재진행형이라는 것이다.

 

머신러닝이란 말 그대로 "기계가 스스로 학습하는 능력"을 의미합니다. 기계가 경험을 통해 지능을 얻을 수 있도록 돕는 인공지능의 한 부분이라고 할 수 있습니다. 

 

머신러닝의 흥미로운 부분 중 하나는 일부 데이터에 대해 무작위로 시작된 학습이 주어진 작업에 대한 의미있는 특징 및 패턴을 학습하는 시스템이라는 것입니다. 이러한 학습은 수치와 같은 정형 데이터뿐만이 아니라 얼굴/음성 감지/인식 또는 이미지 분류 등에 유용할 수 있습니다.

또 머신러닝이 현대 사회에 꼭 필요한 이유가 요즘 데이터는 인간이 스스로 처리하고 분석하기에는 너무 많다는 것입니다. 생성되는 모든 데이터를 처리하고 학습하는 자동화 시스템이 없었다면 그 방대한 데이터를 감당하기 힘들었을지 모릅니다.

 

하지만 이러한 머신러닝도 문제는 있습니다. 우선, 머신러닝이 모든 경우에 제대로 작동한다는 보장이 없습니다. 때로는 머신러닝은 실패할 수 있으며, 올바른 알고리즘을 적용하려면 해결해야할 문제에 대한 이해가 필요합니다.

 

머신러닝의 전체 프로세스는 데이터의 관찰로부터 시작됩니다. 데이터는 머신의 의사결정 과정을 원활하게 진행하기 위해 이에 맞는 가능한 패턴으로 변환됩니다. 물론, 이는 쉽고 단순한 과정이 아니어서 머신이 사람의 도움이나 개입 없이 자동으로 새로운 개념을 학습할 수 있을 때까지 계속 충분히 진행해 줍니다.

 

머신러닝 학습에 따른 구분

지도 학습

흔히 정답이 있는 데이터로 분석하는 학습으로, 타겟 변수인 종속 변수가 주어진 상태의 학습을 말합니다. 정답이 주어진 상태에서 학습하는 가장 보편적인 학습기법이지요. 즉, 머신이 과거 경험의 도움을 받아 새로운 데이터를 스스로 성공적으로 처리할 수 있을 때, 사용됩니다. 새 데이터의 출력을 예측하는 데 비교의 지표로 삼을 수 있는 실제 훈련(Train) 데이터 세트가 있어 성능의 평가가 무난하며, 이렇게 나온 평가의 결과가 예측 결과가 실제 결과와 다를 경우 잘 만들어진 머신은 그에 따라 모델을 수정할 수 있기도 합니다.

 

지도학습은 또한 여러 알고리즘이 있습니다. 큰 범주로는 분류와 회귀의 방식으로 나뉠 수 있으며,

하나씩 열거해 보자면, KNN(K-Nearest Neighbor ), 서포트 벡터 머신 ( Support Vector Machine, SVM ), 의사 결정 트리 ( decision trees ), 랜덤포레스트 ( Random forest ) , 인공 신경망 ( Neural Network ) 등의 다양한 모델로 구분됩니다.

각자 알고리즘 마다의 특징 및 장단점 그리고 사용자의 선호도에  따라 하나의 알고리즘이 선택되어, 지도학습에 이용될 수 있습니다. 또한 각 알고리즘마다의 고유한 하이퍼 파라미터 ( Hyper parameter )가 있는 데, 이를 통해 지도 학습의 결과가 달라질 수 있습니다. 이 부분을 마스터하기 위해서는 알고리즘에 대한 깊은 이해와 경험이 필요합니다.

 

비지도 학습

비지도 학습은 지도 학습과 상반된 개념으로, 정답이 없으며, 데이터 속에서 패턴을 찾아내는 학습으로, 타겟 변수인 종속변수가 없는 상황에서 학습을 진행합니다. 그럼 어떻게 학습을 하는지 의아할 수도 있는 데, 비지도 학습에선 훈련(Train) 데이터의 패턴을 통해 학습과정을 거칩니다. 따라서, 지도 학습에 비해 올바른 결과를 가져올 가능성은 현저히 낮은 데, 이것이 바로 지도학습에 비해 활용도가 낮은 큰 이유가 될 것입니다. 대표적으로 군집분석이 있는 데, 패턴을 파악하는 알고리즘으로 매우 유용합니다. 

 

준지도 학습

위에 얘기한 2가지 학습법에 비해 많이 알려지지 않은 학습법입니다. 위에 말씀드린 2가지 학습법을 합친 학습법으로 준지도 학습은 분류된 데이터와 분류되지 않은 데이터를 모두 사용합니다. 분류된 데이터(지도학습)의 양은 분류되지 않은 데이터(비지도 학습)에 비해 상대적으로 그 수가 적을 때 활용하면, 학습의 정확성을 올리고 학습능력을 향상 시키는 데 도움이 됩니다.

 

강화 학습

강화 학습은 시행착오를 거쳐 작동합니다. 머신은 상호작용과 행동을 통해 학습합니다. 학습 정확도를 극대화하려면 이상적인 행동을 자동으로 파악해야 합니다. 최선의 행동에 대해서는 기술적으로 강화 학습이라고 불리는 긍정적인 피드백으로 보상을 받습니다. 그리고 잘못된 행동에 대해서는 벌점을 받습니다.

 

머신러닝은 가능한 위험과 함께 더 빠른 결과와 더 높은 정확성을 통해 방대한 양의 데이터를 쉽게 평가합니다.

 

기계 학습의 예시

기계 학습은 고급 개념처럼 보일 수 있지만, 알게 모르게 우리 각자의 일상에서 이러한 개념의 애플리케이션을 쉽게 접할 수 있습니다.

예를 들어, 아마존 등 온라인 쇼핑사이트와 넷플릭스 등 스트리밍 사이트의 온라인 추천 코너, 은행 및 관련 회사에 보험 및 기타 금융 제안 요청, 자율주행 구글 카(car), 사기 탐지 등  활용 사례를 어렵지 않게 접하고 이해하실 수 있습니다.

 

이렇게 안정적이고 신뢰할 수 있는 기계 학습 시스템을 만들기 위해서는 베이지안 정리와 같은 특정 알고리즘 및 정리에 대한 지식과 함께 다음 전제 조건을 잘 준비해야 합니다.

  • 데이터 생성 및 준비 기능
  • 기본 및 고급 알고리즘
  • 자동화 및 반복 프로세스
  • 확장성
  • 앙상블 모델링

업종 및 조직별 기계 학습 활용 사례

금융 서비스

은행 및 기타 금융 회사는 기계 학습을 사용하여 사기를 탐지하고 회사 성장에 대한 중요한 통찰력을 식별합니다. 기계 학습은 최고의 투자 기회를 찾고, 위험이 높은 고객을 인식하고, 적절한 거래 시기를 결정하는 등의 작업을 수행하는 데 도움이 됩니다.


정부

정부 기관은 도난이나 사기가 발생할 경우 특정 사람의 신원을 식별하기 위해 채굴해야 하는 엄청난 양의 사람들의 데이터를 보유하고 있습니다.


건강 관리

건강 관리는 기계 학습의 출현으로 엄청난 이점을 얻었습니다. 의사와 의사가 환자의 건강에 대한 실시간 데이터를 평가하고 그에 따라 행동하는 것이 더 쉬워졌습니다. 이 기술은 또한 미래의 건강 위험과 예방 조치를 식별하는 데 도움이 됩니다.

소매

소매 웹사이트에는 기계 학습의 도움을 받아 추천 제품과 다른 사람들이 구매하는 제품 섹션이 표시됩니다. 이러한 웹사이트는 수백만 명이 사용하고 있기 때문입니다. 최적화된 가격, 효과적인 마케팅 캠페인, 고객 통찰력, 상품 계획을 결정하고 사용자에게 개인화된 쇼핑 경험을 제공하려면 데이터를 철저히 분석해야 합니다.


석유 및 가스

석유 및 가스 산업은 탐사에 크게 기반을 두고 있습니다. 기계 학습은 새로운 에너지와 광물 자원을 찾는 데 도움이 됩니다. 감지 외에도 정유소 센서 고장도 예측합니다.


운송

운송 산업은 기계 학습을 통해 발생할 수 있는 위험을 예방함으로써 신뢰성이 높은 경로를 찾아냈습니다. 이제 도로 손상, 발생할 수 있는 위험 등을 예측하는 것이 더 쉬워졌습니다.