본문 바로가기
꿀팁

캐글(kaggle) 데이터를 colab에서 사용할 때 꿀팁 [API 토큰]

by 명석한 쭌이 2024. 1. 16.

데이터 분석 좀 해본 사람들은 오늘 얘기드릴 캐글(Kaggle) 을 모르시는 분들은 없을 거라 생각합니다.

그래도 혹시나 모르시는 분들을 위해서 설명을 드리자면 데이터 분석가가 자신의 기술을 선보일 수 있는 플랫폼을 제공할 뿐만 아니라 누구나 사용할 수 있는 수백만 개에 달하는 무료 데이터 세트를 제공합니다.

또한 캐글(Kaggle)은 데이터 분석 분야에서 많은 대회를 개최하고 우승자에게 보상을 제공합니다. 이력서에 큰 도움이 될 배지를 획득할 수도 있습니다.

 

캐글에서 어떻게 가져와서 어떤 툴로 활용할지는 사람마다 다릅니다. 저처럼 colab에 데이터를 가져와서 활용하시는 분들을 위해 이번 포스팅을 만들었습니다. 

 

바로 캐글 API를 통해 csv와 같은 데이터 파일을 colab에 받아서 쓸 수 있습니다. 이 방법을 추천드리는 이유는 다음과 같습니다.

 

1. 일일이 내 PC에 다운로드하고 colab에 가져다가 쓰는 번거로움을 없앨 수 있습니다.

2. 한번 습득하고 나면 어느 PC나 환경에서든  쉽게 데이터를 가져다가 활용할 수 있습니다.

3. Expire Token을 통해 자신의 API 토큰의 효력을 정지하고 언제든 다시 새로운 토큰을 불러올 수 있는 유용함이 있습니다.

 

 

오른쪽 상단 본인의 프로필 이미지 클릭 > Settings > Account > API 목록의 Create New Token 버튼을 클릭합니다.

그러면 kaggle.json 파일을 다운 받게 됩니다.

 

그 다음 새로운 note book 파일을 아래의 코드를 가져다 실행합니다.

!pip install kaggle
from google.colab import files
files.upload()

 

아래 네모박스(Choose Files)를 누르고 다운로드하였던 kaggle.json 파일을 선택합니다.

(json 파일을 직접 드래그해서 넣는 방법은 안되더군요.)

 

'Saving kaggle.json to kaggle (2).json'

 

위의 문구가 나온 게 확인되면 파일이 잘 업로드된 것이며, 그 다음 아래 코드를 실행합니다.

ls -1ha kaggle.json

 

출력 결과 kaggle.json이 출력된다면 잘 적용된 것입니다.

 

 

그 다음 Kaggle API를 사용하기 위해서는 json 파일을 캐글 경로로 이동시키는 것으로

캐글 데이터 셋을 불러오기 위한 마지막 사전 작업이라고 보면 된다.

!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

 

원하는 데이터셋에 들어오시면 우측 상단에 점 세 개를 누르고 Copy API command를 누릅니다.

!kaggle datasets download -d carrie1/ecommerce-data

 

 

zip 파일인 경우엔 다음과 같이 unzip 명령어를 써줌으로써 압축 해제를 합니다.

!unzip /content/ecommerce-data.zip

 

이렇게 하고 colab의 content 파일 경로를 보시면 데이터 파일이 잘 다운된 걸 보실 수 있을 겁니다.