Kaggle로 시작하는 머신러닝

Short Introduction

이 프로젝트에서는 머신러닝에 대해 공부하고 예측 모델 대회 플랫폼인 Kaggle에서 구현해볼 것입니다. 

Content

  • 프로젝트 진행 동기

머신러닝, 딥러닝에 대해 공부하고 있고 관련 R&E를 진행중인데 조금 더 지식과 실력을 기를 수 있을 것 같아 시작하게 되었습니다

  • 프로젝트의 진행 과정

Pytorch 라이브러리를 사용해 google colab 환경에서 작업했습니다. 

5월 초까지 Kaggle에서 데이터셋은 어떻게 가져올지, 어떤 competition에 참여할수 있을지 알아보았습니다. 

그 후 실제로 2개의 competition에 참가하였습니다. 예측 모델을 제작한 뒤 정확도를 비교할 수 있었고, 이 정확도를 올리고자 data processing을 거치고 더 적합한 model을 찾기 위해 노력하였습니다.  

  • 프로젝트의 결과

타이타닉 생존자 예측:

1차 시도: linear regression 이용 -> 정확도 0.701

2차 시도: logistic regression 이용 -> 정확도 0.740

3차 시도: data normalization -> 정확도 0.760

4차 시도: 모델에 반영되는 변수 추가, epoch 조정 -> 정확도 0.765

Kannada MNIST 분류

1차 시도: Pytorch의 CNN 사용 

2차 시도: Dropout 적용

  • 프로젝트 진행 소감

예측 정확도를 일정 수준 이상으로 올리기는 어려운 점이 많았습니다.

Attachments

https://colab.research.google.com/drive/1p3aOf9ronmiOj0NUMtpE-muvYnqUjJbY


About

본 글은 2022년도 1학기에 21 구본준, 22 윤예준 연구회원이 진행한 프로젝트입니다.

Leave a Reply

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다