스터디그룹 대회참여/모듈 스터디 1차(Kaggle 대회 참여)

Multi-Class Prediction of Cirrhosis Outcomes (Kaggle Playground Series) 대회 참여(feat. 스터디그룹)

김뚱입니다 2023. 12. 19. 22:47

현재 국비지원으로 패스트캠퍼스 Upstage AI Lab 1기 과정을 참여하고 있는데,

그전에 진행했던 Computer Vision 스터디그룹을 마무리하고, 새로운 주제로 모듈 스터디(1차)를 진행하게 되었다!!

 

일어나... 공부..해야지...?

 

여러 주제 중에  [ Multi-class classification, Multi-label classification,  Multi-task learning ] 관련 스터디 주제를 선택했는데, 공교롭게도 총 6명 중 4명이 팀프로젝트를 함께한 팀원이었다!

다른 한분은 초반 스터디를 같이 진행하다가 다른 팀으로 이동하신 분이어서 사실상 다 아는 분이었다는 사실 ㅎ.ㅎ!

다 아는 분이여서 더 편했고 좋은 결과를 냈었던 경험이 있기에 앞으로의 과정이 기대도 되는? 기분이었다...!

 

이번 스터디에서는  Kaggle에서 진행하는  [ Multi-Class Prediction of Cirrhosis Outcomes ] 대회에 참여하게 되었는데, 1월 2일에 스터디 결과를 발표하기 때문에 리더보드에 순위를 올리는 성적위주의 submit 보다는

해당 분야 학습을 위해 개인별로 Baseline code 작성을 목표로 설정!

 

사실 kaggle에서 대회를 많이 참여해 본 경험도 없고, 제대로 된 대회 참여는 Enefit 밖에 없었기 때문에

제가 개인적으로 만든 Baseline code는 없었고, Upvote를 많이 받은 Baseline code를 copy&edit 하여 사용했었다.

 

아직 Enefit 대회가 진행중이지만, ML 팀프로젝트를 마무리하면서 나만의 Baseline code의 필요성을 느끼던 중

굉장히 반가운 목표인 동시에 어떻게 처음부터 제출까지 포함한 코드를 작성하지? 하는 걱정도 들었다.

팀장을 맡으신 분이 간략한 팁을 알려주셨고, 이를 바탕으로 코드를 작성하기 위해

ChatGPT 4에게 코드 작성 목차를 추천받았다!

추천받은 목차는 다음과 같다. (더 보기 클릭!)

더보기

 

1. 서론 (Introduction):
 
    대회의 목적 및 배경 설명.
    사용할 데이터셋과 문제 정의.
    
2. 데이터 불러오기 및 첫인상 (Data Loading and First Impression):
 
    필요한 라이브러리 불러오기.
    데이터셋 불러오기 및 첫 번째 데이터 탐색(행, 열, 기본 통계 등).
    
3. 탐색적 데이터 분석 (Exploratory Data Analysis, EDA):
 
    결측치, 이상치 확인.
    각 특성의 분포 및 데이터 간의 관계 분석.
    시각화를 통한 데이터 이해도 증진.
    
4. 데이터 전처리 및 특성 공학 (Data Preprocessing and Feature Engineering):
 
    결측치 처리, 카테고리 데이터 인코딩, 특성 스케일링.
    필요에 따라 새로운 특성 생성 또는 선택.
    데이터셋 분할(훈련/검증/테스트).
    
5. 모델링 (Modeling):
 
    여러 머신 러닝 알고리즘 선택 및 적용.
    교차 검증을 통한 모델 평가.
    하이퍼파라미터 최적화.
    
6. 모델 평가 및 선택 (Model Evaluation and Selection):
 
    각 모델의 성능 비교.
    최종 모델 선택.
    
7. 최종 모델 훈련 및 예측 (Final Model Training and Prediction):
 
    선택된 모델을 전체 훈련 데이터셋에 대해 재훈련.
    테스트 데이터셋에 대한 예측 수행.
    
8. 제출 파일 생성 및 제출 (Submission File Creation and Submission):
 
    예측 결과를 submission.csv 형식으로 저장.
    Kaggle에 제출 파일 업로드.
    
9. 결론 및 추가 작업 (Conclusion and Further Work):
 
    모델의 성능 평가 및 결론.
    향후 개선 가능성 논의.

 

추천 받은 목차를 바탕으로 kaggle notebook에서 목차와 사용할 라이브러리, 사용할 데이터 불러오기 정도는 적어뒀다.

12월 29일까지 제출까지 가능한 Baseline code 작성을 해야 하는데 충분히 가능할거라 예상한다.

물론 이번주 금요일에 스터디그룹 멘토링이 예정되어 있어서 그때까지 최대한 할 수 있는 만큼 해볼 생각이다!

 

 

이전에 진행했던 팀프로젝트도 아직 블로그에 정리하는 글을 올리지 못했고,

코딩테스트 문제 해설도 1일 1문제를 올리려 했으나 ML 프로젝트로 정신이 없어서 하지 못했는데

다시 여유가 생겼으니 재도전할 생각이다.

 

한번 미루니까 오늘도 바쁘니까 괜찮겠지?라는 생각으로 스스로 합리화를 시키게 되어서

다시 마음을 다잡고 해보려한다. 미루면 내일의 내가 고생이니까 ㅠ.ㅠ

같이 부트캠프를 진행하고 있는 교육생분들도 힘내서 완주했으면 좋겠다!! (파이팅!!!)