Kaggle/Enefit (ML 팀프로젝트)

Enefit - Predict Energy Behavior of Prosumers

김뚱입니다 2023. 12. 8. 01:45

머신러닝을 배운 뒤 바로 팀 프로젝트로 케글 대회에 참여하게 되는데....

뭔가 걸음마를 떼고 나서 바로 '너 걸을 수 있지? ㅇㅋ. 마라톤 ㄱㄱ'

체감상 이런 느낌이다.... (물론 내 실력이 부족해서다)

 

 

세상은 넓고 나는 너무 작다...(진짜)

 

 

[물론 프로젝트를 진행하면서 ML에 대해서 엄청나게 공부하겠지만

이미 어느 정도 베이스가 되어있는 분들이랑 팀이 되면 헉헉거리면서 따라갈 것 같다]

라고 생각했었는데 이미 팀이 나와버려서 진행 중이다!!! 이럴 수가!!!!

 

물론 코딩 프로젝트는 아니지만 학부생 때 팀장 역할을 여럿 해봤기 때문에

무임승차를 극혐해서 어떻게든 팀에 도움이 되게끔 최선을 다 할 예정!!!

 

사실 대학교 때 팀플에서도 통수당한 적 있어서 교양 강의 같은 경우

개인으로 프로젝트를 진행했었다..... (그런데도 A+ 주신 교수님 사랑합니다 ㅠㅠ)

 

그치만 이건 내가 학부생 때 배운 내용도 아니고 대체 뭔 소린지!!!!!

이해하는 중이기 때문에.....

진짜 분단위로 시간 쪼개서 팀플 참가 & ML 공부를 해야 할 듯싶다.

 

잡설은 여기까지 하고 그래서 Enefit으로 대회 참여하는데 이게 뭔가 싶어서 살펴봤다

대회 명은 Enefit - Predict Energy Behavior of Prosumers

대회  TagsTabular, Energy, Time Series Analsis이다!

 

무슨 대회인지 간략하게 설명하자면 제목 그대로 에너지 사용량 예측이다

에너지는 전기!

 

발트 지역의 가장 큰 에너지 회사인 Enefit에서 대회를 통해

Prosumer의 에너지 예측 모델을 만들어 에너지 불균형 비용을 줄이고

태양 전지판을 설치한 에스토니아의 에너지 소비자 전기 생산량과 소비량을 예측하는 것이 목표라고 한다!

 

여기서 에너지 불균형이란 실제 에너지 사용량 & 생산량이 예측값과 일치하지 않는 상황이고

Prosumer은 에너지를 동시에 생산하고 소비하는 사람들이라고 한다. 위의 불균형에 영향을 미친다.

 

살짝 당황한 부분이 있었는데...

대회 제출 파일이 submission.csv가 아니라 kaggle notebook을 제출한다는 것!!

그래서 어떻게 제출하는 건지 잠시 헤맸었다 ㅎㅎ;

 

결과 평가 방식을 잠시 알아보면

Regression machine learning task이고 위에서 말했다시피

예측 전기량과 실제 전기량을 비교한다.

각 예측 단위(카운티, 사업 여부, 제품 유형)에 대한 시간별 전력 소비 또는 생산량인

'target' 값을 포함 [row_id, data_block_id, target]해야 한다.

 

Evaluation Metric은 Mean Absolute Error (MAE)이다!

 

 

이 대회에서 사용하는 Dataset은 다음과 같다

  • train.csv
  • gas_prices.csv
  • client.csv
  • electricity_prices.csv
  • forecast_weather.csv
  • historical_weather.csv
  • public_timeseries_testing_util.py
  • example_test_files
  • example_test_files/sample_submission.csv
  • example_test_files/revealed_targets.csv

자세하게 보고 싶다면 해당 링크 참고!

https://www.kaggle.com/competitions/predict-energy-behavior-of-prosumers/data?select=enefit

 

Enefit - Predict Energy Behavior of Prosumers | Kaggle

 

www.kaggle.com

 

컬럼별로 자세하게 설명하고 싶지만 직접 들어가서 보는 게 더 직관적이라....

TMI가 될 것 같아서 생략한다! (진짜 귀찮아서 그러는 거 아님 ㅎㅎ)

 

무슨 대회인지 간략? 하게 설명했으니 이번 글은 여기까지

다음글에는 Baseline code 선택과정과 모델 성능 향상을 위한 몇 가지 과정들을 설명할 예정이다!

진짜 쉽지 않았다.... (애초에 머신러닝 이제 막 배우고 심지어 소화 못한 상태로 뛴 느낌)

 

앞으로 남은 기간 동안 문제를 해결하면서 멘탈이 살짝 나가는 과정과

어떻게든 결과를 만들어내는 여정을 적어볼 예정이다.... 제발 에러 없이 잘 돌아가주세요!!! ㅠㅠ

 

할 수 있다!!!! 해보자구!!!