ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Upstage AI Lab 3기] Upstage Machine Learning Regression 대회
    인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 7. 25. 16:46

    목차

      Upstage Machine Learning Regression 대회 기지개팀(5팀)

       

      대회 소개

      • House Price Prediction 경진대회는 서울의 아파트 실거래가를 효과적으로 예측하는 모델을 개발하는 대회입니다. 부동산은 개인과 판매자, 그리고 정부 모두에게 중요한 요소로, 아파트 자체의 가치뿐만 아니라 주변 환경(강, 공원, 백화점 등)에 의해 가격이 변동됩니다.
      • 이 대회는 다양한 부동산 관련 의사결정을 돕기 위해 서울시의 아파트 실거래가를 예측하는 모델을 개발하는 것을 목표로 합니다.
        • 개인: 합리적인 가격에 좋은 집을 찾기 위함
        • 판매자: 적절한 가격에 집을 판매하기 위함
        • 정부: 비정상적 시세 변동 및 부정 거래를 파악하기 위함

       

      Timeline

      • 대회기간 : 2024년 7월 9일 ~ 7월 19일

       

      Evaluation

      • RMSE
        RMSE는 예측된 값과 실제 값 간의 평균편차를 측정합니다.
        아파트 매매의 맥락에서는 회귀 모델이 실제 거래 가격의 차이를 얼마나 잘 잡아내는지 측정합니다.

       

      팀 구성

       

      개인 Branch

       

      설계

      • 평가지표
        • Train / Valid / Test / Submission 별 점수 비교를 위한 성능 지표 설계
        • RMSE 외 보조 지표(R-squared, MAE) 함께 활용
      • 실험 기록
      • 실험 결과로부터 인사이트 도출과 팀원간 원활한 공유를 위해 테이블 생성
      • 항목 : 실험 일시, 수행 시간, 모델, 피처, 하이퍼 파라미터, 평가지표, 분석 내용 등

       

      수행 절차

      1. 강의 수강 및 베이스라인 코드 확인
      2. 기본 데이터 분석 및 전처리
      3. 자료 탐색 : 외부 데이터, 논문, 대회
      4. 피처 엔지니어링
      5. 피처 셀렉션
      6. 데이터셋 분할 : Hold Out, Time Series
      7. 모델링
        • 모델 선정 : Random Forest, LightGBM, XGBoost, CatBoost, 앙상블
        • 하이퍼 파라미터 튜닝
        • 학습 및 예측
        • 성능 평가
      8. 위 반복

       

      데이터 및 상세 내용

      • 저작권 관련된 항목이 있어서, EDA 관련 2개 정도만 기입한다.
      • 상단에 기입한 git 주소 접속하면, 상세 내용을 확인할 수 있다.

       

      나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했는가?

      • 시간 확보를 위해, 수업을 미리 땡겨서 듣기!
      • BP 사례 찾기
        나는 이미 본 대회를 치룬 앞선 기수의 자료를 찾아보는데에, 시간을 많이 투자하였다.
        같은 데이터를 사용했었던 경험이 녹아져 있기에, 가장 빠르고 가장 확실한 방법이라 생각된다.
      • 팀원의 의견 존중하고, 공유하기
        결국, 혼자보다 머리를 맞대는 것이다.
        확실히 적은 인원으로 프로젝트 했을 때보다 인원이 많았을 때,

       

      마주한 한계는 무엇이며, 아쉬웠던 점은 무엇인가?

      • 너무 아쉬운 것은 바로 시간이다.
        실제 수업 들어야 하는 시간을 제외하면, 대회 참여 가능한 시간은 4일이었다.
        핑계일까? 다시 생각도 해보았지만,
        몇 개월 전부터 준비하고 참여할 수 있는 데이콘이나 캐글 대회를 생각해보면, 이번 대회는 짧아도 너무 짧았던게 사실이다.
        뭔가 배운 것 조차도 다 적용해보기 어려울 정도의 짧은 시간이었기에 정말 아쉽다.
        더불어, 나의 모델의 점수는 들쭉날쭉하지 않고, 선형적이면서 점진적으로 증가하고 있었기 때문에,
        더욱 아쉽다고 느껴지는 부분이다.
      • 결국 실력 부족이 가장 아쉽다.
        앞선 기수들의 BP 자료도 다 찾아보고, 여러 기법도 적용해보았고,
        팀에서 EDA를 전담하기도 했으면서도, 생각만큼 점수가 오르지 않았다.
        뒤 늦게 나의 데이터 결측치 처리 부분에 아쉬운 부분이 있었음을 발견하였지만,
        이미 대회 마감 시간이 얼마 남지 않았을 시점이었다.
        결국 이 모든 것은 나의 실력 부족이다.

       

      한계/교훈을 바탕으로 다음 경진대회에서 시도해보고 싶은 점은 무엇인가?

      • 역시나 데이터 분포를 파악하는 것이 중요하다!
      • BP를 찾아보고 적용하는게 중요하다!

       

       

      #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #인공지능개발자 #ML #머신러닝 #경진대회 등

      댓글