ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Upstage AI Lab 3기] Document Type Classification 대회
    인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 8. 14. 00:36

    목차

      대회 소개

      • 이번 대회는 문서 타입 분류를 위한 이미지 분류 대회입니다. 문서 데이터는 금융, 의료, 보험, 물류 등 산업 전반에 가장 많은 데이터이며, 많은 대기업에서 디지털 혁신을 위해 문서 유형을 분류하고자 합니다. 이러한 문서 타입 분류는 의료, 금융 등 여러 비즈니스 분야에서 대량의 문서 이미지를 식별하고 자동화 처리를 가능케 할 수 있습니다.
      • 이번 대회에 사용될 데이터는 총 17개 종의 문서로 분류되어 있습니다. 1570장의 학습 이미지를 통해 3140장의 평가 이미지를 예측하게 됩니다. 특히, 현업에서 사용하는 실 데이터를 기반으로 대회를 제작하여 대회와 현업의 갭을 최대한 줄였습니다. 또한 현업에서 생길 수 있는 여러 문서 상태에 대한 이미지를 구축하였습니다.

       

      Timeline

      • 대회기간 : 2024.07.30.화 10:00 ~ 2024.08.11.일 19:00

       

      Evaluation

      • Macro F1
        F1 score는 Precision과 Recall의 조화 평균을 의미합니다.
        클래스마다 개수가 불균형할 때 모델의 성능을 더욱 정확하게 평가할 수 있습니다. 수식은 다음과 같습니다.

       

      팀 구성

       

      개인 Branch

       

      수행 절차

      1. EDA
      2. validation set
      3. base model
        1. 데이터 증강은 어떻게 했나요?
        2. 모델 선택은 어떻게 했나요?
      4. Base Model analyze
        1. base model이 보고 있는 것은?
        2. base Model이 잘 구분 못하는 것은?
      5. model enhancement
        1. crop & title crop 데이터 증강
        2. blending 데이터 증강
        3. gray 데이터 증강
        4. padding 데이터 증강
        5. semi supervised learning
        6. ocr
        7. TTA
        8. contrastive learning
        9. 앙상블

       

      데이터 및 상세 내용

      • 저작권 관련된 항목이 있어서, EDA 관련 2개 정도만 기입한다.
      • 상단에 기입한 git 주소 접속하면, 상세 내용을 확인할 수 있다.

       

      나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했는가?

      • 역시나, 직전 대회 때 처럼, 시간 확보를 위해, 수업을 미리 땡겨서 들었다.

      • BP 사례 찾기
        반복적으로 학습하고 대회를 치뤘던 머신러닝과는 다르게, 컴퓨터 비전 관련 수업이나 대회는 처음이었던 상황이다.
        따라서, 가장 효율적이고 인기 많은 모델이 무엇인지 부터, 하이퍼파라미터, 최적화 함수 등등 찾아볼 내용이 많았기에, 해당 내용들을 찾는데 초반 시간 투자를 많이 하였다.

      • 팀원의 의견 존중하고, 공유하기

      • 팀 시너지 효과를 극대화 하기 위해, 모든 것을 공유하였다.

       

      마주한 한계는 무엇이며, 아쉬웠던 점은 무엇인가?

      • OCR 부분이 아쉽다.
        리더보드 순위를 확인해보면, 1~3위 까지와 그 아래로 극명하게 나뉘는데, OCR 성공 여부에서 큰 차이가 있었다.
        우리 팀과 나도 OCR을 여러번 시도하였지만, 번번히 실패하며 우순순위를 낮추었었는데,
        OCR에 아주 조금만 더 시간 투자를 했으면, 결과가 달라졌을 수도 있었겠다고 생각된다.
        하지만, 후회하지 않는다.
        대회에서 점수 올리기 위해 OCR이든 어떤 기법이든 사용하는 것은 자유이고, 점수를 올리면 두 말할 것 없이 잘한 것이 맞지만, 엄연히 OCR은 배우지도 않은 부분이고 이번 대회 의도에도 포함되지 않은 부분이기에, 이를 실패하고, OCR 성공한 팀들에 비해 점수가 낮더라도, 잘 못 하거나 부족했던 부분은 아니기 때문이다.

      • 컴퓨터 자원의 한계가 아쉽다.
        개인당 GTX-3090 서버가 1대씩 부여되었지만, 기존 집에 비슷한 수준의 장비를 보유한 사람은 2배로 빠르게 실험하는 모습을 보았다. 너무 부러운 부분이다.
        그래도, 업스테이지에서 이렇게 비싼 서버 자원을 제공해주어 너무 감사한 부분이다.

       

      한계/교훈을 바탕으로 다음 경진대회에서 시도해보고 싶은 점은 무엇인가?

      • 모든 소스 코드를 함수화 하고, 패키징화 하여, 팀원들끼리 소스코드 공유 및 활용을 더욱 빠르게 할 수 있도록 하고 싶다.
      • 더불어, hydra 와 같은 프레임워크를 통해 체계적으로 구축하고 자동화 할 수 있도록 해야 함을 느낀다.
      • 다른 팀에서 사용한 다음과 같은 기법들 점수가 매우 좋았다. 다음 대회 때, 사용 필요하다.
        efficientnetV2 모델, tinyvit 모델, medianblur 노이즈, paddle OCR

       

       

      #패스트캠퍼스 #UpstageAILab #Upstage #부트캠프 #AI #데이터분석 #데이터사이언스 #인공지능개발자 #ML #머신러닝 #경진대회 등

      댓글