인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기
-
[Upstage AI Lab 3기] Data Centric AI 학습 내용인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 10. 2. 19:19
Data Centric AI란?AI 학습을 위해, 데이터를 어디서 수집해오고, 어떻게 정제할 것이며, 어떤 도구가 있는지 등에 관한 내용이다.특별히, AI 성능 향상을 위해 모델링을하는 부분보다, 학습 데이터를 잘 준비하고, 정제하는 부분이 더욱 중요해 지는 형국이다.크게 중요한 내용을 아래 요약하여 남겨본다. 데이터 구축 파이프라인데이터 수집 --> 데이터 전처리 --> 데이터 라벨링 --> 데이터 클렌징 --> 데이터 스플릿(학습, 검증, 테스트) --> 데이터 릴리즈 데이터 수집 방법크롤링관련 사이트(국내)통계데이터센터공공데이터포털서울 열린데이터광장식품안전나라AI허브관련 사이트(국외)kagglepapersWithCodeUCI ML Repohuggingface클라우드소싱크라우드웍스셀렉트스타딥네츄럴텍스..
-
[Upstage AI Lab 3기] Dialogue Summarization | 일상 대화 요약 대회인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 9. 24. 16:23
대회 소개Dialogue Summarization 경진대회는 주어진 데이터를 활용하여 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 개발하는 대회입니다. 그러나 하나의 대화에서도 관점, 주제별로 정리하면 수 많은 요약을 만들 수 있습니다. 대화를 하는 도중에 이를 요약하게 되면 대화에 집중할 수 없으며, 대화 이후에 기억에 의존해 요약하게 되면 오해나 누락이 추가되어 주관이 많이 개입되게 됩니다.일상생활에서 대화는 항상 이루어지고 있습니다. 회의나 토의는 물론이고, 사소한 일상 대화 중에도 서로 다양한 주제와 입장들을 주고 받습니다. 나누는 대화를 녹음해두더라도 대화 전체를 항상 다시 들을 수는 없기 때문에 요약이 필요하고, 이를 위한 통화 비서와 같은 서비스들도 등장하고 있습니다. Timeline..
-
[Upstage AI Lab 3기] 컴퓨터비전 학습 내용인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 8. 21. 17:51
컴퓨터비전 분야 학습했던 내용을 카테고리별로 분류해보았다.정말 방대한 분야이고, 복습해야할 내용도 많지만, 핵심적인 내용을나는 크게 세 가지 분야로 나누고 싶다.고정된 이미지에서 탐색 분야실시간 이미지에서 탐색 분야이미지 생성 분야 고정된 이미지에서 탐색 분야CNN 계열 (Convolutional Neural Networks)CNN은 이미지의 공간적 계층 구조를 학습하여, 각 계층에서 특징 맵(feature map)을 추출하고, 이를 바탕으로 이미지를 분석한다. 주요 CNN 모델로는 LeNet, AlexNet, VGGNet, ResNet, Inception 등이 있다. CNN은 이미지의 저수준(low-level)부터 고수준(high-level)까지의 특징을 학습하는 데 뛰어난 성능을 보인다.Transfo..
-
[Upstage AI Lab 3기] Document Type Classification 대회인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 8. 14. 00:36
대회 소개이번 대회는 문서 타입 분류를 위한 이미지 분류 대회입니다. 문서 데이터는 금융, 의료, 보험, 물류 등 산업 전반에 가장 많은 데이터이며, 많은 대기업에서 디지털 혁신을 위해 문서 유형을 분류하고자 합니다. 이러한 문서 타입 분류는 의료, 금융 등 여러 비즈니스 분야에서 대량의 문서 이미지를 식별하고 자동화 처리를 가능케 할 수 있습니다.이번 대회에 사용될 데이터는 총 17개 종의 문서로 분류되어 있습니다. 1570장의 학습 이미지를 통해 3140장의 평가 이미지를 예측하게 됩니다. 특히, 현업에서 사용하는 실 데이터를 기반으로 대회를 제작하여 대회와 현업의 갭을 최대한 줄였습니다. 또한 현업에서 생길 수 있는 여러 문서 상태에 대한 이미지를 구축하였습니다. Timeline대회기간 : 2024..
-
[Upstage AI Lab 3기] Upstage Machine Learning Regression 대회인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 7. 25. 16:46
대회 소개House Price Prediction 경진대회는 서울의 아파트 실거래가를 효과적으로 예측하는 모델을 개발하는 대회입니다. 부동산은 개인과 판매자, 그리고 정부 모두에게 중요한 요소로, 아파트 자체의 가치뿐만 아니라 주변 환경(강, 공원, 백화점 등)에 의해 가격이 변동됩니다.이 대회는 다양한 부동산 관련 의사결정을 돕기 위해 서울시의 아파트 실거래가를 예측하는 모델을 개발하는 것을 목표로 합니다.개인: 합리적인 가격에 좋은 집을 찾기 위함판매자: 적절한 가격에 집을 판매하기 위함정부: 비정상적 시세 변동 및 부정 거래를 파악하기 위함 Timeline 대회기간 : 2024년 7월 9일 ~ 7월 19일 Evaluation RMSE RMSE는 예측된 값과 실제 값 간의 평균편차를 측정합니다. 아..
-
[Upstage AI Lab 3기] 학습 과정 중간 회고인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 7. 15. 10:20
학습 기간2024.04.01 ~ 2024.11.01총 8개월현재는 딱 중간! 학습했던 내용파이썬크롤링깃통계학EDA코딩테스트머신러닝딥러닝프로젝트프로젝트1: 파이썬, 크롤링프로젝트2: 통계학, EDA프로젝트3: 머신러닝프로젝트4: 딥러닝 출석율실제: 100%전산: 1일? 2일? 결석이다. (QR코드 촬영을 잊어버렸다.) 느낀점힘들다.학습 시간이 너무 짧다.이해도 제대로 못한 상태로 계속 다음 단계로 넘어가기 때문에, 결국 잠을 줄여야 한다.추가로 과제까지 해내야 하니, 이걸 하나도 놓치지 않고 모두 참여하려고 하면, 정말 힘들다.모두가 힘들다고 난리다.중급자 코스이다.앞서 작성한 '힘들다' 내용과 일맥상통한다.본 과정은 최초 모집할 때, 중급자 코스라고 적혀있었다.하지만, 나는 머신러닝을 완전히 처음 배우는..
-
[Upstage AI Lab 3기] 딥러닝 & 파이토치 학습 내용인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 7. 3. 17:36
다층 퍼셉트론(Multi-Layer Perceptron, MLP)의 등장 이유하나의 퍼셉트론으로는 선형적인 문제만 해결 가능하다.따라서, 비선형적인 문제도 해결하기 위해 다층 퍼셉트론이 등장하였다. 컨볼루션 신경망(Convolutional Neural Network, CNN)의 등장 이유다층 퍼셉트론은 데이터를 처리하기 위해, 1차원 배열로 변형해야 하는데,이미지 같은 데이터의 여러 픽셀을 1열로만 나열하는 식으로 변경하게 되면,어떤 이미지가 표현하고 있는 공간적 정보가 사라진다.더불어, 이미지 같은 데이터를 처리하기 위해서는 기존 다층 퍼셉트론으로는 너무나 많은 노드와 파라미터가 필요해서, 학습이 굉장히 느리고 비효율적이게 된다. 순환 신경망(RNN, Recurrent Neural Network)의 등..
-
[Upstage AI Lab 3기] 머신러닝 학습 내용인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 6. 2. 23:02
선행 학습머신러닝을 배우기 위해서는, 최소한 아래 내용이 학습되어 있어야 한다.파이썬데이터 분석고등수학 학습 키워드정말 많은 이론을 배우고, 실습을 진행하였다.세부 이론별로만 단일 학습을 진행하였고, 아직은 전반적으로 여러 기법을 서로 어떻게 조합하여 머신러닝 분석을 진행할지 전체적인 그림이 속시원히 그려지지 않는다.다음 단계인 프로젝트를 진행해봐야, 전반적으로 머신러닝 진행과정을 스스로 습득할 듯 하다.우선은, 배운 내용들을 계층 구조로 정리해 보았다. supervised learning_regression--- Lasso(L1) --- Ridge(L2) --- ElasticNet --- model evaluation_MSE --- model evaluation_RMSE --- model evaluat..