-
[Upstage AI Lab 3기] Data Centric AI 학습 내용인공지능 AI/패스트캠퍼스 부트캠프 Upstage AI Lab 3기 2024. 10. 2. 19:19
목차
Data Centric AI란?
AI 학습을 위해, 데이터를 어디서 수집해오고, 어떻게 정제할 것이며, 어떤 도구가 있는지 등에 관한 내용이다.
특별히, AI 성능 향상을 위해 모델링을하는 부분보다, 학습 데이터를 잘 준비하고, 정제하는 부분이 더욱 중요해 지는 형국이다.
크게 중요한 내용을 아래 요약하여 남겨본다.데이터 구축 파이프라인
데이터 수집 --> 데이터 전처리 --> 데이터 라벨링 --> 데이터 클렌징 --> 데이터 스플릿(학습, 검증, 테스트) --> 데이터 릴리즈
데이터 수집 방법
- 크롤링
- 관련 사이트(국내)
- 통계데이터센터
- 공공데이터포털
- 서울 열린데이터광장
- 식품안전나라
- AI허브
- 관련 사이트(국외)
- kaggle
- papersWithCode
- UCI ML Repo
- huggingface
- 클라우드소싱
- 크라우드웍스
- 셀렉트스타
- 딥네츄럴
- 텍스트넷
주의할 점
- 사용하는 데이터 라이선스 확인
- 개인정보보호법 확인
- 비속어 필터링: 관련 데이터를 강의에서 소개해주심
데이터 라벨링 규칙
- CV
- 바운딩 박스
- OCR
- 큐보이드
- 폴리곤
- 폴리라인
- 시맨틱 분할
- 키포인트
- NLP
- 분류
- 태깅
- 전사
- 번역
- 요약
- 라벨링 툴 사용
IAA(Inter-Annotator Agreement)
라벨링 작업자들 간에 일치도 평가하는 방법이다.
점수가 높을수록 많이 일치한다는 뜻이다.
다 같이 틀렸을 수도 있기에, 점수가 높다고 제대로 라벨링 했다고 말할 수는 없다.계산 방식은 아래와 같은 기법이 있다.
- Cohen's Kappa
- Fleiss Kappa
- F1-score
IAA 를 활용하면, AI 성능을 올리기 위해, 모델링에 투자할지? 데이터에 투자할지? 확인할 수 있다.
- IAA F1 점수가 높지만, 모델 성능이 낮은 경우 모델링에 투자해서 AI 성능을 올릴 수 있다.
- IAA F1 점수가 낮으면서, 모델 성능도 낮은 경우는 데이터 개선에 투자해서 AI 성능을 올릴 수 있다.
- 위 두 가지 상황이 아닌, 예외적인 경우는 그 원인을 분석해서 성능 개선의 실마리를 찾을 수 있다.
#패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab #국비지원 #패스트캠퍼스업스테이지에이아이랩 #패스트캠퍼스업스테이지부트캠프
'인공지능 AI > 패스트캠퍼스 부트캠프 Upstage AI Lab 3기' 카테고리의 다른 글
[Upstage AI Lab 3기] 부트캠프 지식으로 각종 대회 도전기 (0) 2024.11.07 [Upstage AI Lab 3기] Dialogue Summarization | 일상 대화 요약 대회 (7) 2024.09.24 [Upstage AI Lab 3기] 컴퓨터비전 학습 내용 (0) 2024.08.21 [Upstage AI Lab 3기] Document Type Classification 대회 (0) 2024.08.14 [Upstage AI Lab 3기] Upstage Machine Learning Regression 대회 (0) 2024.07.25