2022년 2월 14일(월)부터 18일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해나갈 예정입니다. 강의 자료의 저작권은 네이버 커넥트재단 부스트캠프 AI Tech에 있습니다.
비정형 데이터셋에 사용할 수 있는 EDA & Visualization
일반적으로 비정형 데이터(이미지, 텍스트 등)에서는 다음과 같은 시각화를 해 볼 수 있다.
Dataset meta data visualization
메타 데이터는 데이터 자체가 아니라 그 데이터에 대한 정보를 의미한다.
일반적으로는 target 값을 의미한다.
Target distribution
훈련 상에서 발생할 수 있는 문제점 예측
데이터의 불균형 문제
Long Tail Problem
Augmentation 방법론 및 모델 선택 시 도움
Dataset Listup
데이터셋이 어떠한 형식으로 이루어져 있는지, 어떤 데이터가 있는지를 알려주는 예시를 살펴볼 수 있게 주어지는 게 좋다.
데이터 셋만 보여주기
데이터셋의 일부를 랜덤하게 리스트업
어떤 식으로 나열하는 게 좋을지를 고민해 봐야 한다.
Datset-Target 간의 관계
예측 값 등을 정답 데이터와 비교하여 문제점 발견 가능
ax.add_patch()를 이용해서 Bounding Box를 그릴 수 있다.
레이블링에 관해 오차는 없는지를 보여줄 수 있다.
Visual Analytics
새로운 방식으로 인코딩을 해서 또는 순수 데이터를 사용해서 시각적으로 분석을 하는 방법이다.