2022년 2월 3일(목)부터 4일(금)까지 네이버 부스트캠프(boostcamp) AI Tech 강의를 들으면서 개인적으로 중요하다고 생각되거나 짚고 넘어가야 할 핵심 내용들만 간단하게 메모한 내용입니다. 틀리거나 설명이 부족한 내용이 있을 수 있으며, 이는 학습을 진행하면서 꾸준히 내용을 수정하거나 추가해 나갈 예정입니다.
데이터 시각화
데이터 시각화란?
데이터 시각화란 데이터를 그래픽 요소로 매핑하여 시각적으로 표현하는 것을 의미한다.
시각화는 다양한 요소를 포함하는 Task이다.
- 목적: 왜 시각화를 하는지
- 명확하게 데이터의 특정 부분을 통해 다른 step으로 어떻게 나아갈지
- 독자: 시각화 결과는 누구를 대상을 하는지
- 본인을 위한 것인지
- 다른 사람에게 presentation 하기 위한 것인지
- 데이터: 어떤 데이터를 시각화할 것인지
- 원본 데이터가 아니라 원하는 정보를 추출해서 진행하므로 데이터 전처리가 요구된다.
- 스토리: 어떤 흐름으로 인사이트를 전달할 것인지
- 방법: 전달하고자 하는 내용에 맞게 효과적인 방법을 사용하고 있는지
- barplot, lineplot, scatterplot 등
- 디자인: UI에서 만족스러운 디자인을 가지고 있는지
시각화는 다른 강의처럼 스코어(만점)가 존재하지 않다.
- 연구에서 다루는 시각화 $\neq$ 개발에서 다루는 시각화
- 이론이 꼭 독자 또는 소비자와 맞지도 않다.
- 인지적인 요소를 훨씬 더 민감하게 느끼는 사람도 있다.
목적에 따라 시각화를 선택하고 사용하고, 시각화 결과를 효과적으로 수용하는 것이 목표이다.
데이터 시각화의 요소
데이터 이해하기
데이터 시각화의 시작은 데이터 이해하기이다. 데이터 시각화를 위해서는 데이터가 우선적으로 필요하다.
시각화를 진행할 데이터를 데이터셋 관점(global)으로 볼 것인지, 아니면 개별 데이터의 관점(local)으로 볼 것인지를 정해야 한다.
어떤 데이터들이 있고, 어떤 내용을 전달할 수 있는지 살펴봐야 한다.
데이터셋의 종류
정형 데이터
- csv 파일인 테이블 형태로 제공되는 파일
- item: 한 개의 row
- column: 한 개의 feature(attribute)
- cell: 어떤 한 item의 한 feature
- 가장 쉽게 시각화할 수 있는 데이터셋
- 통계적 특성과 feature 사이의 관계
- 데이터 간 관계 또는 비교
시계열 데이터
- 시간 흐름에 따른 데이터 (Time-Series)
- 정형 데이터
- 비정형 데이터
- 시간 흐름에 따른 추세(Trend), 계절성(Seasonality), 주기성(Cycle) 등을 살필 수 있다.
지리 데이터
- 지도 정보를 단순화 시키는 경우
- 지도 정보와 보고자 하는 정보 간의 조화
- 거리, 경로, 분포 등 다양하게 실사용 가능
- 실제로 어떻게 사용해야 할지가 중요하다.
관계형(네트워크) 데이터
- 객체와 객체 간의 관계를 시각화 할 때
- 객체는 node, 관계는 link로 표현된다.
- 크기, 색, 수 등으로 객체와의 관계의 가중치를 표현한다.
- 지리 데이터, 정형 데이터 등도 관계형 데이터로 바꿀 수 있다.
- json, 2D-array, linked-list 등으로 제공 가능
- 휴리스틱하게 노드 배치를 구성한다.
계층적 데이터
- 포함관계가 분명한 데이터
- Tree, Teemap, Sunburst 등이 대표적이다.
이외의 다양한 비정형 데이터가 존재한다.
데이터의 종류
수치형(numerical)
- 연속형(continuous)
- 이산형(discrete)
범주형(categorical)
- 명목형(nominal)
- 순서형(ordinal)
수치적인 통계가 중요하거나 스케일로 비례 관계가 성립이 가능하면 주로 수치형 데이터로, 그렇지 않으면 순서형을 사용한다.
시각화 이해하기
마크와 채널
마크(mark)
- Basic graphical element in an image
- 그래픽 이미지에서 가장 기본적인 요소
- 점, 선, 면으로 이루어진 데이터 시각화
채널(channel)
- a way to control the apperance of marks
- 각 마크(점, 선, 면)를 변경할 수 있는 요소
- 위치, 색, 형태, 크기, 틸트, 넓이, 부피 등
전주의적 속성(Pre-attentive Attribute)
- 주의를 주지 않아도(직접 명시하거나 알려주지 않아도) 인지하게 되는 요소
- 시각적으로 다양한 전주의적 속성이 존재한다.
- Orientation, Length, Width, Size, Shape, Curvature, Added Marks 등
- 동시에 사용하면 인지하기 어려울 수 있다.
- 적절하게 사용하려면 시각적 분리(visual pop-out)가 잘 되어야 한다.