AI/추천 시스템

평가를 위한 실험 설계

데이터 분할

모델의 일반화 성능을 높이기 위해서 전체 데이터셋을 효과적으로 train, validation, test으로 나누는 작업을 의미한다.

이때 분할한 데이터셋은 disjoint하여 서로 겹치지 않도록 해야 한다.

Train set은 모델의 학습을 위해, validation set은 모델을 선택하고 파라미터를 튜닝하기 위해, test set은 선택된 모델에 대한 평가를 진행할 때 사용한다.

Train set과 validation set은 모델의 학습 과정에서 여러 번 재사용될 수 있지만, Test set은 평가 프로세스의 마지막에 한 번만 사용된다는 점에 유의한다.

데이터 분할 전략의 중요성

데이터 분할 전략은 모델의 학습(원인)과 성능(결과)에 모두 영향을 끼치는 confounding variable(교란 변수)이다.

이러한 모델의 학습과 성능에 모두 영향을 끼치는 데이터 분할을 적절히 통제하지 못하면, 모델의 학습과 성능 간의 왜곡된 연관관계가 도출될 수 있다.

추천 시스템에서는 데이터 및 평가 전략이 충분히 표준화되지 않았으므로 올바른 데이터 분할 저략을 사용하는 것이 추천 시스템에서는 매우 중요하다.

예를 들어, 추천 시스템은 미래에 사용자가 좋아할 만한 콘텐츠를 추천해야 하는데, 이를 위해서는 데이터의 time stamp를 고려하여 모델 학습 시에 미래에 대한 데이터가 포함되지 않도록 적절히 데이터 분할을 수행해야 한다.

즉, 미래에 대한 데이터 포함될 수 있는 future data leakage 문제를 고려하여 적절히 데이터를 분할해야 한다.

다양한 데이터 분할 전략

Image 2022-03-28 오후 3.33.58

[출처] https://arxiv.org/pdf/2010.11060.pdf, A Critical Study on Data Leakage in Recommender System Offline Evaluation

Leave One Last

사용자 별로 시간 순서대로 interaction을 나열한 후, 마지막 interaction을 testing set으로, 마지막에서 두 번째 interaction을 validation 출처et으로, 나머지를 training set으로 사용하는 방법이다.

Leave One Basket이라고 마지막 하나만을 분할하는 게 아니라 basket 크기만큼 분할하는 방법도 있다.

학습을 위한 training data의 양을 최대화할 수 있다는 장점이 있지만, 사용자 당 하나의 interaction만 test에 사용하므로 전체 성능을 충분히 반영하지 않을 수 있다는 단점이 있다.

또한 global timeline을 고려하지 않으므로 future data leakage가 발생할 수 있다.

예를 들어, 아이템이 인기를 끌기 전 시점에서 모델이 해당 품목의 인기를 학습하는 현상이 생길 수 있다.

Temporal Split

Temporal User Split

사용자 별로 시간 순서에 따라 interaction을 나열한 뒤 일정 비율로 training set, validation set, testing set으로 분할한다.

Leave One Last와 다른 점은 validation set과 testing set을 뒤의 하나만 분할하는 것이 아니라 정해진 비율로 분할하는 것이다.

마찬가지로 사용자마다 timeline이 서로 다를 수 있음을 고려하지 않기 때문에 future data leakage가 발생할 수 있다.

Temporal Global Split

Image 2022-03-28 오후 3.03.27

[출처] https://arxiv.org/pdf/2007.13237.pdf, Exploring Data Splitting Strategies for the Evaluation of Recommendation Models

사용자 별로 시간 순서에 따라 interaction을 나열한 뒤 fixed time point를 기준으로 validation set과 testing set을 분할하는 방법이다.

이때 fixed time point는 사용자마다 공유하는 time point이다.

Fixed time point를 기준으로 그 이전을 train_valid, 그 이후를 test set으로 분할한다.

그 다음에 train_valid의 일정 비율을 valid set으로 사용하고 나머지를 train set으로 사용한다.

Future data leakage가 발생하지 않아서 현실과 가장 유사한 평가 환경을 제공한다는 장점이 있다.

그러나 다른 전략에 비해 학습에 사용할 수 있는 interaction의 수가 적다는 단점이 있다.

Random Split

각 사용자 별로 interaction을 시간 순서에 관계 없이 random하게 training, validation, testing set으로 구분하는 방법이다.

랜덤하게 선택된 하나의 아이템을 testing set으로 할당하고, 나머지 부분에서 랜덤하게 선택된 다른 하나의 아이템을 validation set으로 할당한 뒤, 나머지를 train set으로 사용한다.

사용하기 쉬워서 과거에 많이 사용되었고, 많은 수의 training data를 얻을 수 있는 장점이 있다.

그러나 시간 순서를 고려하지 않고 데이터를 분할하기 때문에 어떻게 분할했는지 그 데이터를 공개하지 않는 이상 재현하기 어렵다는 단점이 있다.

User Split

Cold-start problem에 대응할 수 있는 strong generalization 성능을 평가하기 위해 사용자를 기준으로 서로 겹치지 않도록 training, validation, testing set으로 분할한다.

학습된 모델이 새로운 사용자에 대한 추천 결과를 생성할 수 있는 user-free model에만 평가가 가능하다는 단점이 있으며, future data leakage가 존재한다.

절대적으로 좋은 하나의 데이터 분할 전략은 없으므로 상황에 맞는 적절한 전략을 취해야 하지만, 최근에는 보다 현실적인 평가를 위해서 Temporal Global Split을 권장하는 추세이다.

Accuracy 기반 Offline 평가의 한계

Feedback Loop

추천 시스템에서는 추천 시스템이 사용자에게 어떠한 아이템을 추천하고, 이를 바탕으로 사용자가 아이템에 관한 행위를 한 데이터가 남으며, 쌓인 데이터를 가지고 다시 추천 시스템을 학습시키기 떄문에 feedback loop 현상이 발생할 수 있다.

이러한 feedback loop로 인해 다양한 bias가 증폭될 수 있으므로 accuracy 기반의 offline 평가는 부정확한 상대평가로 이어질 수 있다.

즉, offline 결과와 online 결과의 불일치가 발생하고 강화될 수 있다.

Data Bias와 Selection Bias

Data Bias

Training 데이터의 분포와 testing 데이터의 분포가 다른 현상을 의미한다.

Selection Bias

Data bias의 일종으로, 사용자들이 일부의 아이템만 자발적으로 선별하여 평가하기 때문에 발생하는 현상이다.

사용자가 자발적으로 아이템을 선택하여 평가했을 때의 나오는 결과와, 랜덤으로 아이템을 선별했을 때 나오는 사용자의 평가가 다를 수 있음을 의미한다.

Bias를 줄일 수 있는 방안

Implicit feedback을 사용하여 selection bias를 어느 정도 완화할 수 있다.
Temporal global split을 data splitting 전략으로 사용하는 것이다.
Offline 평가와 Online 평가 전략의 장점을 취하여 보완하는 전략을 사용하는 것이다. Counterfactual evaluation, offline A/B testing이 여기에 해당된다.

출처
1. 네이버 커넥트재단 부스트캠프 AI Tech RecSys Track

저작자표시 (새창열림)

'AI > 추천 시스템' 카테고리의 다른 글

GNN(Graph Neural Network)의 정의와 특징 그리고 추천시스템에서의 GNN 계열 모델 (1)	2023.01.02
신경망을 사용한 Matrix Factorization 모델과 NeuMF(Neural Collaborative Filtering) (1)	2022.07.10
Side Information과 이를 사용하는 추천 시스템 (1)	2022.04.20
Deep Learning 기반의 Collaborative Filtering (0)	2022.04.18
추천 시스템에서의 Implicit Feedback (0)	2022.04.18

Contents

새소식

추천 시스템의 평가 방법과 실험에서의 데이터 분할 전략

추천 시스템을 어떻게 평가할 수 있을까?

추천 시스템 평가 방법

사용자 스터디

Online 평가

Offline 평가

추천 시스템 평가 기준

Accuracy

Coverage

Confidence

Trust

Novelty

Serendipity

Diversity

Robustness & Stability

Scalability