초록

기계학습에는 데이터를 학습 세트와 테스트 세트로 나누는 두 가지 방법, 샘플링 방식(sampling method)과 리샘플링 방식(resampling method)이 있다. 샘플링의 대표적인 방법으로는 무작위 샘플링(random sampling)이 있고 샘플링 방식은 확률론적 방법이므로 데이터 검증에 있어서 수학적인 근거를 말하기 어렵다. 리샘플링 방식은 기계학습 알고리즘 혹은 생성된 분류기에 데이터를 적합 시키는 방식이다. 리샘플링의 대표적인 방법으로 k겹 교차 테스트(k-fold cross validation)가 있고 리샘플링의 경우 데이터를 알고리즘에 적합하게 가공하는 방식이기 때문에 데이터에 맞춰서 기계학습의 알고리즘의 방식이나 파라미터를 변형한다는 일반적인 논리의 역 과정이다. 본 논문에서는 해당 문제점들을 해결하고자 기계 학습에서 기존 데이터 샘플링 방법을 분석하고 랜덤 샘플링 방법과 스피어만 상관계수(Spearman Correlation)를 활용하여 랜덤 샘플링 방식을 설계했다. 실험에서 타겟 벨류의 값의 비율이 상대 오차 5%이상 발생할 확률이 19.65%이며, 최대 11.55%의 오차가 관찰되었다. 또한 상관관계 테스트의 경우 타겟벨류와의 상관계수의 값의 크기가 0.1이상인 파라미터에 대해 최대 54.5%의 오차가 발생했다. 상관관계 테스트에서 상관관계의 값이 0.4906으로 가장 컸던 나이에 대해 88.35%의 통과율을 보인 반면 상관계수의 크기가 0.1이상의 값 중 가장 작은 파라미터인 체질량 지수 파라미터에 대해 25.7%의 통과율을 보였다. 또한 모든 파라미터에 대해 상대 오차가 0.1 이내인 경우는 8035회 중 단 2번 이었다. 이로 인해, 실험에서 사용한 테스트 기준으로 1만 번 중 단 두 번의 샘플만 적절한 데이터 세트로 선정되는 등 실험에 사용한 데이터에 대해 랜덤 샘플링의 불안정성이 드러났다. 기존 데이터의 정보와 스피어만 상관계수를 활용한 통계적인 수치를 활용하여 데이터 세트 간의 클래스의 값이 상대 오차 5% 이내로, 또한 상관관계 상대 오차를 10% 이내로 샘플링이 가능함을 보였다.