초록

컴퓨터 통신 기술의 발달과 COVID-19 바이러스의 여파로 온라인에서의 활동이 활발해졌다. 특히 YouTube, Tiktok 과 같은 온라인 콘텐츠를 즐길 수 있는 SNS 활동이 급속도로 증가함에 따라 SNS 플랫폼에서 콘텐츠를 즐기고 자신의 의견을 온라인 댓글을 통해 표출하는 경우가 많아졌다. 온라인 특성상 익명이 보장되기 때문에 표현의 자유를 악용하여 혐오 발언 또는 편견 발언이 담긴 악성댓글이 작성되기 쉽다. 온라인 악성댓글은 오프라인에 실존하는 대상에게 정신적인 피해를 준다. 악성댓글로 인해 대상자가 극단적인 선택을 하는 경우가 발생할 수 있으므로 악성댓글에 대한 사전 방지책과 규제 방안이 절실하게 필요하다.

한국어 악성 댓글 분류 모델을 학습하기 위해 한국어 댓글 데이터를 수집한 데이터셋으로 KOCO(KOrean COmments) 데이터셋이 있다. KOCO 데이터셋 중 KOCO-hate 데이터셋은 악성 댓글을 혐오감의 정도에 따라 정상, 공격적인 발언, 심한 혐오 발언으로 레이블링을 수행하였다. 따라서 악성댓글 분류는 혐오 발언의 정도에 따른 다중 분류 문제이기 때문에 각 클래스의 순서 정보를 활용하기 위해 순서가 있는 클래스를 분류하는데 효과적인 순서형 회귀 모형을 활용한 악성 댓글 분류 모델을 제안한다. 먼저, 혐오 발언 분류를 위해서 사전학습된 한국어 자연어처리 모델에 순서형 회귀 모형인 CORAL(COnsistent RAnk Logits) 프레임워크와 CORN(Conditional Ordinal Regression for Neural network) 프레임워크를 악성 댓글 분류 모델에 적용하였다. 기본모형, CORAL 모형, CORN 모형의 분류 성능을 비교했을 때 순서형 회귀 모형을 활용한 CORAL과 CORN 모형에서 성능이 향상된 것을 확인하였다.