소비자들은 상품 구매 시 상품의 이용 후기를 살펴보며 구매여부를 결정한다. IT 기술의 발전에 따라 빠르게 성장한 시장과 함께 온라인 시장에는 많은 상품들이 등장하였고, 그에 따라 소비자 후기 또한 많아졌다. 소비자들은 텍스트로 이루어져있는 수많은 후기를 모두 살펴보기 어렵다. 그렇기때문에 소비자 후기의 주요 내용을 추출하여 제공한다면 소비자들의 의사결정에 많은 도움을 줄 수 있다. 자연어 처리 분야에서 문서의 내용을 추출하여 요약하는 연구는 많이 진행되었으나 이는 대부분 문장을 추출하는 방식이다. 비슷한 내용이 반복해서 등장하고, 대부분의 후기가 각각 한두 문장으로 구성되는 데이터 특성상 문장단위의 추출요약은 후기 도메인에서 효과적이지 않다.
본 논문에서는 소비자 후기에서 주요 내용을 추출함으로써 요약하는 연구를 진행하였다. 주요 내용 추출은 두 단계로 진행된다. 첫번째로는 개체명 인식(NER)을 통해 Phrase를 추출한다. 그 다음으로 추출된 Phrase의 클러스터링과 문장 유사도 계산으로 최종 Key-Phrase를 추출하여 결과를 살펴봄으로써 본 논문에서 제시하는 방법론의 효과를 확인하였다.