네트워크 패킷의 메타데이터를 학습한 침입탐지시스템이 최근 많이 제안되었다. 그러나 이러한 방식은 모델 학습에 사용할 메타데이터 생성을 위해 패킷을 분석하는 시간, 그리고 학습 전 메타데이터를 전처리하는 시간이 필요하다. 또한, 특정 메타데이터를 학습한 모델은 실제 네트워크로 유입되는 원본 패킷을 그대로 사용하여 침입을 탐지하는 것이 불가능하다. 이러한 문제를 해결하RL 위해 본 논문에서는 패킷 페이로드를 하나의 문장으로 학습시켜 침입을 탐지하는 자연어 처리 기반의 침입탐지시스템을 제안하였다. 제안하는 기법의 성능 검증을 위해 UNSW-NB15와 Transformer 모델을 활용하였다. 먼저, 데이터세트의 PCAP 파일에 대한 라벨링을 실시한 후 2종의 Transformer 모델(BERT, DistilBERT)에 문장 형태로 직접 학습시켜 탐지성능을 분석하였다. 실험 결과 이진분류 정확도는 각각 99.03%, 99.05%로 기존 연구에서 제안한 기법들과 유사하거나 우수한 탐지성능을 보였으며, 다중분류는 각각 86.63%, 86.36%로 더 우수한 성능을 나타냄을 확인하였다.
Intrusion detection systems that learn metadata of network packets have been proposed recently. However these approaches require time to analyze packets to generate metadata for model learning, and time to pre-process metadata before learning. In addition, models that have learned specific metadata cannot detect intrusion by using original packets flowing into the network as they are. To address the problem, this paper propose a natural language processing-based intrusion detection system that detects intrusions by learning the packet payload as a single sentence without an additional conversion process. To verify the performance of our approach, we utilized the UNSW-NB15 and Transformer models. First, the PCAP files of the dataset were labeled, and then two Transformer (BERT, DistilBERT) models were trained directly in the form of sentences to analyze the detection performance. The experimental results showed that the binary classification accuracy was 99.03% and 99.05%, respectively, which is similar or superior to the detection performance of the techniques proposed in previous studies. Multi-class classification showed better performance with 86.63% and 86.36%, respectively.