초록

새로운 웹 공격이 발견되면 보안 전문가는 이를 분석한 후에 탐지 시그니처를 배포한다. 하지만 이러한 방법은 대응하는 시간 동안 보안에 공백이 생긴다는 단점이 있다. 머신러닝은 이러한 문제를 효율적으로 해결할 수 있게 해준다. 머신러닝을 사용할 때 중요한 성공 요인은 데이터에서 특성을 설계하는 것이다. 도메인 지식을 이용하여, 머신러닝 모델에 입력될 특성이 공격을 탐지하는데 필요한 정보를 포함하도록 해야 한다. 본 논문에서는 실제 오늘날의 대표적인 공격을 분석하여 머신러닝 모델에 입력될 적합한 특성을 설계하는 방법을 제안하고 이를 CSIC 2010 데이터 세트에 실증적으로 적용하였다. 제안하는 방법의 경우 학습용 데이터 세트 외에도 실제 오늘날 발생하는 웹 공격을 고려하여 더 일반화된 모델을 생성할 수 있도록 해준다.