4차 산업혁명을 통한 인공지능의 발전은 기계학습 및 딥러닝 기술을 빠르게 발전시켰으며, 나아가 컴퓨팅 분야에만 국한하지 않고 다양한 학문 및 타 분야에 적용되어 활용되고 있다. 본 논문은 컴퓨터공학에서 다루고 활용되는 기계학습기법을 생물학에서 중요한 생물 종 동정에 적용하여 개선된 생물 종 동정 모델을 제안하고자 한다.
본 논문의 생물 종 분류 대상은 소나무과에 속하는 소나무, 리기다소나무, 곰솔, 잣나무, 섬잣나무 등 5종이다. 분류 대상 원시 데이터(raw data)는 환경부 국립생물자원관에서 보유 중인 고화질의 건조표본 스캔 이미지 195개를 활용하였다. 먼저 데이터 라벨링 기법을 적용하여 스캔 이미지를 전처리하였다. 전처리 과정에서는 스캔 이미지에 대해 소나무의 잎의 개수, 나무껍질(껍질), 잎의 길이 등을 사용해 데이터 스키마(schema)를 구성하고, 이 스키마에 맞게 원시 데이터를 레이블링(labeling)하였다. 레이블링한 데이터는 *.CSV 파일 포맷으로 저장하였다. 본 논문에서는 소나무 종의 분류 정확도를 성능 평가 기준으로 정하고, 레이블 된 데이터 집합에 대해 4가지의 기계학습 모델을 적용하여 성능 비교를 수행하였다.
데이터집합의 크기가 소규모이기 때문에 모델별 과적합(overfitting) 가능성을 분석해 볼 것이다. 과적합이 발생한 모델의 경우 k-겹 교차검증(cross validation)을도입하거나, 데이터 증식(augmentation) 기법을 도입해 원시 이미지 데이터 크기를 증가하는 방법을 검토해보고자 한다. 본 논문에서는 선형회귀, SVM(support vector machine), KNN(k-nearest neighbor), 및 의사결정트리(Decision Tree), 랜덤포레스트(RandomForest) 알고리즘 등 4가지 기계학습 모델을 적용하고자 한다. 훈련을 통해 생성된 기계학습 모델의 결정경계(decision boundary)가 레이블링된 데이터집합을 얼마나 효과적으로 분류하는지와 이상치(outlier)가 어느 정도 발생하는지도 성능 평가 과정에서 고려되어야 할 요소들이다. 이를 통해 데이터집합의 성능 평가 척도인 분류 정확도를 기준으로 가장 높은 정확도를 나타내는 기계학습 모델을 탐색해보고자 한다. 본 논문에서 도출된 연구 결과를 기반으로 향후 더 복잡한 다양한 식물 종 동정이나, 동적인 움직임이 많은 동물 분야 종 동정을 분류하기 위한 기반으로 활용될 수 있을 것으로 기대한다. 향후, 본 연구에서 제시한 레이블링과 같은 중간 단계를 거치지 않고 원시 스캔 이미지로부터 직접 CNN(convolution neural network)과 같은 심층 신경망 모델을 적용한 방법과도 성능 비교를 진행해 보고자 한다.