표제지
국문초록
목차
용어정의 10
1. 서론 11
1.1. 연구 배경 및 목적 11
1.2. 관련 연구 15
1.2.1. GeoKBQA 15
1.2.2. Geo-analytical QA 19
1.2.3. 지리공간질의 말뭉치(Geographic question corpus) 22
1.2.4. 지리공간연산함수(geospatial operation) 분류체계 26
1.2.5. 시사점 및 소결론 28
1.3. 연구 범위 및 방법 30
2. 연구 방법 33
2.1. 데이터 세트 구축 33
2.1.1. 지리공간질의 말뭉치 선정 및 지리공간분석절차도출 33
2.1.2. 말뭉치 라벨링 35
2.1.3. 어휘 변용 35
2.2. 문장 임베딩(sentence embedding) 언어모델 36
2.2.1. Glove 37
2.2.2. BERT 39
2.2.3. RoBERTa 43
2.2.4. SBERT 44
2.3. 분류모델학습 46
2.3.1. SVM 46
2.3.2. 랜덤포레스트 49
2.4. 평가방법 51
2.4.1. 기존연구의 알고리즘과 비교 51
2.4.2. 평가지표 51
3. 실험 적용 및 결과 분석 53
3.1. 실험환경 53
3.2. 데이터 세트 구축 결과 54
3.2.1. 지리공간분석절차 도출 54
3.2.2. 말뭉치 라벨링 및 어휘 변용 56
3.3. 모델구성 및 학습 58
3.3.1. 문장 임베딩 59
3.3.2. 분류모델학습 61
3.4. 실험결과 분석 62
3.4.1. 기존연구 알고리즘 적용 결과 62
3.4.2. 모델성능 비교 63
4. 결론 73
참고 문헌 76
Abstract 81
[표 1-1] GeoKBQA 선행연구 17
[표 1-2] GeoSPARQL에서 지원하는 연산 목록 18
[표 1-3] MSMARCO 질의 중 일부 23
[표 1-4] GeoQuestions201 질의유형별 예시 24
[표 1-5] GeoAnQu 말뭉치 중 일부 25
[표 1-6] Li and Stefanakis (2020)가 제안한 지리공간연산함수 분류 27
[표 2-1] BERT에서 다음문장 예측 테스크 예시 42
[표 2-2] weighted average F1-score 계산 예시 52
[표 3-1] GeoAnQu말뭉치 분석을 통해 도출한 분석절차 55
[표 3-2] 어휘변용 전/후 데이터 수 56
[표 3-3] 어휘변용 된 질의 예시 57
[표 3-4] Glove이용 'what areas are not wetlands in houston' 임베딩 결과(크기:100) 60
[표 3-5] 최종모델 성능 63
[표 3-6] Linear SVM을 이용한 분석절차 변환 결과 64
[표 3-7] 각 클래스별 결과 랜덤 샘플링 66
[표 3-8] Glove 임베딩 사용 분석절차 변환 confusion matrix 69
[표 3-9] BERT 임베딩 사용 분석절차 변환 confusion matrix 70
[표 3-10] RoBERTa 임베딩 사용 분석절차 변환 confusion matrix 71
[표 3-11] SBERT 임베딩 사용 분석절차 변환 confusion matrix 72
[그림 1-1] Google을 통한 GeoQA 수행 한계 12
[그림 1-2] 일반적인 GeoKBQA아키택쳐 15
[그림 1-3] 분석절차변환 성공 및 실패 예시 21
[그림 1-4] 연구 흐름도 32
[그림 2-1] Glove 가중치 함수 37
[그림 2-2] 정적인 임베딩 및 contextualized representation 39
[그림 2-3] BERT, GPT, ELMo 아키택쳐 41
[그림 2-4] SVM 개념도 46
[그림 2-5] 이진분류 및 one-against-all 방식 SVM 48
[그림 2-6] 랜덤포레스트 개념도 49
[그림 3-1] 모델구성 및 학습 개념도 58
[그림 3-2] 각 임베딩 값에 대한 분류모델학습 코드 61
[그림 3-3] Xu et al. (2022)의 알고리즘 적용 결과 62