표제지
목차
Abstract 9
Ⅰ. 서론 10
1.1. 연구 배경 10
1.2. 연구 목표 및 내용 12
Ⅱ. 선행 연구 13
2.1. Named Entity Recognition Annotation Process 13
2.2. LLM Annotates NLP Datasets 14
Ⅲ. 데이터셋 태깅 프로세스 16
3.1. 연구 방법 소개 16
3.2. 데이터 설명 17
3.2.1. CoNLL 2003 17
3.2.2. Broad Twitter Corpus 18
3.2.3. WNUT 2017 18
3.2.4. WikiAnn/en 18
3.3. Effective Prompt Engineering and Entity Annotation 19
3.3.1. Generative Pre-trained Transformer 19
3.3.2. Prompt Message 21
3.3.3. Task Description 22
3.3.4. Few-Shot Description 22
3.3.5. Entity Annotation in Context with Large Language Models 24
3.4. Training Details 25
3.4.1. Using Match Rate for Evaluating Consistency among Models 27
3.4.2. AI-In-The-Loop 28
3.4.3. 반복 28
Ⅳ. 실험 결과 30
4.1. Performance F1 Score 30
4.1.1. Fine-tuning with Original Dataset 30
4.1.2. Active Learning with Large-scale Language Model 30
4.1.3. CoNLL2003 Entities 32
4.2. Labelling Cost Comparison 33
Ⅴ. 결론 35
Ⅵ. 부록 37
참고문헌 43
Table 1. 실험에 사용하는 데이터셋 16
Table 2. 모델 하이퍼파라미터 25
Table 3. 벤치마크 데이터셋 기본 성능 30
Table 4. 능동적 학습과 대규모 언어 모델의 보정 결과 31
Table 5. 대규모 언어 모델의 태깅 성능 32
Table 6. 보정된 데이터셋과 추산 금액 34
Figure 1. Learning from Human Preference 20
Figure 2. Few-shot Task Description 23
Figure 3. 전체 프로세스 흐름 29