목차

표제지

논문요약

목차

I. 서론 12

1. 연구 배경 및 목적 12

2. 연구 내용 및 방법 15

II. 관련 연구 16

1. VR 회의록 요약 관련 선행 연구 16

가. VR 회의의 개요 16

나. 회의록 요약 시스템 선행 연구 사례 20

2. 언어 요약 분야의 자연어 처리 방법 21

가. 추출적 요약과 추상적 요약 21

나. 자연어 임베딩과 전이 학습 21

다. 인코더와 디코더 22

라. Fine-tuning 전략과 R3F 기법 23

3. 회의록 요약을 돕는 사전학습 언어 모델 25

가. Transformer 구조체 25

나. GPT와 BERT 28

다. XLNet 30

라. RoBERTa 31

마. MT-DNN 32

바. T5 34

III. VR 회의록 요약 시스템 설계 36

1. 플랫폼 설계의 고려사항 36

2. 전체 시스템의 구성 37

3. VR 디바이스 42

4. VR 회의 공간 44

5. 포톤 네트워크와 회의록 관리 45

6. 회의록 요약 알고리즘 47

IV. VR 회의록 요약 시스템 구현 48

1. 전체 시스템의 환경 48

2. VR 디바이스 49

3. VR 회의 공간 구현 51

4. 포톤 네트워크와 회의록 관리 기능 구현 55

5. 회의록 요약 알고리즘 구현 60

가. 훈련 데이터 준비 60

나. 텍스트 토큰화 63

다. 어휘 분류 사전 생성 64

라. 불용어 처리 65

마. R3F 기법을 이용한 T5 언어 모델 fine-tuning 66

V. 회의록 요약 성능 측정 실험 및 결과 69

1. 회의록 요약 성능 측정 실험 69

가. 실험 환경 정의 69

나. ROUGE-1/2/L 평가지표 정의 70

다. 혼동행렬 평가지표 정의 71

2. 회의록 요약 성능 측정 결과 72

가. ROUGE-1/2/L과 혼동행렬을 이용한 평가 결과 72

나. VR 회의록 자동 요약 시스템에 적용 결과 75

VI. 결론 79

참고문헌 81

Abstract 86

〈표 2-1〉 GPT와 BERT의 차이점 29

〈표 3-1〉 VR 회의록 요약 시스템의 HW/SW 41

〈표 3-2〉 VR 회의 공간의 구성요소 44

〈표 3-3〉 VR 회의록 요약 시스템의 구현 환경 48

〈표 3-4〉 Oculus Quest 2 하드웨어의 환경 49

〈표 3-5〉 A7 K1 R7 노트북 하드웨어의 환경 50

〈표 3-6〉 포톤 네트워크 구축 환경 55

〈표 3-7〉 요약문 데이터셋 60

〈표 3-8〉 요약문 데이터셋의 포맷 구조 61

〈표 3-9〉 T5-base 아키텍처의 구성요소 67

〈표 4-1〉 회의록 요약 성능 측정 실험 환경 69

〈그림 1-1〉 기존 VR 플랫폼과 VR 회의록 요약 시스템의 차이점 13

〈그림 1-2〉 사전학습 언어 모델과 R3F 기법의 필요성 14

〈그림 2-1〉 직장인들의 업무에 관한 설문 16

〈그림 2-2〉 국내외 온라인 화상회의 솔루션 제공 현황 17

〈그림 2-3〉 온라인 화상회의 플랫폼 사용 시의 문제점 18

〈그림 2-4〉 마이크로소프트의 팀즈용 메쉬 19

〈그림 2-5〉 페이스북의 호라이즌 워크룸 19

〈그림 2-6〉 ACS(AR Conference System) 구성도와 실행 화면 20

〈그림 2-7〉 인코더와 디코더 아키텍처의 내부 22

〈그림 2-8〉 fine-tuning 전략 23

〈그림 2-9〉 순환 신경망의 구조 25

〈그림 2-10〉 Attention 구조 26

〈그림 2-11〉 Transformer 모델의 아키텍처 27

〈그림 2-12〉 BERT와 GPT의 비교 29

〈그림 2-13〉 XLNet의 동작구조 31

〈그림 2-14〉 MT-DNN의 Pre-training Layer 33

〈그림 2-15〉 T5 모델의 도식화 34

〈그림 2-16〉 Corruption 35

〈그림 3-1〉 VR 회의록 요약 시스템의 구성 38

〈그림 3-2〉 VR 회의록 요약 시스템의 동작 순서도 39

〈그림 3-3〉 VR 회의록 요약 시스템 기반 기술 40

〈그림 3-4〉 VR 디바이스 설계 42

〈그림 3-5〉 레이캐스트의 동작 원리 43

〈그림 3-6〉 VR 회의 공간의 구조 44

〈그림 3-7〉 포톤 네트워크의 아키텍처와 DB 45

〈그림 3-8〉 포톤 네트워크의 동작 구조 46

〈그림 3-9〉 회의록 요약 알고리즘의 Workflow 47

〈그림 3-10〉 가상 공간과 오브젝트 배치 51

〈그림 3-11〉 복셀 형태로 제작한 아바타 52

〈그림 3-12〉 레이캐스트를 이용한 VR 객체 조작 flowchart 53

〈그림 3-13〉 레이캐스트를 이용한 VR 객체 조작 인터랙션 53

〈그림 3-14〉 사용자가 보게 될 VR 회의룸의 모습 54

〈그림 3-15〉 자료 공유 기능 사용 55

〈그림 3-16〉 Unity 내 포톤 네트워크 연결 결과 메시지 56

〈그림 3-17〉 회의 종료 후 Playfab DB에 기록된 접속 이력 57

〈그림 3-18〉 접속 이력 속 저장되어 있는 회의록 요약 파일 58

〈그림 3-19〉 PlayFab DB에 저장된 회의록 데이터를 불러오는 모습 59

〈그림 3-20〉 회의록 요약 데이터의 일부 62

〈그림 3-21〉 단어 토큰화 63

〈그림 3-22〉 생성한 어휘 분류 사전의 예 64

〈그림 3-23〉 불용어 제거 전과 후 65

〈그림 3-24〉 한국어의 불용어 목록 65

〈그림 3-25〉 T5-base 아키텍처 66

〈그림 3-26〉 R3F 기법을 적용한 T5-base 모델 68

〈그림 3-27〉 R3F 기법의 Flowchart 68

〈그림 4-1〉 정답 토큰의 개수 체크 69

〈그림 4-2〉 ROUGE-1/2/L 평가지표 70

〈그림 4-3〉 혼동행렬(Confusion Matrix) 평가지표 71

〈그림 4-4〉 T5 모델의 ROUGE precision 비교 결과 72

〈그림 4-5〉 T5 모델의 ROUGE recall 비교 결과 73

〈그림 4-6〉 T5 모델의 ROUGE f1-score 비교 결과 74

〈그림 4-7〉 정답 토큰이 20개 이하로 구성된 문장 요약 결과 75

〈그림 4-8〉 정답 토큰이 40개 이하로 구성된 문장 요약 결과 76

〈그림 4-9〉 정답 토큰이 60개 이하로 구성된 문장 요약 결과 77

〈그림 4-10〉 정답 토큰이 80개 이하로 구성된 문장 요약 결과 78