목차

표제지

국문초록

목차

제1장 서론 12

제1절 연구의 배경 및 내용 12

제2절 논문의 구성 14

제2장 관련 연구 15

제1절 데이터 증강 15

제2절 생성 모델과 샘플링 기법 18

1. GAN 18

2. 샘플링 기법 : 오버샘플링과 언더샘플링 20

제3절 데이터 증강 모델 연구 동향 21

1. GAN 기반 테이블 데이터 증강 모델 21

2. DeepSMOTE 23

제3장 BAMT-GAN : 혼합형 데이터 증강 기법 24

제1절 개요 24

제2절 혼합형 데이터 증강 기법 26

1. Record Clustering 26

2. Data Generation 28

3. Loss function 34

4. Classification 35

5. Augmentation 36

제4장 실험 방법 및 결과 37

제1절 실험 환경 37

1. 실험 데이터 37

2. 파라미터 설정 40

제2절 실험 방법 41

제3절 성능 평가 44

1. 분류 모델의 정확도, AUC 및 F1-score 44

2. Augmented Improvement 58

3. Augmentation 전/후 성능 비교 61

4. 증강 비율별 클래스 분포 비교 62

5. 샘플 크기에 대한 데이터 증강의 영향 비교 64

6. 기존 모델과 제안 모델의 성능 비교 66

제5장 결론 71

참고문헌 72

Abstract 76

표 4.1.1. 데이터셋 별 컬럼과 클래스 정보 39

표 4.1.2. 실험에 사용된 하이퍼파라미터 정보 40

표 4.2.1. 데이터 증강 비율별 레코드 개수 43

표 4.3.1. diabetes 데이터의 분류 알고리즘의 증강 비율별 성능 48

표 4.3.2. adult1000 데이터의 분류 알고리즘의 증강 비율별 성능 49

표 4.3.3. adult5000 데이터의 분류 알고리즘의 증강 비율별 성능 50

표 4.3.4. adult10000 데이터의 분류 알고리즘의 증강 비율별 성능 51

표 4.3.5. adult20000 데이터의 분류 알고리즘의 증강 비율별 성능 52

표 4.3.6. tox21 데이터의 분류 알고리즘의 증강 비율별 성능 53

표 4.3.7. churn 데이터의 분류 알고리즘의 증강 비율별 성능 54

표 4.3.8. online 데이터의 분류 알고리즘의 증강 비율별 성능 55

표 4.3.9. credit screening 데이터의 분류 알고리즘의 증강 비율별 성능 56

표 4.3.10. car 데이터의 분류 알고리즘의 증강 비율별 성능 57

표 4.3.11. 데이터 별 Augmented Improvement 60

표 4.3.12. Augmentation 전/후 성능 비교 61

표 4.3.13. 증강 비율별 클래스 분포 비교 62

표 4.3.13. 원본, +80% 증강, +200% 증강 클래스 비율 비교 63

표 4.3.14. 기존 모델과 제안 모델 비교(+40% 기준) 67

표 4.3.15. 기존 모델과 제안 모델 비교(+200% 기준) 69

그림 2.1.1. 데이터 유형별 데이터 증강 예시 15

그림 2.2.1. GAN 아키텍처 18

그림 2.2.2. 오버샘플링(왼쪽)과 언더샘플링(오른쪽) 20

그림 2.3.1. GAN 기반 테이블 데이터 증강 모델 21

그림 3.1.1. 제안 기법 'BAMT-GAN' 아키텍처 24

그림 3.2.1. 원본 데이터셋(왼쪽), Record Clustering을 통해 오버샘플링한 데이터셋(오른쪽) 26

그림 3.2.2. 테이블 데이터셋의 컬럼 유형별 인코딩 예시 28

그림 3.2.3. 혼합형 컬럼 인코딩 예시 30

그림 3.2.4. 컬럼 인코딩 후 레코드의 feature map 예시 31

그림 3.2.5. 전체 데이터셋의 CNN 학습 과정 32

그림 3.2.6. 레코드 별 CNN 학습 과정 33

그림 3.2.7. 원본 데이터와 증강 데이터의 유사성 손실 계산 예시 34

그림 3.2.8. Voting Classifier 예시 35

그림 3.2.9. Augmentator로 균형잡힌 레이블 추출하는 과정 예시 36

그림 4.3.1. 원본 데이터와 증강 데이터의 분류 알고리즘 별 성능 평가 방법 44

그림 4.3.2. diabetes 데이터의 증강 비율별 분류 알고리즘의 정확도 46

그림 4.3.3. diabetes 데이터의 증강 비율별 분류 알고리즘의 AUC 46

그림 4.3.4. diabetes 데이터의 증강 비율별 분류 알고리즘의 F1-score 47

그림 4.3.5. 원본 샘플 데이터 크기 별 데이터 증강 성능 비교(+60% 증강 기준) 64

그림 4.3.6. 원본 샘플 데이터 크기 별 데이터 증강 성능 비교(+200% 증강 기준) 64

그림 4.3.7. 테이블 데이터 증강 기존 모델과 제안 모델 비교(+40% 증강 기준) 66

그림 4.3.8. 테이블 데이터 증강 기존 모델과 제안 모델 비교(+200% 증강 기준) 68