표제지
국문초록
목차
제1장 서론 15
1.1. 연구배경 및 목적 15
1.2. 연구범위 및 절차 17
1.2.1. 연구의 범위 17
1.2.2. 연구의 절차 18
제2장 이론 및 선행연구 고찰 20
2.1. 전통적 통계분석방법 이론적 고찰 20
2.1.1. 안전성능함수(Safety Performance Function) 20
2.1.2. 포아송 회귀모형(Poisson Regression Model) 21
2.1.3. 음이항 회귀모형(Negative binomial Regression Model) 23
2.2. 머신러닝 이론적 고찰 25
2.2.1. 머신러닝의 정의 25
2.2.2. 랜덤 포레스트(Random Forest) 26
2.2.3. 변수 중요도(Feature Importance) 28
2.3. 선행연구 고찰 34
2.3.1. 전통적인 통계기법을 활용한 사고심각도 연구 34
2.3.2. 머신러닝을 활용한 연구 41
2.4. 본 연구의 차별성 47
제3장 자료수집 및 기술통계분석 49
3.1. 분석 개요 49
3.2. 분석자료 수집 52
3.2.1. 전국 고속도로 교통사고 중 사고 다발 10위 노선 지정 52
3.2.2. 공간 연산을 통한 데이터 가공 55
3.2.3. 콘 존(Conzone) 데이터 가공 58
3.3. 전국 고속도로 현황 및 기술통계분석 60
3.3.1. 고속도로 연도별 연평균일교통량 61
3.3.2. 전국 고속도로 교통사고 현황 63
3.3.3. 고속도로 교통사고 일반현황 69
3.4. 변수 선정 78
3.4.1. 종속변수 선정 78
3.4.2. 독립변수 선정 78
3.4.3. 변수 전처리 80
3.5. 기술통계분석 84
3.5.1. 인적요인 기술통계분석 84
3.5.2. 시간·환경요인 기술통계분석 86
3.5.3. 사고요인별 기술통계분석 89
3.5.4. 기하구조 요인별 기술통계분석 92
3.6. 가설 설정 및 검증 94
3.6.1. 독립표본 t-검정(Independent Samples t-test) 95
3.6.2. 일원 배치 분산분석(One-way ANOVA) 97
제4장 고속도로 교통사고 심각도 및 영향요인 분석 101
4.1. 분석 개요 101
4.2. 자료 구분 103
4.2.1. 데이터 스케일링(Data Scaling) 104
4.3. 모형 성능평가지표 선정 106
4.4. 머신러닝을 활용한 고속도로 교통사고 심각도 분석 107
4.4.1. 분석 개요 107
4.4.2. 파이캐럿을 활용한 회귀모델 비교 108
4.5. 머신러닝을 활용한 변수 중요도 평가 110
4.5.1. 모형 선택 110
4.5.2. 랜덤 포레스트 하이퍼 파라미터 성능 평가 112
4.5.3. 고속도로 10개 노선의 Feature Importance 115
4.5.4. SHAP 패키지를 활용한 Feature Importance 120
제5장 결론 및 향후 연구과제 124
5.1. 결론 124
5.2. 한계점 및 향후 연구과제 127
참고문헌 128
ABSTRACT 133
표 2.1. 전통적인 통계기법을 활용한 사고심각도 관련 국내 연구 37
표 2.2. 전통적인 통계기법을 활용한 사고 심각도 관련 국외 연구 40
표 2.3. 머신러닝을 활용한 국내 연구 43
표 2.4. 머신러닝을 활용한 국외 연구 46
표 3.1. 2019-2021년 전국 고속도로 교통사고 발생건수 53
표 3.2. 2019-2021년 고속도로 연평균일교통량 62
표 3.3. 전국 고속도로 교통사고 연도별 발생 건수, 사망자 수 및 부상자 수 64
표 3.4. 시·도별 고속도로 교통사고 현황 66
표 3.5. 연도별 고속도로 사고 위치별 현황 70
표 3.6. 고속도로 사고 위치별 부상자 현황 71
표 3.7. 고속도로 사고 위치별 사망자 현황 71
표 3.8. 고속도로 사고 위치별 치사율 현황 72
표 3.9. 2019-2021년 고속도로 교통사고 차종별 현황 74
표 3.10. 2019년 고속도로 가해자 법규위반 현황 76
표 3.11. 2020년 고속도로 가해자 법규위반 현황 77
표 3.12. 2021년 고속도로 가해자 법규위반 현황 77
표 3.13. 수집 변수 선정 및 변수 표기법 80
표 3.14. 인적요인변수 기술통계분석표 85
표 3.15. 시간·환경요인 기술통계분석표 87
표 3.16. 사고요인별 기술통계분석표 90
표 3.17. 기하구조 요인별 기술통계분석표 93
표 3.18. 독립표본 t-test 가설 설정 95
표 3.19. 독립표본 t-test 검증 결과 96
표 3.20. 일원 배치 분산분석 가설 설정 98
표 3.21. 일원 배치 분산분석 검증 결과 100
표 4.1. 파이캐럿을 활용한 회귀모델 결과 비교 108
표 4.2. Random Forest 하이퍼 파라미터 의미 111
표 4.3. Random Forest 설정 하이퍼 파라미터 113
표 4.4. Random Forest 하이퍼 파라미터 튜닝 상위 10위 결과 113
표 4.5. Random Forest 모형 결과 114
표 4.6. 고속도로 10개 노선의 Feature Importance 117
그림 1.1. 연구의 범위 17
그림 1.2. 연구 수행절차 및 흐름도 19
그림 2.1. Random Forest Regression Model 27
그림 2.2. Shap Value를 활용한 시각화 예시 31
그림 2.3. Tree Ensemble Model 예시 32
그림 3.1. TAAS 경부고속도로 교통사고 분석 예시 화면 50
그림 3.2. 자료수집 및 기술통계분석 개요 51
그림 3.2. Q-GIS를 활용한 고속도로 교통사고 결합 예시 56
그림 3.3. 고속도로 교통사고 개별 데이터 예시 57
그림 3.4. 콘 존(Conzone)데이터 예시 58
그림 3.5. 콘 존 마스터 테이블을 활용한 고속도로 교통사고 데이터 예시 59
그림 3.6. 고속도로 노선별 연평균일교통량 현황 62
그림 3.7. 전국 고속도로 교통사고 추세 분석 64
그림 3.8. 시도별 고속도로 사고건수 및 지역별 증감률 현황 67
그림 3.9. 시도별 고속도로 사망자수 및 지역별 증감률 현황 67
그림 3.10. 시도별 고속도로 부상자수 및 지역별 증감률 현황 68
그림 3.11. 2019년-2021년 고속도로 교통사고 위치별 현황 70
그림 3.12. 2019년-2021년 고속도로 교통사고 차종별 사고건수 및 사망자 구성비 74
그림 3.13. 2019년-2021년 고속도로 가해자 법규위반사항 현황 76
그림 3.14. 인적요인 변수 비율 그래프 85
그림 3.15. 시간·환경요인 사고비율 그래프 88
그림 3.16. 사고요인별 사고비율 그래프 91
그림 3.17. 기하구조별 사고비율 그래프 93
그림 4.1. 모형분석 절차 102
그림 4.2. 구축 데이터 샘플 103
그림 4.3. 수치형 변수 데이터 분포 105
그림 4.4. StandardScaler 기법을 활용한 데이터 샘플 105
그림 4.5. 파이캐럿을 활용한 모델 성능 비교 예시 107
그림 4.6. 고속도로 Feature Importance 119
그림 4.7. SHAP Feature Importance 120
그림 4.8. SHAP Summary Plot 121