표제지
목차
논문요약 10
I. 서론 11
II. 관련 연구 15
1. 친환경 인증제도 15
2. 친환경 건축물 데이터 19
3. 머신러닝 알고리즘 20
III. 데이터 수집 및 가공 28
1. 데이터 수집 28
2. 탐색적 데이터 분석 34
3. 데이터 전처리 40
IV. 데이터 분석 47
1. 통계적 데이터 분석 47
2. 선형모델 기반 가격 예측 50
3. XGBoost 기반 가격 예측 52
V. 결론 59
참고문헌 61
ABSTRACT 65
표 1-1. 연구 흐름도 14
표 2-1. BEEC 등급 인증 기준 16
표 2-2. G-SEED 기존 주거용 건축물 인증심사기준 18
표 2-3. G-SEED 등급 인증 기준 19
표 2-4. 머신러닝 기술을 사용한 건축물 가격 연구 26
표 3-1. 수집된 데이터에서 사용된 각 필드들의 영문 및 한글명 31
표 3-3. 병합된 데이터 세트에 사용된 속성 33
표 3-4. 변수 기초 통계량 34
표 3-5. 속성의 데이터 타입 36
표 3-6. 연도별 통계량 37
표 3-7. 권역생활권 및 자치구별 통계량 39
표 3-8. 서울시 권역생활권 구분 41
표 4-1. ㎡당 가격과 독립변수의 피어슨 상관관계 48
표 4-2. 선형회귀분석 결과 52
표 4-3. 하이퍼파라미터 튜닝을 위한 XGBoost 파라미터 54
표 4-4. 하이퍼파라미터 성능 순위 56
표 4-5. 트리 기반 머신러닝 알고리즘 예측 결과 58
그림 3-1. 부동산 실거래 데이터 XML 페이지 예시 29
그림 3-2. BeautifulSoup 라이브러리를 통한 XML 페이지 파싱 코드 29
그림 3-3. 데이터 수집 결과 30
그림 3-4. Tableau Prep으로 표현한 데이터 흐름 32
그림 3-5. 변수 히스토그램 35
그림 3-6. BEEC, G-SEED 인증 현황 40
그림 3-7. One-Hot Encoding으로 변환된 권역생활권(DisctirctGroup) 속성 42
그림 3-8. ㎡당 가격 데이터 분포와 이상치 영역 44
그림 3-9. 이상치 제거 후 ㎡당 가격 데이터 분포 44
그림 3-10. Isolation Forest 알고리즘으로 탐지된 이상치 영역 45
그림 3-11. 표준화 코드와 결과 46
그림 4-1. BEEC 등급 별 ㎡당 가격 박스플롯 비교 49
그림 4-2. 분산분석 결과 50
그림 4-3. 학습 및 테스트 데이터 분리 53
그림 4-4. 랜덤 서치를 통해 하이퍼파라미터를 찾기 위한 모델링 코드 55