본 논문은 서울, 부산, 인천과 같은 대한민국의 주요 도시들을 대상으로 일사량 예측 정확도를 향상하기 위한 방법론을 제안한다. 제안한 방법론은 먼저 GAN, CTGAN, Copula GAN, WGANGP, TVAE 등 다섯 가지 생성 모델을 이용하여 기존 학습 데이터와 유사한 독립 변수들을 생성한다. 다음으로 모델 학습에서의 데이터 편향성을 개선하고자, 생성한 독립 변수들에서 각각 랜덤 포레스트와 심층 신경망을 통해 종속 변숫값을 도출하여 학습 데이터 셋을 구축하고, 이를 기존 학습데이터 셋과 결합하여 예측 모델을 구성한다. 실험 결과, 증강된 데이터 셋으로 학습한 모델들은 기존 데이터 셋으로 학습한 모델들보다 향상된 성능을 나타내었다. 특히 CTGAN은 복잡한 다변량 데이터 관계를 효과적으로 다루는 메커니즘으로 인해 우수한 결과를 도출하였으며, 생성된 데이터는 일사량의 다양한 변화와 실제 변동성과 효과적으로 반영하였다. 제안한 방법론은 고품질의 생성 데이터로 학습 데이터를 증강함으로써, 데이터 부족 현상 문제를 다룰 수 있을 뿐만 아니라 지속 가능한 발전을 위한 태양광 발전 시스템 운영에도 이바지할 수 있을 것으로 기대한다.
In this paper, we propose a method to enhance the prediction accuracy of solar irradiance for three major South Korean cities: Seoul, Busan, and Incheon. Our method entails the development of five generative models—vanilla GAN, CTGAN, Copula GAN, WGANGP, and TVAE-to generate independent variables that mimic the patterns of existing training data. To mitigate the bias in model training, we derive values for the dependent variables using random forests and deep neural networks, enriching the training datasets. These datasets are integrated with existing data to form comprehensive solar irradiance prediction models. The experimentation revealed that the augmented datasets led to significantly improved model performance compared to those trained solely on the original data. Specifically, CTGAN showed outstanding results due to its sophisticated mechanism for handling the intricacies of multivariate data relationships, ensuring that the generated data are diverse and closely aligned with the real-world variability of solar irradiance. The proposed method is expected to address the issue of data scarcity by augmenting the training data with high-quality synthetic data, thereby contributing to the operation of solar power systems for sustainable development.