4차 산업혁명 시대에는 정보통신기술의 발전과 클라우드 컴퓨팅 환경의 도입으로 수많은 데이터가 빅데이터의 이름으로 수집 및 저장된다. 이러한 빅데이터는 다양한 가치 창출을 위해서 사회 전반에 공유된다. 그러나, 데이터 공유가 활발히 일어날수록 그로 인해 개인의 민감한 정보가 노출되는 프라이버시 침해에 관한 우려도 커지고 있는 실정이다. 이에 프라이버시 노출의 가능성이 있는 원본 데이터 대신 재현 데이터(synthetic data)를 생성하여 배포하는 것이 데이터 공유와 프라이버시 침해 간의 상충관계를 완화하는 대안으로 등장하였다. 재현 데이터는 원본 데이터와 통계적으로 유사한 특성을 가지면서도 임의로 생성된 데이터이기 때문에 기존의 개인정보 비식별 조치보다 프라이버시 침해로부터 안전하다. 따라서, 재현 데이터 생성방법은 프라이버시를 보장하면서 데이터를 적극적으로 공유할 수 있다는 장점이 있다.
지금까지의 연구를 살펴보면, 심층 생성 모형을 활용한 재현 데이터 생성은 대부분 GAN(Generative Adversarial Networks) 방법론에 기반을 두고 있다. GAN은 적대적 학습법(adversarial learning)을 사용하여 내재적으로 불안정하다는 구조적 한계에도 불구하고 재현 데이터 생성 방법론에 활발히 이용되고 있다. 특히, 표 데이터(table type data)의 성공적인 재현을 위해 고안된 대표적인 방법론인 Table-GAN, CTGAN(Conditional Tabular GAN)은 모두 표 데이터의 고유한 특성을 고려하여 GAN의 변형을 시도하였다. CTGAN 논문에서는 GAN과 함께 대표적인 심층 생성 모형 중 하나인 VAE(Variational AutoEncoder)를 이용한 표 데이터 재현 방법론인 TVAE(Tabular VAE)도 소개되었다. VAE는 우도 함수(likelihood function) 기반의 안정적인 학습이 가능하다는 장점에도 표 데이터 재현 방법론에 많이 이용되지 않았다. 특히, CTGAN 논문에서는 CTGAN과 TVAE의 재현 성능을 비교한 실험의 결과를 제공하는데 TVAE는 CTGAN에 비해 복잡하지 않은 신경망 구조를 가짐에도 더 높은 재현 성능을 보여주었다. 이에 본 논문에서는 TVAE를 발전시켜 우도 함수 기반의 표 데이터 재현 방법론을 제안하고자 한다.
본 논문에서 제안하는 방법론은 TVAE를 3가지 측면에서 발전시켰다. 첫째, 제안 방법은 TVAE에서 사용하는 VAE의 목적함수보다 원본 데이터 분포의 로그 우도 함수(log likelihood)에 대한 더 정밀한 하한 값을 제공하는 IWAE(Importance Weighted AutoEncoders)의 목적함수를 사용하여 학습을 진행하였다는 것이다. 둘째, 제안 방법은 TVAE와 달리 범주형 변수의 범주 불균형 문제를 다루고자 조건부 분포를 고려한 CIWAE(Conditional IWAE)를 개발하여 IWAE를 발전시켰다는 것이다. 마지막으로, CIWAE에 TVAE가 사용하는 전처리 기법 외에 표 데이터 재현 방법론에서 사용하는 다른 전 처리 기법을 추가하여 TCIWAE(Tabular CIWAE)를 고안하였다.
제안 방법인 TCIWAE와 기존의 표 데이터 재현 방법론인 CTGAN, TVAE를 비교하기 위해서 2가지 표 데이터를 가지고 재현 데이터 생성 실험을 진행하였다.
결과적으로, 제안 방법론인 TCIWAE가 생성한 재현 표 데이터는 비교 방법론인 CTGAN, TVAE로부터 얻은 그것과 프라이버시 노출 위험 정도는 비슷하면서 여러 가지 유용성 측면에서 더 유사하였음을 확인할 수 있었다.