정보통신기술의 발전으로 많은 양의 데이터가 빠르게 생성되고 있다. 시장조사기관 IDC의 2011년 전 세계 정보량 증가 추이 보고서를 보면 2008년에 생성된 데이터의양이 281 엑사바이트였지만 2011년의 데이터의 양은 약 6.6배 증가한 1.8 제타바이트였다. 그리고 2020년에는 2011년 대비 50배가 증가한다고 예상하고 있다. 이처럼 데이터의 양이 기하급수적으로 증가하고 있다.
기하급수적으로 늘어난 데이터의 양은 다양한 데이터 관련 기술들의 발전을 이끌어왔다. 하지만 이 기술들은 주로 데이터의 저장 혹은 데이터 분석에 집중되어 있으며, 데이터 품질 관리에 대한 인식과 기술은 상대적으로 부족하다. 이에 따른 다양한 저 품질 데이터 피해사례가 발생하고 있다.
위와 같은 문제를 해결하기 위해 데이터 품질 관리가 필요하다. 데이터 품질 관리란 기관이나 조직 내외부의 정보시스템 및 데이터베이스 사용자의 기대를 만족시키기 위해 수행하는 데이터 관리 및 개선활동을 의미한다. 데이터 품질은 기관/기업의 신뢰 또는 이윤에 많은 영향을 줄 수 있기 때문에 데이터 품질 관리를 유지하기 위해 노력해야한다.
따라서 본 사례 연구에서는 데이터 품질 관리 도구인 Talend Open Studio for Data Quality를 활용한 사례를 통하여 데이터 품질 기준 중 하나인 데이터 품질 정확성을 설명하고 데이터 품질 정확성 개선 방법에 대한 제시를 통해 데이터 품질 관리에 기여하고자 한다.