국내 중소기업의 생산성을 제고(提高)하기 위해서는 그동안 축적된 데이터에 기반한 생산 프로세스를 수립하는 것이다. 특히 해당 기업이 보유 중인 핵심 생산 설비의 가동률, 장애 발생률, 일별/주별/월별/분기별 생산량 등의 생산성 데이터 분석을 통해 제품 생산량 및 생산기일 예측이 필요하다. 인천 지역의 남동산업공단(남동국가산업단지)과 부평산업공단(부평국가산업단지)에 입주하고 있는 중소기업은 독자적인 제품을 자체 생산하기보다는 제품 주문을 받아 이를 납품하는 기업들이 대부분이다. 본 논문에서는 이러한 유형의 A 중소기업을 대상으로 데이터 분석 및 생산량을 예측해보고자 하였다.
일반적으로 신뢰도 높은 데이터를 대상으로 결측치 처리 등 정제 과정을 거치면 빅데이터 분석을 통해 높은 신뢰 수준의 예측 결과를 생성할 수 있다. 본 연구에서는 A 중소기업에서 최근 1년간(2020.1~2020.12) 축적한 제품의 납품 주문 및 생산량, 납품일 등의 원시데이터를 사용하였다. 엑셀 파일에 저장된 원시데이터는 필드 수만 2,600개가 넘는 비효율적인 데이터 구조(schema)이다. 또한 중요한 필드 중 하나인 납품일은 일련번호만 달리한 채 여러 개 필드를 수작업으로 계속 추가되어 있었다.
더욱이 생산 제품은 소량 다품종이었으며, 품종별로 생산 단가가 달랐으며, 유사 제품에 주문량이 비슷함에도 불구하고 납품일이 일정하지 않았다. 이처럼 극도로 낮은 신뢰도의 원시데이터에 대해 어떤 정제 과정을 거치는 것이 효과적인지와, 과연 이런 과정을 거쳐 데이터 분석을 진행했을 때 생산량 및 납품일 예측 정확도가 얼마나 될지 분석해 보는 것이 본 논문의 목적이었다. 이러한 상황은 A 기업뿐만 아니라 인천 지역에 소재하는 대다수 중소기업이 처한 실정일 것으로 판단되었기 때문이다.
약 2,600개의 필드를 정제 과정을 거쳐 200개로 축소한 다음 다양한 기계학습 모델 기법을 도입해 생산량을 예측하였다. 신뢰도가 극히 낮은 데이터를 대상으로 한 생산량 예측 정확도는 10%를 넘지 못했다. 납품 위주의 중소기업의 생산성 제고를 위해서는 데이터 스키마 재설계, 동일 데이터는 한 개의 필드로 결합, 임의로 필드를 추가하는 것을 방지하는 등의 데이터 정제 과정을 거친다면, 예측 정확도를 크게 높을 수 있을 것으로 기대된다.