본 연구는 랜덤 포레스트 머신러닝 알고리즘을 활용하여 소상공인 사업 지속가 능성 여부를 예측하는 모형을 제시하고 모형의 예측 성과를 평가하며, 예측에 기여하는 요인들의 특성을 파악하는 것을 목적으로 한다. 실증분석에는 중소벤처기업부와 통계청이 공동 작성한 「2019년 기준 소상공인 실태조사」데이터를 활용 하였으며, 결측치가 없는 데이터를 만들기 위해 2013년~2018년 사이의 신규창업업체 14,692개를 대상으로 선정하였다.
예측 모형은 선행연구에서 소상공인의 창업준비, 경영성과, 지속가능성 등에 영향을 미치는 것으로 검증된 변수에 대해 45개의 설명변수를 설정하였다. 소상공인 사업 지속가능성 모형의 예측 성과는 소상공인의 지속운영을 옳게 분류한 정확도가 91.06%, 지속운영을 생각하는 소상공인이 지속한다고 예측한 민감도가 95.0%로 나타났다. 지속운영 생각을 가진 소상공인이라고 예측한 결과가 맞을 확률인 정밀도는 88.21%, 민감도와 정밀도의 조화평균인 F1-Score는 91.48% 그리고 거짓 양성비율에 대한 참 양성비율을 측정한 ROC-AUC 점수는 91.02%로 나타났다. 본 연구의 결과는 랜덤포레스트를 활용하여 성과를 제시한 사회과학 연구들에 비견되거나 우수하다고 할 수 있다. 예측에 기여하는 설명변수의 중요도는 순서대로 매출액, 창업동기(수입이더많을것같아서), 창업준비활동중요성(동종업종종사경험), 총창업비용, 창업동기(사업을직접경영하고싶어서) 순이었고 매출액은 소상공인 사업 지속가능성에 가장 많은 영향을 미치는 요인으로 선행연구에서 밝혀진 바와 같이 경영성과의 지표로 사용되는 가장 중요한 변수이다.
본 연구의 학문적 시사점으로는 선행연구에서 드물게 사용한 머신러닝 알고리즘 (랜덤포레스트)을 활용하여 다수의 설명변수로 구성된 예측모형을 도출하였다는 것에 의의가 있다. 그리고 대부분의 선행연구에서는 표본 구성이 지역적으로 한정되거나 전체 표본 규모가 제한되어 한계점이 존재하였으나 본 연구에서는 전국을 대상으로 실시한 「2019년 기준 소상공인 실태조사」를 사용하여 대량의 패널데이터를 사용하였다. 설명변수 설정 시 선행연구에서 검증된 변수에 근거하여 다양한 45개의 설명변수를 사용한 것도 의미가 있다고 볼 수 있다.
실무적 시사점으로는 45개 설명변수의 중요도를 분석하여 소상공인 사업 지속가능성을 위한 정부나 지자체의 대책마련이나 지원제도에 대한 근거를 마련할 수 있다는 점에서 의미가 있다. 창업준비는 사업의 성공을 판가름하는 열쇠로 창업준비를 좀 더 충실하게 할 수 있도록 정부나 지자체의 창업준비에 대한 다양한 컨설팅이 소상공인 사업 지속가능성에 주효할 것이다.
연구의 한계점으로 본 연구는 「2019 소상공인 실태조사」를 활용하였으나 38,169개의 데이터 중 14,692개만 사용하였는데, 이는 2013년~2018년 사이의 신규창업 사업체만 응답을 하는 설문문항(창업준비, 창업과정어려움 등)을 사용하기 위함이었으나 전체 데이터를 분석에 활용하지 못한것에 연구의 한계가 있다. 1회성 자료인 횡단면 자료만을 이용하여 분석을 수행하였기 때문에 사업준비단계와 사업운영단계의 관계를 명확히 규명하는데에는 한계가 있다.