인공지능의 편익을 극대화하고 해악과 위험을 최소화하기 위해 국내외에서 다양한 거버넌스 논의가 이어지고 있다. 오늘날 인공지능 거버넌스의 중심에는 신뢰성이라는 개념이 자리 잡고 있는데, 신뢰성을 이루는 하부 구성요소에 관한 실무적 차원의 논의가 활발한 것과는 달리 전체를 아우르는 이론적 차원의 논의는 부족한 상황이다. 이는 신뢰할 수 있는 인공지능 거버넌스의 현재와 미래에 대한 체계적 이해와 비판적 성찰을 어렵게 만들고 바람직한 법정책적 대안의 제시를 방해할 우려가 있다.
본고는 이러한 문제의식을 바탕으로 인공지능 신뢰성의 함의를 규명하고 이로부터 어떠한 시사점을 얻을 수 있는지에 대한 이론적 차원의 논의를 진행하였다. 인간 사회의 신뢰성 개념은 주로 선의지에 기초한 호혜성을 발휘하여 근원적 불확실성을 줄이는 데 초점을 두고 있다. 이는 전통적 규칙 기반 인공지능맥락에서는 유의미한 역할을 할 수 있지만, 주로 의도성 대신 결과와 결부된 불확실성이 부각되는 딥러닝 인공지능 맥락에는 그대로 적용되기가 어렵다. 이에 따라 후자에 대해서는 독자적 신뢰성 이론이 새로이 정립될 필요가 있다.
이러한 결과 기반 신뢰성 이론의 핵심에는 불확실성을 줄이기 위한 위험관리 체계의 정립이 자리 잡고 있다. 공학 분야에서 전통적으로 논의된 기술적 위험의 경우 이미 다양한 위험관리 방법론이 정립되어 있으므로 이를 적극적으로 활용할 수 있고, 실제로도 그러한 상황이다. 반면 딥러닝 인공지능이 만들어 내는 사회적 위험의 경우 인간의 정성적 가치와 결부된 것이어서 기존의 정량적 위험관리 방법론을 그대로 적용하기가 쉽지 않다. 이에 대해 인적 접근과 기술적 접근의 고도화라는 두 가지 대안이 제시되고 있는데, 어느 하나의 전적인 우위를 인정하는 대신 양자를 포용하는 융합적 사고를 지향할 필요가 있다.