초록

대부분의 생체 단백질은 수용액 상태에서 존재하며, 단백질 분자는 물분자와 많은 상호작용을 일으킨다. 이러한 상호작용은 단백질의 구조나 기능에 중요한 역할을 한다. 따라서 단백질의 구조와 기능을 예측하는 방법들은 단백질과 물 분자 사이의 상호작용을 직, 간접적으로 고려하게 된다. 간접적으로 물과 단백질 분자 사이의 상호작용을 고려하는 방법으로는 물을 일종의 유전체로 가정하는 방법을 사용하는데, 이러한 방법은 각각의 물 분자의 위치를 고려할 필요가 없기 때문에 비교적 계산 비용이 낮고, 물과 단백질 분자 사이의 상호작용 중 많은 부분을 차지하는 정전기적 상호작용을 모사할 수는 있지만, 물 분자의 위치에 따라 크게 달라질 수 있는 물과 단백질 사이의 수소결합과 같은 근거리 상호작용을 모사하기 어렵다는 문제점이 있다. 특히 물과 단백질 분자 사이의 근거리 상호작용은 단백질의 기능에 영향을 끼치기 때문에 단백질의 기능을 예측하는 방법에서는 단백질과 근거리 상호작용을 할 가능성이 높은 물 분자들의 위치와 단백질과의 상호작용을 예측하는 것이 중요할 수 있다. 물과 단백질 분자 사이의 근거리 상호작용을 고려하기 위해서는 물 분자의 위치를 직접적으로 반영하여 물과 단백질 사이의 상호작용을 모사하며, 주로 분자동역학 시뮬레이션이나 3D-RISM이 사용된다. 이러한 방법들은 물과 단백질 사이의 상호작용을 더욱 자세하게 모사할 수 있지만 계산비용이 높다는 문제가 있으며, 단백질과 물 사이의 상호작용에 상당한 기여를 하는 단백질에 결합된 물의 위치를 잘 예측하지 못한다는 문제도 존재한다.

따라서, 본 학위 논문에서는 단백질 주변의 물 분자의 위치를 예측하는 2가지의 방법을 제시하였다. 첫번째 시도는 단백질을 구성하는 원자의 용매화 상태를 고려하여 물과 단백질 사이의 통계기반 포텐셜 함수를 이용하여 단백질 주변의 물의 위치를 예측하는 방법이었다. 이 방법은 3D-RISM 방법에 비해서 평균적으로 180배의 계산 속도 향상을 보여주었으며, 단백질에 결합된 물 분자의 위치를 예측하는 성능은 3D-RISM과 비슷하거나 더 높았다. 그러나 이 방법은 수소결합에 직접적으로 참여하지 않는 단백질 원자와 물 분자 사이의 포텐셜 우물을 만들어지는 현상이 존재하였기 때문에 제한된 예측 성능을 보여주었다. 이러한 문제로 인하여 물 분자를 수용할 수 있는 단백질의 구조 패턴을 인식할 수 있는 Convolutional neural network를 이용한 물 분자 위치 예측 방법을 만들었고, 통계 기반 포텐셜 함수를 이용한 물 분자 위치 예측 방법에 비해 더욱 높은 예측 성능을 보였다. 이 방법은 GPGPU를 사용하였을 경우, 3D-RISM을 사용한 방법에 비해 44배의 속도 향상을 보였고, CPU만을 사용했을 때에도 58%의 속도 향상을 보였다. 예측 성능의 경우, 단백질 분자의 결정 구조에 포함된 물 분자의 수의 3배의 물 분자의 위치를 예측했을 때, 예측된 위치가 결정 구조에 존재하는 물 분자의 위치의 1Å 이내에 있을 확률이 75% 이상이었다.

이 논문에서 제시된 방법들을 이용하여 단백질 주변의 물의 위치를 더 정확히 예측할 수 있다. 나아가서 단백질-리간드 도킹을 할 때, 단백질에 붙잡혀있는 물 분자의 위치를 고려하여 더욱 단백질-리간드 도킹을 할 수 있을 것으로 예상된다.