합성 반응 최적화는 신약, 신소재 발견 가속화를 위한 필연적 도구다. 목적에 따라 새롭게 설계된 분자 구조를 합성하려면, 다양한 실험 조건 변수들을 최적화해야 한다. 신속하게 최적 조합을 찾는 것은 신약, 신물질 개발의 긴 주기를 줄일 수 있는 핵심 요소 중 하나다. 유기 합성물은 신약, 광학, 반도체, 베터리 소재 분야까지 다양한 산업에 직접적으로 기여하며 특히, 합성 실험은 매우 높은 금전적 비용, 합성 시간 그리고 전문가 인력이 요구되기 때문에 개발 시간을 단축시키는 것은 아주 중요한 일이다. 그러나 빠르게 합성 조건을 찾아 적절한 합성법을 제안하기 위해서는 몇 가지 문제가 있다. 먼저, 모든 실험들은 독립적 관계를 가지기 때문에 기존의 최적화 방법론을 활용하기 위해서는 cold-start 문제를 가지고 있다. 또한 기계학습을 위해 3차원의 분자구조에 맞는 표현자를 고려해야 하며, 편향된 실험 데이터와 유기 합성의 미지영역에서 기인하는 난해한 합성 난이도 수치화는 최적화 과정을 더욱 어렵게 만든다.
본 박사학위논문은 축적된 실험데이터를 활용하는 기계학습적 접근법과 베이지안 최적화 기법을 융합해, 효율적으로 탐색 범위를 정하고, 실험의 난이도를 수치화 하여 최적화전략을 구성하는 방법과 반복되는 실험 결과를 동적으로 최적화전략에 반영해 합성 최적화의 trade-off 문제를 풀도록 제안한다. 본 연구는 최적화를 위한 탐색 영역을 효과적으로 줄이고 합성 난이도를 수치화 해 효율적인 최적화 전략을 취할 수 있도록 유도하는 것을 목적으로 한다.
첫 번째 연구는 입력되는 반응, 합성물들의 구조정보에 맞춰 수많은 조건 탐색 범위를 효과적으로 줄이는 것에 있다. 실험 합성 조건들의 조합은 적게는 수천개에서 많게는 수십만개의 조합이 가능하며 현실적으로 모두 실험할 수 없다. 본 연구에서는 입력된 합성 반응, 합성물의 3차원 분자구조 정보를 그래프 형태의 표현자를 생성해 조건 간 의존성을 고려하여 범위 내에서 다양한 조건 조합을 생성하는 모델을 제안했다. 기존에는 입력되는 반응 정보에 맞춰 조건 별 후보들의 순위를 매기는 형태로 접근했지만, 제안하는 모델은 variational auto-encoder를 활용해 조건 간의 궁합을 학습할 수 있도록 해 무의미한 조건 조합을 피하도록 설계해 다양하면서도 정확한 조건 조합을 예측하는 것이 가능했다.
두 번째 연구는 입력된 반응, 합성물, 조건 시약 구조 정보를 모두 학습에 용이하며 3차원 분자구조 정보를 최대한 보존할 수 있는 그래프 형태의 표현자를 생성하고 실험의 수율을 예측하는 것에 있다. 특히 합성 실험 논문에서 추출하고 정제한 100만건의 합성 실험 데이터는 다소 편향적이며 비일관적인 데이터가 존재해, 정확도가 높은 수율 예측 모델을 만들기 위해서 비일관적인 실험 상황에서는 모델의 불확실성이 높아 지도록 구성했다. 학습된 모델을 토대로 예측된 수율값과 모델 간의 편차를 활용해 합성실험의 난이도를 수치화 했으며 합성 실험의 수율을 예측하는 기존 연구들에 비해 정확도 측면뿐만 아니라 편향되어 부족한 데이터에서도 성능을 개선했다.
세 번째 연구는 위 모델들을 활용해 합성 실험 조건 최적화에 대한 연구다. 효율적으로 좁혀진 탐색 범위에서 예측된 수율값과 불확실성을 토대로 실험의 우선순위를 정해 실험을 시작한다. 실험 결과가 순차적으로 입력되면 베이지안 최적화 방법의 예측 모델을 학습하고 기존 기계학습의 예측 결과 값과의 편차에 따라 다음 실험 조건의 우선순위를 결정짓는 기계학습 모델 결과, 베이지안 최적화 모델, 두 모델의 가중치를 조절한다. 실험이 진행됨에 따라 기계학습 모델의 예측값의 오차가 크고 실제 수율값이 지속적으로 좋지 못한 경우, 실험의 난이도가 높고 학습데이터 범위 밖의 실험으로 판단해 베이지안 최적화 모델의 가중치를 높이며 좁혔던 조건 범위를 점차적으로 늘려 나가도록 한다. 이러한 접근은 최적화 전략의 방향이 쉬운 실험은 exploitation 할 수 있게, 난이도가 높은 실험은 exploration 할 수 있게 함으로써 trade-off 최적화 문제를 효율적으로 풀도록 설계 되었다.
결론적으로, 본 박사학위 논문은 유기합성 실험의 조건 최적화를 위해서 탐색 범위를 효과적으로 줄이고 합성 실험의 난이도를 수치화 해 효율적으로 탐색할 수 있도록 하는 실험 최적화 기법을 제안하며, 기존 최적화 연구와 비교하였으며 추가적으로 실제 합성 자동화 장비를 통해 반응 최적화 성능을 검증했다.