본 발명은 MADRL(Multi- Agent Deep Reinforcement Learning)에 관한 것이다. 다중 에이전트 심층 강화 학습에서 많은 지능형 에이전트는 실수로부터 배우고 더 나은 의사 결정 기술을 개발하려는 환경에서 상호 작용하고 함께 작업합니다. 최근 MADRL은 협력 다중 에이전트 시스템(MAS)에서 매우 유망한 결과를 보여 이 분야에서 그 중요성을 입증했습니다. 특히 자율주행차, 투 스테이트 게임(스타크래프트), 공장 내 물류 유통, 생산성 최적화, 협동형 멀티로봇 탐사 시스템과 같은 복잡한 작업에서. 이러한 문제를 해결하기 위해 다양한 기술이 도입되었습니다. 심층 다중 에이전트 강화 학습은 많은 도전적인 작업을 완료하는 측면에서 유망한 결과를 보여줍니다 . 현장의 실행 가능성을 입증하기 위해 (VDN)은 중앙 집중식 가치 기능 학습이 분산 실행과 결합되도록 했습니다. 그들의 접근 방식은 핵심 상태-행동 가치 함수의 개별 에이전트 용어를 결합했습니다. 그러나 VDN은 작은 클래스의 중앙 집중식 작업 값 함수만 나타낼 수 있으며 교육 중에 추가 상태 정보를 사용하지 않습니다. QMIX와 같은 최신 방법은 CTDE(분산형 실행을 통한 중앙 집중식 교육) 패러다임을 사용합니다. 이 방법에서는 믹서 네트워크를 사용하여 모든 에이전트에 대한 공동 상태-행동 값 함수를 단조 함수로 분해합니다. 각 에이전트에 대한 개별-글로벌-최대 조건 IMG를 보장하기 위해 믹서 네트워크를 사용하여 모든 에이전트의 공동 상태-행동 값을 계산합니다. 단조 조건을 달성하기 위해 각 에이전트의 현재 상태를 입력으로 하여 믹서 네트워크에 대한 엄격한 양의 가중치를 예측하는 하이퍼 네트워크가 사용됩니다. 믹서 네트워크의 출력도 이 하이퍼 네트워크를 통한 현재 상태에 따라 달라집니다. 혼합 네트워크에는 최적화 프로세스에 사용된 것과 동일한 DQN 알고리즘이 제공됩니다. QMIX의 공동 행동 가치 함수 클래스도 제한됩니다.
이 제한을 해결하기 위해 QTRAN은 IGM 일관성의 도움으로 완전한 가치 함수 클래스를 표현하는 새로운 분해 방법을 도입했습니다. 그러나 구현하는 데 더 많은 처리 노력이 필요하지만 이 방법은 QMIX보다 더 일반적인 분해를 보장합니다. 특정 상황에서 QMIX의 탐색 기능에 대한 Mahajan et al.의 분석은 한계를 보여주었습니다. 모든 에이전트의 성능 향상을 위해 잠재 공간이 존재하는 패러다임을 제시했다. 따라서 MARL을 지원하기 위한 효과적인 확장성을 확보하는 것은 QPLEX로 해결되는 난제로 남아 있습니다. QPLEX의 성능은 우수하지만 이러한 결과를 생성하려면 정교한 네트워크가 여전히 필요합니다. 또한 개별 에이전트의 활동 선택에 탐욕적인 정책을 사용하기 때문에 상당한 수의 에이전트에 대해 여러 훈련 에피소드가 필요합니다. 또한 QVMix 및 QVMix - Max 로 알려진 두 가지 새로운 DQV(Deep Quality-Value) 기반 MARL 알고리즘이 연구원에 의해 개발되었습니다. 이러한 알고리즘의 개발은 중앙 집중식 교육 및 분산 실행을 사용합니다. 이러한 알고리즘의 결과는 QVMix가 Q 함수의 과대평가 편향에 덜 취약하기 때문에 다른 알고리즘보다 우수한 성능을 보였다는 것을 보여줍니다. 그러나 QVMix는 또한 각 개별 에이전트가 수행하는 작업을 선택하는 욕심 많은 방법을 사용하기 때문에 많은 처리 능력과 교육 시간이 필요합니다. 본 논문에서는 이러한 제약을 극복하기 위해 자연에서 영감을 얻은 최적화 기반의 새로운 하이브리드 정책을 제안한다. 이 정책에서 각 개별 에이전트의 작업 선택을 위해 욕심 많은 정책과 함께 GWO를 사용했습니다. 환경 지식이 필요하지만 GWO(먹이를 찾는 데 자주 사용됨) 및 Ant Colony Optimizer(일반적으로 최단 경로를 결정하는 데 사용됨)와 같은 최적화 알고리즘이 욕심쟁이 정책을 능가합니다. GWO에서 에이전트는 다른 에이전트를 지원하는 리더 에이전트와 함께 중앙에서 학습됩니다. 결과적으로 현재의 혁신은 생체에서 영감을 얻은 최적화를 사용하기 때문에 기존 방법론보다 컴퓨터 리소스와 에피소드가 적습니다. 통신 제한이 없으며 에이전트가 목표를 달성하기 위해 협력합니다. 또한 알려진 환경에서 최적화 전략은 그리디 정책보다 더 빠르게 수렴됩니다. 그러나 최적화 알고리즘은 알 수 없는 환경에서 실패하지만 탐욕 정책이 눈에 띄게 더 잘 수행됩니다. 따라서 이러한 접근 방식을 결합하여 두 경우 모두에 대해 가장 큰 결과를 얻습니다. 우리는 StarCraft 2 학습 환경을 사용하여 최첨단 QMIX 및 QVMix 알고리즘에 대해 제안된 접근 방식을 비교했습니다. 실험 결과는 우리의 알고리즘이 모든 경우에 QMIX 및 QVMix 보다 더 잘 수행되고 훈련 세션이 더 적게 필요함을 보여줍니다.