3.3. Opponent Selection
MARL환경에서의 sparse reward problem은 agent가 어떤 상대와 학습을 하느냐에 따라 치명적으로 작용할 수 있습니다. 기본적으로 RL agent는 randomized action을 취했을 때 주어지는 positive reward를 통해 학습합니다. 때문에 극단적으로 강력한 상대와 학습을 하는 경우 positive reward를 받지 못해 학습이 전혀 되지 않기도 합니다. 바둑을 처음 배우는 아이가 이세돌 9단과 같은 프로 기사와 대결을 한다면 몇판을 두든 이기지 못할 것이고 어떤 전략이 좋은지 학습하지 못할 것입니다. 이와 같이 게임을 연습할 때에는 실력에 맞는 적절한 상대방을 고르는 것이 매우 중요합니다. 이런 문제에 대해 self-play가 적절한 학습 curriculum을 제공할 수 있습니다.
3.3.1. Autocurriculum
뛰어난 agent는 어떤 상대를 만나든 적절한 대응을 할 수 있는 agent일 것입니다. 때문에 agent를 학습시키는 과정에서 되도록 다양한 전략을 구사하는 상대를 만나봐야 하고 그와의 훈련을 통해 얻은 지식을 잊지 않아야 합니다. 그러나 연구자가 학습 curriculum을 직접 설계하는 것은 쉽지 않습니다. 언제 agent가 대응전략을 학습할 수 있을지, 또 언제 어떤 상대를 마주치는게 빠른 학습에 도움이 될지 알 수 없기 때문입니다. self-play는 자신의 이전 버전들을 상대로 학습을 하기 때문에 자연스럽게 적절한 난이도의 challenge가 알맞게 주어지고 이것을 autocurriculum이라고 부릅니다. OpenAI의 Hide-and-Seek의 실험결과를 보면 상대방의 전략을 무력화 시키기 위한 새로운 전략이 등장하는 innovation이 반복적으로 일어나는 것을 확인할 수 있습니다. 이것이 가능한 이유는 현재 agent가 자신의 과거 버전을 이기기 위해 전략을 수정하는 순간 미래의 자신에게는 새로운 challenge를 부여하는 autocurriculum이 생성되기 때문입니다. autocurriculum은 finite한 zero sum game에서는 NE로 수렴하고 보다 open ended 환경에서는 지속적인 innovation을 촉진해 창의적인 전략을 수립하도록 이끕니다. 다양한 전략을 경험해본 agent는 학습환경에서 벗어나 새로운 agent를 만나더라도 robust할 가능성이 높아질 것입니다.
3.3.2. Opponent sampling
self-play는 나 자신과의 게임을 의미하지만 현재 상태의 나 자신을 의미하지는 않습니다. 나의 과거 모습들 중