단일 에이전트의 보상 최대화를 위한 셀프 어텐션 기반의 액터 크리틱 모델
설명
breakout 게임에 셀프 어텐션 기반의 액터 크리틱 모델을 적용하여 학습하는 영상이다.
왼쪽이 영상이 학습 초반부 오른쪽이 학습 후반부 영상이다.
특징
학습 초반부에는 벽돌을 잘 부수지 못하지만 후반부에 갈수록 공을 잘 받아내어 특정 방향의 벽돌을 집중적으로 부수면서 터널을 만들어 벽돌을 잘 부수는 모습을 확인할 수 있다.
데모 영상
왼쪽 - 학습 초반
오른쪽 - 학습 후반