인간과 바둑 대결에서 4 대 1로 완승한 알파고. 여기에 이어 학습 없이 독학하는
‘알파 제로’는 똑똑하다 못해 인간 사회가 직면한 에너지 절감과
신물질 개발 등의 문제를 해결하는 데 기대를 모으고 있다.
과학 전문지 《네이처》 에서는 ‘인간의 지식 없이 바둑 정복하기’라는 제목으로 알파고의 후속 버전 알파 제로를 소개했다. 알파 제로는 구글 딥마인드가 새로 내놓은 인공지능으로 별다른 학습 없이 스스로 깨우쳐 알파고를 뛰어넘었다. 기존의 알파고 출현으로 딥러닝과 강화학습을 탑재한 인공지능 알고리즘에 대해서는 익히 들어왔던 터. 하지만 알파 제로의 성능에 대해서는 주목하지 않을 수 없다. 바둑판 위에 검은 돌, 흰 돌 두는 방법만 알려줬을 뿐임에도 알파 제로는 알파고와의 대국 100판에서 완승했기 때문이다. 그로부터 40일 뒤 알파고 마스터와의 대국에서 알파 제로는 89승 11패를 기록했다. 알파고가 사람이 둔 바둑 기보를 보고 학습한 다음 빠른 연산 속도를 이용해 사람을 뛰어넘었다면 알파 제로는 셀프대국을 치르면서 바둑을 학습하고 분석한 것이다.
알파 제로의 알고리즘은?
알파 제로 알고리즘은 신경망 예측 향상과 몬테카를로 트리 탐색으로 강화했다. 게임을 하면 할수록 실력이 커져가는 것이다. 바둑 기보 하나 보지 않고 셀프대국만 치르면서도 알파고와 알파고 마스터를 너끈히 물리칠 수 있는 저력이 바로 여기에 있었다. 알파 제로는 4세대 TRU와 44개의 CPU 코어를 입었다. 인간 두뇌의 신경망과 흡사하다. 이로 인해 시간이 흐르면서 학습 속도가 증가했다. 그 덕분에 알파 제로는 학습 4시간 만에 체스 인공지능 챔피언인 스톡피시를 이겼다. 이세돌 9단을 이긴 알파고의 성능을 넘는 데 30시간 걸렸다. 빅데이터 없이 스스로 학습하는 알파 제로. 셀프 게임을 하며 최적화한 시간은 체스의 경우 9시간, 쇼기는 12시간, 바둑은 13일 걸렸다. 구글 딥마인드의 데미스 허사비스 CEO는 알파 제로에 대해 “제로 상태에서 시작해 셀프 대국을 하다가 보다 나은 게임을 학습했고 그 덕분에 독특한 스타일을 선보였다”고 전했다.
알파 제로와 기존 인공지능과의 차이
바둑 인공지능 전문가 감동근 아주대 전자공학과 교수는 한 방송과의 인터뷰에서 알파 제로 이전 버전과 알파 제로 간의 차이점을 이야기했다. 첫 번째는 신경망 통합이다. 알파 제로 이전 버전은 정책망과 가치망이라는 2개의 신경망으로 되어 있지만, 알파 제로는 이 두 가지를 하나의 네트워크로 구현했다는 것이다. 두 번째는 무에서 유로의 학습이다. 알파 제로 이전의 알파고에서는 15만 건의 기보에서 3,000만 개의 수를 학습했다. 이와 달리 알파 제로는 바둑 규칙만을 갖고 셀프대국을 통해 바둑의 이치를 스스로 터득해나갔다. 세 번째는 강화 학습과 평가다. 알파 제로는 학습한지 몇 시간 만에 이전 알파고 버전과 인간을 능가했다.
알파 제로의 확장성은?
체스, 쇼기, 바둑 등 여러 게임에서 승리한 알파 제로의 확장성은 있을까? 구글 딥마인드는 초기 단계이기는 하지만 알파 제로의 창의성은 단백질 구조 연구나 에너지 절감, 신물질 개발과 같은 문제를 해결하는 데 비약적인 발전을 이룰 수 있을 것이라고 공식 블로그를 통해 밝혔다. 구글 데이터센터의 에너지 소비량을 40%까지 줄인 사례가 대표적이다. 센터 내 수천 개의 센서에서 온도와 전력량, 냉각펌프 운영속도, 각종 설정값 등 인공신경망에 학습시킨 덕분이다. 로보틱스 분야에서도 활용 가능할 것으로 점쳐진다. 일본 히타치(HITACHI) 사가 올린 로봇 영상을 보면 딥러닝과 강화학습으로 그네 타는 동작을 수 없이 반복 학습한 로봇이 그네를 사람보다 훨씬 높이 잘 타는 모습을 보여주고 있다.