크래프톤(대표 김창한)이 대규모 언어 모델(Large Language Model, 이하 LLM)을 활용한 AI 에이전트의 게임 수행 능력을 정량적으로 평가하는 벤치마크 체계 ‘Orak’을 공개했다. 엔비디아와의 공동 연구 성과가 반영, 게임을 넘어 다양한 산업 분야로의 확장을 예고했다.
크래프톤은 게임 특화 AI 기술의 성능을 검증할 수 있는 벤치마크 ‘Orak’을 16일 공개했다. ‘오락’에서 착안한 명칭인 Orak은 게임 내에서 AI가 인지, 판단, 행동하는 전 과정을 수치화해 평가할 수 있도록 설계됐다. 액션, 어드벤처, RPG, 시뮬레이션, 전략, 퍼즐 등 여섯 가지 장르의 대중적인 게임을 기반으로 구성된다.
LLM 에이전트가 Orak의 게임을 플레이하는 모습 [이미지=크래프톤]이 시스템에는 크래프톤이 엔비디아와 공동 개발한 ‘CPC(Co-Playable Character)’ 설계 경험이 반영됐다. CPC는 이용자와 함께 플레이할 수 있는 AI 캐릭터 개념으로, 엔비디아의 온디바이스 게임 특화형 소형 언어 모델(ACE 기술 기반)을 활용해 개발됐다.
Orak은 복잡한 게임 맥락에서 AI가 어떻게 상황을 해석하고 행동을 결정하는지를 반복적으로 검증하는 체계로, LLM 기반 에이전트 성능을 평가하는 데 최적화돼 있다. 크래프톤은 이 체계를 통해 AI와 함께 플레이하는 게임 환경에 대한 연구를 한층 정교화할 수 있을 것으로 기대하고 있다.
핵심 기술로는 ‘MCP(Model Context Protocol)’가 있다. MCP는 게임 내 상태 정보를 텍스트 기반으로 변환해 언어 모델이 이해할 수 있게 전달하고, 모델의 응답을 실제 게임 행동으로 전환하는 역할을 수행한다. 이를 통해 LLM은 게임의 현재 상황을 이미지나 텍스트로 인식한 뒤, 점프나 회피 등 최적의 행동을 선택할 수 있다.
크래프톤은 Orak을 통해 AI 기술 연구의 새로운 기준을 제시, 향후 게임 산업을 넘어 다양한 산업 분야로 연구를 확장할 예정이다. 또, LLM파인튜닝(Fine-tuning)용 데이터셋도 함께 제공한다. 연구자들은 이를 활용해 사전 학습된 LLM을 실제 게임 환경에 맞게 적용하고 최적화할 수 있다.
이강욱 크래프톤 딥러닝 본부장은 “Orak은 크래프톤의 선행 연구와 노하우가 집약된 게임 특화형 LLM 벤치마크로, 이를 기반으로 향후 LLM 에이전트 설계 역량을 겨루는 대회도 기획 중이다”며 “앞으로도 게임 분야에 최적화된 LLM 기술을 지속적으로 고도화해 AI를 통한 게임 플레이 경험의 혁신을 주도해 나가겠다”고 밝혔다.