복수 테스트에서 GPT-4.1•Claude 4 Opus 스코어도 앞서
중국에 기반을 둔 AI 개발 기업 문샷(Moonshot) AI가 대규모 언어 모델 ‘Kimi K2’를 지난 12일 공개했다고 과학기술매체 기가진이 전했다.
이 보도에 따르면, Kimi K2는 오픈 모델인 ‘DeepSeek-V3’나 ‘Qwen3-235B’를 능가하는 성능을 갖추고 있을 뿐 아니라 여러 테스트에서 GPT-4.1이나 Claude Sonnet4 등 상용 모델의 스코어를 웃돈다.
Kimi K2는 총 매개 변수 수 1조, 활성 매개 변수 수 320억의 AI 모델로 여러 전문가 모델을 조합해 하나의 대규모 모델을 구축하는 Mixture of Experts(MoE) 아키텍처를 채택하고 있다.
Kimi K2는 OpenAI o 시리즈와 같은 추론 모델은 아니지만, 에이전트 태스크용으로 최적화함으로써 단순한 응답뿐만 아니라 툴의 사용 등도 가능하다고 한다. 또한 수학 작업이나 코딩 작업에서도 높은 성능을 발휘한다.
Kimi K2는 베이스 모델인 ‘Kimi-K2-Base’와 사후 학습이 끝난 모델 ‘Kimi-K2-Instruct’ 2 종류로 나뉘어 출시됐다.
다음 그림은 ‘Kimi-K2-Instruct’ ‘DeepSeek V3’ ‘Qwen3-235B’ ‘GPT-4.1’ ‘Claude 4 Opus’ ‘Claude 4 Sonnet’ ‘Gemini 2.5 Flash’의 벤치마크 스코어를 나열한 것이다. Kimi-K2-Instruct는 모든 테스트에서 오픈 모델인 DeepSeel V3와 Qwen3-235B를 뛰어넘는 점수를 기록했으며, 일부 테스트에서 GPT-4.1과 Claude Sonnet 4 등 상용 모델에도 앞섰다.
(참고 : moonshotai.github.io)
