AI 트렌드 2025 하반기 결산

주목할 만한 AI 서비스 및 모델

Kimi K2(2025.07.11.)

중국의 100B 파라미터 오픈소스 모델

2025년 7월, Alibaba가 투자한 중국 스타트업 Moonshot AI가 Kimi K2를 공개했습니다. 1조 파라미터(토큰당 32B 활성) 규모의 전문가 혼합(MoE) 아키텍처로, 최근 추론(Reasoning) 모델 트렌드와 달리 연쇄 생각(Chain-of-Thought) 없이 빠르게 행동하는 반사적 추론(Reflex-grade) 모델로 설계했습니다. 사용자의 명시적 지시 없이도 어떤 함수를 호출할지 판단하고, 결과를 평가하며, 계획을 수정하는 에이전틱 문제 해결에 최적화됐습니다.

핵심 강점은 도구 사용(Tool Use)과 코딩 능력입니다. Moonshot AI는 이러한 강점을 가진 모델 학습을 위해 대규모 데이터를 직접 만들었습니다. 먼저 GitHub에서 실제 사용되는 3,000개 이상의 Model Context Protocol(MCP) 도구를 수집하고, 금융·로봇 제어·헬스케어 등 다양한 분야 도구 20,000개 이상을 추가 합성해 거대한 도구 저장소(Tool Repository)를 구축했습니다.

그 다음, 이 도구(Tool)들을 조합해 가상 에이전트와 태스크를 만들고, AI가 사용자 역할을 하며 에이전트와 여러 차례 대화하며 도구를 호출하는 궤적(Trajectory)을 대량 생성했습니다. 이때 도구 시뮬레이터가 매 호출마다 상태를 업데이트하며 현실적인 피드백을 제공합니다. 이렇게 만들어진 궤적 중 태스크를 성공적으로 완수한 것만 골라 학습에 사용하는 거부 샘플링(Rejection Sampling) 방식을 적용했고, 코딩 태스크의 경우에는 실제 코드 실행 환경도 함께 활용해 시뮬레이션 한계를 보완했습니다.

안정적인 대규모 훈련도 주목할 점입니다. 자체 개발한 MuonClip 옵티마이저 덕분에 15.5조 토큰을 단 한 번의 훈련 불안정이나 손실 스파이크(Loss Spike) 없이 학습했습니다. 대형 트랜스포머 모델에서 흔히 발생하는 로짓 폭발(Logit Explosion) 문제를 근본적으로 해결한 것으로, 이는 대규모 LLM 훈련의 새로운 기준을 제시했다고 평가받습니다.

**logit explosion: Softmax 입력값(Logit)의 스케일이 지나치게 커져서 학습이 정체되는 현상*

이러한 학습 결과로 LiveCodeBench에서 53.7%를 달성해 Claude Sonnet 4(48.5%), GPT-4.1(44.7%)을 모두 능가했습니다. 실제 GitHub 이슈를 해결하는 SWE-bench Verified에서는 71.6%(Multi-attempt 기준)로 오픈소스 모델 중 최고 성적을 기록했으며, 도구 사용 능력을 측정하는 AceBench에서는 76.5%로 GPT-4.1(80.1%)에 이어 2위를 차지했습니다. 수학/과학 벤치마크 11개 중 8개에서도 테스트된 모든 모델 중 최고 성적을 달성했습니다.

9월에는 컨텍스트 윈도우가 128K에서 256K 토큰으로 확장되고 코딩 성능이 개선된 업데이트(Kimi-K2-Instruct-0905)를 출시했습니다. 같은 달 OK Computer라는 에이전틱 기능도 추가되어, 간단한 프롬프트만으로 다중 페이지 웹사이트나 편집 가능한 슬라이드를 생성하고, 최대 100만 행 데이터를 처리할 수 있게 됐습니다.

11월에는 추론 능력을 강화한 Kimi K2 Thinking을 출시했습니다. 이 모델은 파운데이션 모델과 달리 도구 호출 사이사이에 생각하는 Interleaved Thinking 방식을 도입해, 200-300회 연속 도구 호출을 인간 개입 없이 수행할 수 있습니다. HLE 43-44.9%, BrowseComp 60.2%로 GPT-5(54.9%)와 Claude Sonnet 4.5(24.1%)를 능가하며, 훈련 비용은 약 460만 달러로 추정됩니다(비공식).

Kimi K2는 Base(파인튜닝용)와 Instruct(즉시 사용) 두 버전으로 제공하며, Modified MIT 라이선스로 상업적 사용이 가능합니다.

🔗 참고 링크

Kimi K2: Open Agentic Intelligence

Kimi K2

Kimi.ai (@Kimi_Moonshot) on X

AI 트렌드 2025 하반기 결산

주목할 만한 AI 서비스 및 모델

Kimi K2(2025.07.11.)

이 리포트 다음에 읽을 글

#127 구글, 엔비디아, 딥시크의 최신 동향: HBM을 넘어서

#139 Softmax가 만든 병목, FlashAttention는 이를 어떻게 풀었나

#73 Extended CoT의 Overthinking 문제

#122 우리는 AI의 생각을 어디까지 볼 수 있을까