游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading:
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 未分类 >
未分类

孙婷婷-LowCode低码时代
Last updated: 2025/07/14 at 11:23 上午
孙婷婷-LowCode低码时代 8月 ago
Share
SHARE

国内知名大模型平台月之暗面(MoonshotAI)开源了最新模型Kimi-K2。

Kimi-K2是一个混合专家模型,总参数1万亿,320亿参数处于激活状态,训练数据高达15.5Ttoken,有基础和微调两种模型。

除了常规的问答功能之外,Kimi-K2特意针对AIAgent进行了大幅度优化,非常擅长使用各种工具,能帮助开发者打造特定不同领域的智能体。

开源地址:https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

根据月之暗面公布的测试数据显示,Kimi-K2在SWE-bench的单次测试中达到了65.8分,碾压了DeepSeek最新开源的V3-0324模型38.8分,以及OpenAI闭源模型GPT-4.1的54.6分。

在多语言测试中,Kimi-K2同样以47.3的高分超过了V3-0324的25.8分和GPT-4.1的31.5分。

在LiveCodeBenchv6代码测试中,Kimi-K2以53.7分超过了V3-0324、GPT-4.1、Gemini2.5Flashnon-thinking等所有开闭源模型。

在工具使用方面,Kimi-K2同样表现非常出色,以66.1的分数再次超过了V3-0324、GPT-4.1;数学能力方面,Kimi-K2取得了49.5分,超过了V3-0324的46.7和GPT-4.1的37。

使用Kimi-K2打造的智能体来自动分析一份超复杂的薪资。例如,利用2020–2025年的薪资数据,检验远程工作比例对薪资的影响,并确定这种影响在不同经验水平初级、中级、高级、专家之间是否存在显著差异。

也就是说,是否存在交互效应。用统计证据和丰富的可视化图表支撑你的分析。所有图表需使用统一、协调的调色板,例如,柔和色调、低饱和度色调。

或者用智能体规划一下酷玩乐队2025年演唱会的行程。

当然,Kimi-K2超强的代码能力,画一个球在六边形中弹跳还是相当轻松的。

在模型训练流程上,Kimi-K2进行了独特的技术创新。预训练是智能体智能的关键基础,由于人类数据有限,预训练期间的token效率成为AI缩放定律中的关键因素。

Kimi-K2采用了MuonClip优化器,这是在Muon优化器基础上改进而来的,通过qk-clip技术解决了训练中注意力logits爆炸的问题,确保了大规模LLM训练的稳定性,在15.5Ttoken上完成了预训练,且过程中没有出现训练峰值。

此外,增强智能体能力主要来自两个方面,一方面是大规模智能体数据合成,这一方式用于工具使用学习,借鉴ACEBench开发了全面的管道,能够模拟真实世界的工具使用场景,从而生成高质量的训练数据;

另一方面是通用强化学习,这解决了在具有可验证和不可验证奖励的任务上应用RL的挑战,模型通过自我判断机制为不可验证任务提供反馈,并利用可验证奖励不断更新评判标准。

为了教授模型复杂的工具使用能力,Kimi K2开发了一个全面的管道,灵感来源于ACEBench,能够大规模模拟真实世界的工具使用场景。该方法系统地演化了包含数千种工具的数百个领域,包括真实的MCP工具和合成工具,并生成了具有多样化工具集的数百个智能体。

所有任务都基于评分标准进行评估,智能体与模拟环境和用户智能体进行交互,创建出真实的多轮工具使用场景。一个LLM评委根据任务评分标准评估模拟结果,筛选出高质量的训练数据。这种可扩展的管道生成了多样化、高质量的数据,为大规模拒绝采样和强化学习铺平了道路。

通用强化学习,将强化学习应用于具有可验证和不可验证奖励的任务是一个关键挑战。典型的可验证任务包括数学和竞赛编程,而撰写研究报告通常被视为不可验证任务。Kimi K2的通用强化学习系统采用自评判机制,模型充当自己的批评者,为不可验证任务提供可扩展的、基于评分标准的反馈。

同时,使用具有可验证奖励的在线策略回放来持续更新批评者,使其能够不断提高对最新策略的评估准确性。这可以看作是利用可验证奖励来改进不可验证奖励估计的一种方式。

本文素材来源kimi,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-07-14
Previous Article 英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋
Next Article 刚刚,OpenAI发布CoT监控,增强AI Agent自主能力
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?