游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: 媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 未分类 > 媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令
未分类

媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令

孙婷婷-LowCode低码时代
Last updated: 2025/06/30 at 12:53 下午
孙婷婷-LowCode低码时代 9月 ago
Share
SHARE

腾讯开源了混元大模型的最新版本Hunyuan-A13B。

Hunyuan-A13B是一个专家混合模型,拥有800亿参数,其中130亿参数处于激活状态。支持快、慢两种思考模式:快速思维模式,提供简洁高效的输出,适用于高效、简单的日常任务;慢速思维模式,支持更深层次的推理步骤包含反思和回溯,生成更长的思维链,提升复杂任务的准确性。

值得一提的是,Hunyuan-A13B特意针对AI Agent进行了强化,打造了应对不同场景变化的“自适应大脑”,设计超过30种智能体指令,并组合工具、动作、响应的格式变化,创造出20000种格式组合。

开源地址:https://huggingface.co/tencent/Hunyuan-A13B-Instruct

github:https://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file

根据腾讯公布的测试数据显示,在数学AIME2024、AIME2025测试中,Hunyuan-A13B分别拿下了87.3、76.8的高分,超过了DeepSeek-R1的79.8、70分,同时也大幅度超过了OpenAI的o1模型。

在科研、代码、推理的测试中,Hunyuan-A13B与DeepSeek-R1的测试结果几乎差不多。

而在Agent智能体BFCL-V3、ComplexBench、C-TurcBench测试中,Hunyuan-A13B分别拿下78.3、61.2、63.5的高分,全部大幅度超过了DeepSeek-R1的56.9、41.1、55.3。

在架构设计方面,Hunyuan-A13B由1个共享专家和64个细粒度非共享专家组成,所有专家的中间维度相同。在训练阶段,共享专家始终处于激活状态,而非共享专家中只有8个会同时被激活。

为了进一步提升模型的性能,Hunyuan-A13B在激活函数上采用了SWiGLU,这与Hunyuan-Large和Hunyuan-TurboS保持一致。此外,模型在注意力层中引入了Grouped-Query Attention显著提高了KV缓存的内存效率,使得Hunyuan-A13B在处理复杂任务时能够更加高效地利用计算资源。

在推理过程中,Hunyuan-A13B还采用了双模式推理链框架,这一框架允许模型根据任务的复杂性和用户需求动态调整推理深度。

快速思考模式旨在为简单任务提供快速、高效的解决方案。在这种模式下,模型会生成简洁的输出,以最小的计算开销满足用户的需求。这种模式特别适合那些对速度要求较高的场景,例如,实时问答或简单的信息检索任务。通过快速思考模式,Hunyuan-A13B能够在极短的时间内给出答案,来提高用户体验。

慢速思考模式,这种模式适用于更复杂的任务,如多步推理问题。在这种模式下,模型会进行更深入、更全面的推理过程,包括但不限于反思和回溯等步骤。这使得模型能够生成更长的推理链,从而提高在处理复杂问题时的准确性和鲁棒性。

在后训练阶段,Hunyuan-A13B采用了结构化的多阶段方法,旨在全面提升模型在各个维度的性能。这一阶段包括推理导向的监督微调(SFT)和强化学习(RL)阶段,以及全场景监督微调和强化学习阶段。

在推理导向的SFT阶段,模型专注于加强在复杂推理导向任务方面的专业能力,例如,数学推理、逻辑推理、代码生成和科学分析等。这一阶段使用了精心策划的指令-响应数据集进行监督微调,这些数据集包含了明确的推理过程和详细的推理解决方案。

在强化学习阶段,模型进一步增强了推理能力。这一阶段利用了两种类型的奖励机制:结果奖励模型和沙箱反馈。结果奖励模型是一种轻量级的语言模型基础验证器,用于评估生成的最终答案与参考答案之间的一致性,并据此给出二元奖励。

沙箱反馈则通过一个多语言代码沙箱来提供实际的代码执行结果,从而为模型提供更准确的反馈。这些奖励机制的结合,使得模型能够在推理过程中不断优化和改进。

在全场景监督微调阶段,模型的适应性得到了进一步的拓宽。这一阶段涉及在多样化指令-响应数据集上的监督微调,旨在提高模型在创意写作、基于知识的问答、指令遵循以及多轮对话任务等多样化实际场景中的表现。

与推理导向的微调阶段不同,这一阶段的强化学习采用了双重信号优化方法,不仅评估最终输出的正确性,还通过一个大型语言模型作为智能体评估器来评估风格质量、连贯性和适应性。这种全面的评估策略使得模型能够在提高准确性的同时,增强在不同应用场景中的可用性。

为了进一步提升模型在特定领域的表现,在全场景强化学习阶段Hunyuan-A13B还引入了多个专门的奖励服务和数据构建流程。这些服务和流程针对不同的能力领域进行了优化,确保模型在各个领域都能达到高标准的表现。例如,在文本理解领域,模型不仅需要能够准确回答问题,还需要在风格和连贯性上符合语言习惯。为此,研究人员设计了专门的一致性模型和比较性GRM,以确保模型输出在客观和主观任务中都能保持高质量。

在智能体任务中,模型需要能够有效地调用工具,并根据工具的反馈进行合理的决策。为此,研究人员构建了基于规则的奖励机制,以确保模型在调用工具时能够遵循正确的格式和逻辑。这种奖励机制的引入,使得模型在智能体任务中能够更加高效地完成任务,并且在多轮对话中保持良好的连贯性和一致性。

在复杂指令任务中,模型需要能够精确地理解和执行多方面的指令。为此,研究人员将约束提取和满足工具与通用批评和奖励模型相结合,确保模型在执行复杂指令时能够严格遵循指令要求,并且在多步推理过程中保持逻辑连贯性。

在安全领域,模型需要能够识别和避免潜在的风险和不当内容。为此,研究人员使用分类器和拒绝启发式方法来识别安全响应对,并将安全对齐直接整合到偏好数据集中。这种整合方法使得模型在生成内容时能够更加注重安全性,从而降低风险。

本文素材来源腾讯,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-06-30
Previous Article AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!
Next Article 突发!微软刚开源GitHub Copilot Chat,超强AI Agent自动化编程
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?