游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: 碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 未分类 > 碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
未分类

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

孙婷婷-LowCode低码时代
Last updated: 2025/07/22 at 1:53 下午
孙婷婷-LowCode低码时代 8月 ago
Share
SHARE

今天凌晨1点,阿里巴巴开源了Qwen3系列新版本Qwen3-235B-A22B-2507。

比较意外的是,阿里已经停用了混合思考模型,新版Qwen3是一个非思维推理,又回到了指令微调模型,但性能非常强劲。

根据阿里公布的数据显示,新版Qwen3在知识、推理、代码、对齐、智能体、多语言测试6大类几十种测试基准中,全部大幅度超过了DeepSeek开源的新版V3-0324模型。

例如,SimpleQA测试中,DeepSeekV3得27.2分,新版Qwen3为54.3分;CSimpleQA测试中,DeepSeekV3得71.1分,新版Qwen3为84.3分;

ZebraLogic测试中,DeepSeekV3 83.4分,新版Qwen3为95分;WritingBench测试,DeepSeekV3 74.5分,新版Qwen3为85.2分;TAU-Airline测试中,DeepSeekV3为32.0分,新版Qwen344.0分;PolyMATH测试,DeepSeekV3为32.2分,新版Qwen350.2分。

同样新版Qwen3也超过了月之暗面最新开源的kimi-k2。

开源地址:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

网友表示,我评估过的所有中型大语言模型,在严格遵循提示词这方面,没有一个能接近Qwen。不知道你们用了什么秘密配方,但接着保持这个水准继续干就好。

哇,这是不是意味着你们新的无思维模式模型,在所有这些基准测试中都击败了KimiK2?

令人印象深刻的优化改进。

太棒了伙计,干的不错。但什么时候能发布一个小模型呢?

已经击败了Kimi-K2了。

我刚刚对比了一下KimiK2的单次编码。提示是:在一个HTML文件中制作一个完整的POS系统,设计要很棒,适合手机使用。我对Qwen3的印象比KimiK2更深刻。

Qwen团队这次更新太赞了!新版Qwen3-235B-A22B-Instruct-2507采用指令模型与思维模型分开训练的模式,这一举措非常明智,有望提升模型性能与多功能性。期待看到这一创新成果不断发展!

说真的,我太爱你们团队了!继续加油干吧!超级期待视觉语言版本的推出!

新版Qwen3总共有2350亿个参数,其中220亿个是激活的。非嵌入参数数量为2340亿,共有94层,采用64个查询头和4个键值头的分组查询注意力机制。它有128个专家,其中8个是激活的。其上下文长度原生支持262144。

新版Qwen3是在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力进行了大量优化。还在多种语言的长尾知识覆盖方面取得了显著进步,并且在主观和开放性任务中与用户偏好的对齐度更高,能够生成更有帮助且质量更高的文本,同时增强了对256K长文本上下文的理解能力。

在性能方面,Qwen3-235B-A22B-Instruct-2507在多个基准测试中表现优异。例如,在知识类的MMLU-Pro测试中得分为83.0,在MMLU-Redux中得分为93.1,在GPQA中得分为77.5。在推理能力方面,它在AIME25测试中得分为70.3,在HMMT25中得分为55.4。

在编程能力方面,它在LiveCodeBenchv6测试中得分为51.8,在MultiPL-E中得分为87.9。在对齐能力方面,它在IFEval测试中得分为88.7,在Arena-Hardv2测试中得分为79.2。此外,它在多语言能力方面也有出色的表现,例如在MultiIF测试中得分为77.5,在MMLU-ProX测试中得分为79.4。

此外,Qwen3在工具调用能力方面表现出色,建议使用Qwen-Agent来充分发挥其智能体能力。Qwen-Agent内部封装了工具调用模板和工具调用解析器,大大降低了编码复杂性。可以通过MCP配置文件、Qwen-Agent的集成工具或自行集成其他工具来定义可用工具。

本文素材来源阿里巴巴,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-07-22
Previous Article 特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投
Next Article 200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?