游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 未分类 > GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
未分类

GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码

孙婷婷-LowCode低码时代
Last updated: 2025/02/26 at 11:54 上午
孙婷婷-LowCode低码时代 1年 ago
Share
SHARE

今早9点,DeepSeek开启了本周连续5天技术分享的第3天,开源了专用于执行高效FP8精度矩阵乘法运算库——DeepGEMM。

DeepGEMM的核心代码仅300行,但在GPU上可实现高达每秒1350 + FP8 万亿次浮点运算性能。在大多数矩阵规模下性能超过了专家调优的内核,同时支持密集布局和两种 MoE 布局,适配不同的运算场景。

开源地址:https://github.com/deepseek-ai/DeepGEMM

看到DeepSeek又发布高效训练方法,网友表示,英伟达股票又要下跌了。

在澳大利亚都能听到英伟达股票下跌的惨叫声~

DeepGEMM听起来就像数学界的超级英雄。比快速计算器更快,比多项式方程更强大。我试着用了一下,现在我的GPU正在炫耀它的1350+ TFLOPS,好像准备参加AI奥运会一样!

DeepGEMM正在改变我们使用FP8 通用矩阵乘法库的方式,简单、快速且开源。这就是人工智能计算的未来。

DeepSeek可能正在揭开英伟达那些不能说的秘密。我怀疑英伟达是故意这么做的,目的是为了卖出更多的显卡。恭喜马斯克的 20 万张显卡变成了 100 万张。把马斯克送到火星去,再带上黄仁勋。

「AIGC开放社区」就简单为大家解读一下DeepGEMM。GEMM,全称是General Matrix Multiplication,是线性代数中的一个基本操作,用于计算两个矩阵的乘积。

例如,假设我们有两个矩阵A和B,矩阵A的大小是 3×2,矩阵B的大小是 2×4,那么通过GEMM 计算后,我们可以得到一个大小为 3×4 的矩阵 C,即C=A × B。

这种矩阵乘法在深度学习中非常重要,尤其是在神经网络的全连接层和卷积层中,几乎每一个前向传播和反向传播的步骤都离不开它。

FP8 是一种8位浮点数格式,由 NVIDIA Hopper 架构引入。与传统的 32 位浮点数或16位浮点数相比,FP8 占用的内存和计算资源更少,但同时在某些应用场景下仍能保持足够的精度。

例如,一个传统的 FP32 数字占用 4 个字节,而FP8 只占用 1 个字节,这意味着在相同的内存容量下,我们可以存储更多的数据,从而加速大规模深度学习模型的训练和推理,尤其适合硬件资源有限的情况。

而DeepSeek版本的GEMM是专为NVIDIA Hopper 架构设计的GEMM库,并且所有内核在运行时动态编译。

在性能方面,DeepGEMM 在 NVIDIA H800 GPU 上进行了广泛的测试,结果表明它在多种矩阵形状下都能显著提升计算速度。例如,在密集矩阵乘法中,某些形状的性能提升可达 2.7 倍;而在 MoE 模型的分组矩阵乘法中,性能提升也达到了 1.2 倍左右

DeepGEMM采用了多种优化技术。它通过持久化的 warp 专业化,重叠数据传输、张量核心 MMA 指令和 CUDA 核心提升操作,优化了计算流程。还利用了Hopper 架构的张量内存加速器特性,实现更快的数据传输和异步操作。

为了应对 FP8 张量核心累加精度不足的问题,DeepGEMM 采用了 CUDA 核心的双级累加技术。还采用了完全 JIT 设计,所有内核在运行时动态编译,能够根据具体的矩阵形状和硬件特性进行优化。

此外,DeepGEMM 支持非 2 的幂次方的块大小,以提高 GPU 的利用率,并通过修改编译后的二进制指令优化细粒度缩放的性能。

使用方面很方便,DeepGEMM提供了简洁的 Python 接口,方便用户在深度学习项目中集成。它支持普通密集矩阵乘法,适用于常见的深度学习模型;也支持分组矩阵乘法,包括连续布局和掩码布局。

例如,在MoE 模型的训练前向传播或推理填充阶段,我们可以使用连续布局,将不同专家处理的输入数据拼接到一个连续的张量中。

而在推理解码阶段,当每个专家处理的输入数量未知时,我们可以使用掩码布局,通过掩码张量指示哪些部分是有效的输入。

本文素材来源DeepSeek,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-02-26
Previous Article 超过DeepSeek、o3,双思维模型Claude 3.7来了
Next Article 苹果开源通用视觉模型:创新训练方法,超1000颗星
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?