游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: 比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 未分类 > 比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,
未分类

比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,

孙婷婷-LowCode低码时代
Last updated: 2025/03/20 at 11:33 上午
孙婷婷-LowCode低码时代 1年 ago
Share
SHARE

今天凌晨,知名大模型训练、开发平台Predibase发布了,首个端到端强化微调平台(RFT)。

与传统的监督式微调相比,RFT不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续的强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台全部完成。

也就是说,你只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

在线体验地址:https://predibase.com/reinforcement-fine-tuning-playground

为了展示RFT强大功能,Predibase根据阿里开源的Qwen2.5-Coder-32B-instruct,微调了一个专门用于将PyTorch代码翻译为Triton的模型。

这是一个大多数LLM都难以完成的任务,需要对两个框架都有深入的理解,并且需要复杂的推理能力来考虑计算效率,并且Qwen2.5-Coder-32B-instruct在微调之前准确率比较低。

通过RFT,Predibase在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。

在Kernelbench数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct经过强化后,其正确率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型的体量却比这三个小很多。

目前,Predibase已经开源了微调后的Qwen2.5-Coder-32B-instruct模型。

开源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT

技术优势方面,RFT不依赖大量标注数据,而传统方法需要海量标注数据来指导模型学习,这些数据通常需要人工标注,成本高昂且耗时。RFT则通过奖励函数来引导模型学习,无需大量标注数据,奖励函数可根据任务的特定需求评估模型输出,来引导模型的优化目标。

RFT的适应性与灵活性更强。传统方法依赖于标注数据的质量和数量,若标注数据有限或不准确,模型性能会受限。而RFT允许用户根据具体任务需求自定义奖励函数,灵活定义模型优化目标。

例如在代码生成任务中,可定义奖励函数验证代码正确性;在问答任务中,可定义奖励函数评估答案相关性和准确性。

RFT具备持续改进能力。传统方法通常是一次性过程,模型训练完成后难以继续改进。RFT则支持持续改进,随着奖励函数优化和更多反馈数据积累,模型能不断学习和改进,适应任务需求变化。

在训练与推理效率方面,传统方法通常需在本地环境中进行,对硬件资源要求高,且需手动管理训练和部署过程。

而Predibase提供的RFT平台是完全托管的无服务器平台,用户无需管理底层服务器或基础设施,平台自动处理训练、部署和推理全过程,大大降低了开发和运维复杂性。此外,RFT利用多LoRA框架和流式微批处理技术,实现了高效的训练和推理。

RFT还支持复杂任务的课程学习。传统方法在处理复杂任务时,通常需大量标注数据覆盖各种情况,否则模型难以学习到有效策略。RFT则支持课程学习,即从简单到复杂逐步训练模型,使其能处理更复杂任务,这在需要深度推理的任务中特别有效。

在模型部署方面,传统方法部署模型通常需额外工具和配置,且难以保证高性能。Predibase的推理引擎原生支持RFT训练的模型,并提供高性能的无服务器部署解决方案,用户可将训练好的模型快速部署到生产环境中,并获得行业级服务水平支持。

RFT还具备更好的泛化能力。传统方法可能会导致模型过度拟合标注数据,从而在未见过的数据上表现不佳。RFT通过奖励函数引导模型学习,使模型能更好地泛化到未见过的数据上,提升其在实际应用中的鲁棒性。

Predibase表示,DeepSeek在开源R1之后,在全球AI领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。

本文素材来源Predibase,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-03-20
Previous Article 英伟达全力发展AI Agent!开源专属大模型,最强AI工厂
Next Article 彻底颠覆教育!每天用AI学习2小时,成绩超美国98%学校
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?