游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: 代码水平达到人类专家级,ChatGPT自动训练实体机器人动作指令!
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 游戏产业观察 > 代码水平达到人类专家级,ChatGPT自动训练实体机器人动作指令!
游戏产业观察

代码水平达到人类专家级,ChatGPT自动训练实体机器人动作指令!

LowCode低码时代
Last updated: 2023/10/23 at 12:16 下午
LowCode低码时代 2年 ago
Share
SHARE

10月21日,全球AI领导者英伟达(NVIDIA)在官网开源了Eureka,可自动训练实体机器人的动作指令,例如,转笔、开抽屉、使用剪刀等超复杂动作。

据悉,Eureka是基于OpenAI的GPT-4打造而成,具备零样本生成、编写代码和语境改进等能力,可对强化学习的奖励设计流程、代码进行大幅度优化,达到人类专家级水平。

研究人员通过10个不同类型机器人在IsaacGym 模拟器上进行了实验,结果显示,在 29 项任务中Eureka生成的奖励函数,83%的任务优于人类专家编写的指令,平均标准优化效率为52%。

开源地址:https://github.com/eureka-research/Eureka

论文:https://arxiv.org/abs/2310.12931

Eureka训练机器人的复杂动作展示

英伟达AI高级研究总监兼该论文作者Anima Anandkumar表示,在过去十年,强化学习取得了空前成功,但仍面临许多困难,例如,奖励设计需要不断试错才能完成。Eureka的出现开创了一种全新的算法,将生成式AI与强化学习相结合以实现更高的执行效率。

在介绍Eureka之前,「AIGC开放社区」先为大家简单讲解强化学习概念,以便更好地理解Eureka用途和技术原理。

什么是强化学习

强化学习(Reinforcement Learning)是机器学习的一种类型,其目标是让一个智能体(Agent)在与环境的交互中学习如何实现最优行为,以获取最大累积奖励。

在强化学习中,需智能体不断地从环境中获取状态,并在此基础上选择一个行动。环境对智能体的行动给出反馈,这个反馈称为“奖励”。强化学习的目标是找到一个最优的策略,关键元素包括智能体、环境、状态、行动和奖励。

例如,当你玩一个全新的电脑游戏时,需要不断的犯错和试验才能掌握游戏规则、通关技巧。当年战胜九段围棋高手李世石的AlphaGo,就是最典型的强化学习应用案例。

Eureka简单介绍

从上面的强化学习概念就能看出,想训练机器人执行各种动作,奖励机制是关键之一。传统方法是通过人类编写代码来完成,而Eureka是靠ChatGPT自动生成来完成。

首先,Eureka将未修改的环境源代码和语言任务描述作为上下文,使用ChatGPT从零开始生成可执行的奖励函数。然后,在演化奖励搜索、GPU加速奖励评估和奖励反思之间迭代,以逐步改进其奖励输出。

环境作为上下文:通过使用原始环境代码作为上下文,Eureka可以零样本生成合理的奖励,无需任何特定任务的提示。

这使得Eureka能够成为一个通用的奖励设计者,在所有的环境中,首次尝试时就能轻松产生奖励函数。

通过大规模并行强化学习进行快速奖励评估:Eureka利用NVIDIA Isaac Gym中的最先进的GPU加速模拟,能够快速评估大批奖励候选者的质量,从而实现在奖励函数空间中的可扩展搜索。

在奖励评估之后,Eureka构建了奖励反思,总结了强化学习训练的关键统计数据。接着,Eureka使用这个奖励反思使得ChatGPT能够灵活地利用多种独特类型的自由形式、有针对性的修改来改进奖励函数。

例如:改变现有奖励组件的超参数;改变现有奖励组件的功能形式以及引入新的奖励组件。

Eureka实验测试

研究人员对Eureka在多样化的实体机器人和任务中进行了全面评估,测试了其生成奖励函数、解决新任务等能力。

测试环境由由10个不同的机器人和29个使用IsaacGym模拟器实现的任务组成。首先,包括了来自IsaacGym(Isaac)的9个原始环境,涵盖了从四足动物、双足动物、四旋翼、协作机器人臂到灵巧手的多样化机器人形态。

除了对机器人形态因素的覆盖,还通过包含双手操作基准中的所有20个任务,确保了评估的深度。

包含20个复杂的双手任务,需要一对Shadow Hands解决从物体传递到将杯子旋转180度的一系列复杂操作技能。

Eureka对机器人训练的开抽屉动作

结果显示,Eureka可以生成超过人类水平的奖励函数。在29个任务中,Eureka的奖励在83%的任务中,超过了人类专家编写的奖励函数,平均规范化改进为52%。尤其是在高维灵活性环境中,Eureka实现了更大的收益。

Eureka对机器人训练的复杂奔跑动作

Eureka的进化奖励搜索,使得奖励随时间的持续改进成为可能。Eureka通过结合大规模奖励搜索和详细的奖励反馈反馈,逐渐产生更好的奖励。


此外,Eureka支持基于人类反馈的强化学习(RLHF)。Eureka可以融入人类反馈以修改其奖励函数,这可以极大提升智能体的安全行为,尽量避免一些非法操作。

本文素材来源英伟达官网、论文,如有侵权请联系删除

– END –


 报告下载 



大佬观点


西门子低代码-王炯 | 西门子低代码-阮铭 | 微软-李威 | 微软-徐玉涛 | 葡萄城-李佳佳 | 葡萄城-宁伟 | SAP-陈泽平 | 华为-周明旺 | 华为云-董鑫武 | 钉钉宜搭-邵磊 | 轻流-严琦东 | 腾讯云微搭-骆勤 | 网易数帆-陈谔、严跃杰 | 百特搭-姜楠
用友-刘鑫 |  数睿数据-张超 |  奥哲-朱鹏喜 | 炎黄盈动-汤武 | 普元信息-孟庆余 | 得帆-李健达 | 瀚码技术-钟惟渊 | iVX-孟智平
Treelab-何浚炫 | 阿里-汪凤震 | 明道云-薛晨 | 上海斯歌-傅正斌




公众号后台回复【加群】
可受邀进入【无代码&低代码技术应用研讨群】
欢迎各位从业者/应用者/关注者加入

You Might Also Like

重磅!OpenAI开源首个Agent SDK,反击Manus

云计算巨头AI战略分化:谁将定义企业级AI的未来规则?

DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10

2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!

LowCode低码时代 2023-10-23
Previous Article 纯干货 | AI文本生成解码策略与代码实现
Next Article 怎样评估选型一个企业软件产品?
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?