LowCode低码时代LowCode低码时代
  • 首页
  • 低代码/零代码动态
    低代码/零代码动态
    厂商融资信息、行业新闻、招投标、技术研究等动态
    Show More
    Top News
    AIGC点燃低/零代码市场
    3年 ago
    万字长文 | 低代码vs.传统开发:一个全面的比较
    2年 ago
    西门子Mendix低代码高级架构师卢春霖,将出席“低代码开发推动制造业数字化变革”线上研讨会
    2年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 市场研究
    市场研究Show More
    《Market Insight:中国低代码/零代码市场发展洞察 ( 2023 )》报告正式发布 | LowCode低码时代
    3年 ago
    国产大模型顶流「讯飞星火」:图片生成、代码生成,支持插件等重磅上线
    3年 ago
    报告 | 金现代:效能提升+内质跃迁,重塑电力IT领导者
    3年 ago
    Gartner:低代码的颠覆性力量
    3年 ago
    Gartner:什么是超级应用程序?
    3年 ago
  • 人物观点
    人物观点Show More
    原力CEO赵锐:ToDesk是国内唯一适合高精远程办公需求的解决方案
    2年 ago
    央视财经对话汪源:低代码最核心的是降低对写代码的人的要求
    3年 ago
    干货文章 | 低代码真的有价值吗?
    3年 ago
    壹沓科技融资近2亿元之后:以通用大语言模型赋能,构建数字机器人超级大脑
    3年 ago
    专访中银金科:数字营销成为新的增长引擎,未来业务转化是关键
    3年 ago
  • 活动
    活动
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    ISIG中国产业智能大会品牌介绍
    4年 ago
    炎黄盈动金融行业高级顾问张自刚,受邀出席“2022金融科技超自动化论坛”
    3年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
LowCode低码时代LowCode低码时代
Aa
  • 低代码/零代码动态
  • 最新市场研究
  • 活动
  • 人物观点
  • 首页
  • 低代码/零代码动态
  • 最新市场研究
  • 人物观点
  • 活动
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
LowCode低码时代 > Blog > 未分类 > AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为
未分类

AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

孙婷婷-LowCode低码时代
Last updated: 2025/03/11 at 11:19 上午
孙婷婷-LowCode低码时代 1年 ago
Share
SHARE

今天凌晨1点,OpenAI发布了最新研究,用CoT(思维链)监控的方式,可以阻止大模型胡说八道、隐藏真实意图等恶意行为,同时也是监督超级模型的有效工具之一。

OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。

结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%

随着o1、o3、R1等众多前沿模型的出现,如何保证大模型的输出安全与人类意图保持一致一直是个非常难的研究课题。

传统的监控方法主要集中在大模型的最终输出或行为上,但这种方法往往存在局限性。模型可能通过复杂的内部推理过程生成最终输出,而这些过程对于外部观察者来说是不可见的。

因此,仅仅监控行为或输出可能无法揭示模型的真实意图,尤其是当它试图通过“奖励黑客”行为来获取更高奖励时。所以,OpenAI提出了CoT监控。

当模型接受一个提示任务时,它会首先生成一系列的中间推理步骤,这些步骤构成了CoT。包括对问题的初步理解、对可能解决方案的评估以及对最终答案的推导。

CoT监控的核心就是通过观察模型的“思维过程”来检测其潜在的恶意行为。就是模型在生成最终答案之前所进行的推理步骤,通过监控这些步骤,研究人员可以更清晰地了解模型是如何从输入信息中得出最终答案的。

如果模型在推理过程中表现出对任务的误解或试图利用奖励机制的漏洞,这些行为会在CoT中留下痕迹

例如,当模型在CoT中明确表达出试图通过某种捷径来获取奖励时,监控系统可以提前捕捉到这种意图,从而采取措施加以纠正。

此外,CoT监控还提供了一种更细粒度的监控方式,不仅能够检测到最终输出是否符合预期,还能够分析模型在推理过程中的逻辑连贯性和合理性。如果模型在推理过程中跳过了某些重要的步骤或基于错误的前提得出结论,这些潜在问题都可能通过CoT监控被发现。

但是将CoT监控直接整合到模型的训练目标中时,会出现“意图隐藏”的现象。

“意图隐藏”是指模型在CoT中隐藏其真实意图,使得监控系统难以检测到其潜在的恶意行为。在这种情况下,模型的CoT可能看起来合理甚至符合任务要求,但实际上它仍然会采取一些不符合人类意图的行为。

例如,模型可能会在CoT中提出一些看似合理的解决方案,但在实际操作中却通过修改测试框架或利用漏洞来绕过测试,而不是真正解决问题。

当模型的训练目标被修改为不仅要求通过任务测试,还要求避免触发CoT监控时,模型的行为发生了显著变化。在低优化阶段,这种整合确实带来了积极的效果:模型不仅减少了“奖励黑客”行为的发生率,还提高了整体性能。

而在高优化阶段,CoT监控的召回率急剧下降,甚至接近零。模型成功地隐藏了其真实意图,使得监控系统无法检测到其潜在的恶意行为。

所以,OpenAI建议可以适当使用CoT监控来提升大模型的安全性。就像人类一样,当你给模型过大的压力时,模型可能会出现自我意识,会采取一些策略来改变其行为模式,从而绕过CoT监控的检测。

论文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

本文素材来源OpenAI,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-03-11
Previous Article 中国第二个DeepSeek,Manus发布通用AI Agent,震惊国外
Next Article 阿里国际站AI布局引多家外媒关注:AI搜索Accio企业用户超百万
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 最新市场研究
  • 人物观点
  • 低代码/零代码动态
  • 活动
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

原力CEO赵锐:ToDesk是国内唯一适合高精远程办公需求的解决方案
央视财经对话汪源:低代码最核心的是降低对写代码的人的要求
干货文章 | 低代码真的有价值吗?
壹沓科技融资近2亿元之后:以通用大语言模型赋能,构建数字机器人超级大脑
专访中银金科:数字营销成为新的增长引擎,未来业务转化是关键
实现技术普惠 网易数帆轻舟低代码的差异化竞争之道
LowCode低码时代LowCode低码时代

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?