LowCode低码时代LowCode低码时代
  • 首页
  • 低代码/零代码动态
    低代码/零代码动态
    厂商融资信息、行业新闻、招投标、技术研究等动态
    Show More
    Top News
    AIGC点燃低/零代码市场
    3年 ago
    万字长文 | 低代码vs.传统开发:一个全面的比较
    2年 ago
    西门子Mendix低代码高级架构师卢春霖,将出席“低代码开发推动制造业数字化变革”线上研讨会
    2年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 市场研究
    市场研究Show More
    《Market Insight:中国低代码/零代码市场发展洞察 ( 2023 )》报告正式发布 | LowCode低码时代
    3年 ago
    国产大模型顶流「讯飞星火」:图片生成、代码生成,支持插件等重磅上线
    3年 ago
    报告 | 金现代:效能提升+内质跃迁,重塑电力IT领导者
    3年 ago
    Gartner:低代码的颠覆性力量
    3年 ago
    Gartner:什么是超级应用程序?
    3年 ago
  • 人物观点
    人物观点Show More
    原力CEO赵锐:ToDesk是国内唯一适合高精远程办公需求的解决方案
    2年 ago
    央视财经对话汪源:低代码最核心的是降低对写代码的人的要求
    3年 ago
    干货文章 | 低代码真的有价值吗?
    3年 ago
    壹沓科技融资近2亿元之后:以通用大语言模型赋能,构建数字机器人超级大脑
    3年 ago
    专访中银金科:数字营销成为新的增长引擎,未来业务转化是关键
    3年 ago
  • 活动
    活动
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    ISIG中国产业智能大会品牌介绍
    4年 ago
    炎黄盈动金融行业高级顾问张自刚,受邀出席“2022金融科技超自动化论坛”
    3年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
LowCode低码时代LowCode低码时代
Aa
  • 低代码/零代码动态
  • 最新市场研究
  • 活动
  • 人物观点
  • 首页
  • 低代码/零代码动态
  • 最新市场研究
  • 人物观点
  • 活动
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
LowCode低码时代 > Blog > 未分类 > OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代
未分类

OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代

孙婷婷-LowCode低码时代
Last updated: 2025/08/29 at 2:19 下午
孙婷婷-LowCode低码时代 7月 ago
Share
SHARE

今天凌晨1点,OpenAI进行了技术直播发布了语音模型GPT-realtime。

GPT-realtime是一个专用于语音AIAgent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,非常适用于客服、教育、金融、医疗等领域打造语音智能体。

GPT-realtime还新增了Marin与Cedar两种极具特色的语音,同时对原有的8种语音也进行了全面升级。

与传统纯语音模型不同的是,GPT-realtime还具备智力、推理和理解能力,例如,能够敏锐捕捉笑声等非语言信号,在句子中间自如地切换语言,并根据场景需求灵活调整语气。

根据评估数据显示,在多种语言环境下,GPT-realtime对字母数字序列的检测准确率大幅提升,在用于衡量推理能力的BigBenchAudio评估中,准确率高达82.8%成为目前最强智能语音模型。

完整直播视频

指令遵循能力的改进也是GPT-realtime的一大亮点。在构建语音应用时,开发者可对模型进行一系列指令自定义,包括如何说话、特定场景下该说什么、该做什么以及不该做什么等。

GPT-realtime针对这一点进行了深度优化,即便是极为细微的指令,也能对其产生显著的引导效果。在衡量指令遵循准确率的MultiChallenge音频基准测试中,GPT-realtime的得分从旧模型的20.6%提升到30.5%,进步十分显著。

在函数调用能力方面,GPT – realtime从调用相关函数、把握调用时机以及选用合适的参数调用函数这三个关键维度进行了全方位优化。在ComplexFuncBench测试中,得分从旧模型的49.7%飙升至66.5%。

异步函数调用功能也得到了极大改进,长时间运行的函数调用不再会成为会话流程的绊脚石,模型在耐心等待结果的同时,依然能够丝滑进行对话,并且这一强大功能无需开发者更新代码,开箱即用。

支持图像输入是GPT–realtime特色功能之一,开发者可在Realtime API会话中,可以自由地将图像、照片、截图与音频或文本一并添加。模型由此具备了基于用户实际所见内容展开对话的能力,用户能够提出诸如“你看到了什么?”或“读取这张截图中的文字”等多样化问题。

值得一提的是,该系统并非将图像视为实时视频流,而是巧妙地将其类比为在对话中插入的一张图片,开发者可通过应用自主决定向模型分享哪些图像以及分享的时机,从而牢牢掌握模型看到的内容与响应时机,实现更加个性化、精准化的交互体验。

与GPT – realtime模型同步上线的,还有Realtime API的一系列全新功能。从今天开始,在Realtime API会话中,开发者只需在会话配置中轻松传入远程MCP服务器的URL,即可快速启用MCP支持。

连接建立后,API会自动承担起工具调用的重任,无需开发者再手动搭建繁琐的集成环境。这种配置方式为扩展智能体功能提供了极大的便利,开发者只需将会话指向不同的MCP服务器,相应的工具便能即刻投入使用,大大提高了开发效率。

此外,Realtime API还新增了多项功能,旨在进一步提升其集成便捷性与生产使用灵活性。其中,会话初始协议支持使得Realtime API能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他SIP终端建立连接,极大地拓展了应用的连接范围。

而可复用提示功能则允许开发者像在Responses API中一样,保存并在多个Realtime API会话中重复使用提示,这些提示涵盖了开发者消息、工具、变量以及用户/助理示例消息等丰富信息,为开发工作带来了极大的便利,有效减少了重复性劳动,提高了开发效率。

在安全与隐私保障方面,Realtime API内置了多层严密的防护与缓解措施,全力防止滥用情况的发生。通过采用主动分类器,在会话过程中实时监测对话内容,一旦检测到对话违反有害内容准则,会立即终止相关会话,从源头上保障了使用环境的安全与健康。

开发者还可借助Agents SDK轻松添加自定义安全防护措施,实现更加个性化、精细化的安全管理。在使用政策上,明确禁止将服务输出用于垃圾邮件、欺诈或其他有害用途,并要求开发者在上下文未明确表明的情况下,必须向终端用户清晰告知其正在与人工智能进行交互。此外,Realtime API采用预设语音,有效防止了恶意人员冒充他人的风险。

在定价与可用性方面,自发布之日起,所有开发者均可自由使用正式开放的Realtime API与全新的GPT-realtime模型。与之前的gpt-4o-realtime-preview相比,GPT-realtime的价格降低了20%,具体为音频输入token单价32美元/百万个(缓存输入token单价0.40美元/百万个),音频输出token单价64美元/百万个。

此外,OpenAI还为对话上下文新增了精细控制功能,开发者可灵活设置智能token限制,一次性截断多轮对话内容,从而大幅降低长会话的成本。

API详情:https://platform.openai.com/docs/guides/realtime

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-08-29
Previous Article 专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉
Next Article 高效大规模创新3D重建模型iLRM
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 最新市场研究
  • 人物观点
  • 低代码/零代码动态
  • 活动
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

原力CEO赵锐:ToDesk是国内唯一适合高精远程办公需求的解决方案
央视财经对话汪源:低代码最核心的是降低对写代码的人的要求
干货文章 | 低代码真的有价值吗?
壹沓科技融资近2亿元之后:以通用大语言模型赋能,构建数字机器人超级大脑
专访中银金科:数字营销成为新的增长引擎,未来业务转化是关键
实现技术普惠 网易数帆轻舟低代码的差异化竞争之道
LowCode低码时代LowCode低码时代

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?