LowCode低码时代LowCode低码时代
  • 首页
  • 低代码/零代码动态
    低代码/零代码动态
    厂商融资信息、行业新闻、招投标、技术研究等动态
    Show More
    Top News
    AIGC点燃低/零代码市场
    3年 ago
    万字长文 | 低代码vs.传统开发:一个全面的比较
    2年 ago
    西门子Mendix低代码高级架构师卢春霖,将出席“低代码开发推动制造业数字化变革”线上研讨会
    2年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 市场研究
    市场研究Show More
    《Market Insight:中国低代码/零代码市场发展洞察 ( 2023 )》报告正式发布 | LowCode低码时代
    3年 ago
    国产大模型顶流「讯飞星火」:图片生成、代码生成,支持插件等重磅上线
    3年 ago
    报告 | 金现代:效能提升+内质跃迁,重塑电力IT领导者
    3年 ago
    Gartner:低代码的颠覆性力量
    3年 ago
    Gartner:什么是超级应用程序?
    3年 ago
  • 人物观点
    人物观点Show More
    原力CEO赵锐:ToDesk是国内唯一适合高精远程办公需求的解决方案
    2年 ago
    央视财经对话汪源:低代码最核心的是降低对写代码的人的要求
    3年 ago
    干货文章 | 低代码真的有价值吗?
    3年 ago
    壹沓科技融资近2亿元之后:以通用大语言模型赋能,构建数字机器人超级大脑
    3年 ago
    专访中银金科:数字营销成为新的增长引擎,未来业务转化是关键
    3年 ago
  • 活动
    活动
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    ISIG中国产业智能大会品牌介绍
    4年 ago
    炎黄盈动金融行业高级顾问张自刚,受邀出席“2022金融科技超自动化论坛”
    3年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: 免费使用!百度重磅发布文心4.5、X1,视频解读+深度思考
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
LowCode低码时代LowCode低码时代
Aa
  • 低代码/零代码动态
  • 最新市场研究
  • 活动
  • 人物观点
  • 首页
  • 低代码/零代码动态
  • 最新市场研究
  • 人物观点
  • 活动
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
LowCode低码时代 > Blog > 未分类 > 免费使用!百度重磅发布文心4.5、X1,视频解读+深度思考
未分类

免费使用!百度重磅发布文心4.5、X1,视频解读+深度思考

孙婷婷-LowCode低码时代
Last updated: 2025/03/17 at 3:35 下午
孙婷婷-LowCode低码时代 1年 ago
Share
SHARE

昨天,百度发布了两款大模型文心4.5和X1,已全部上线并且免费使用。

文心4.5是一款多模态模型,能对文字、图片、视频、音频等内容进行综合解读。例如,给一个视频,让其对内容识别然后再写一份深度分析(非常不错可以解读英文)。能力大幅度超过OpenAI的GPT-4o。

X1和DeepSeek-R1一样具备深度思考能力,能对提出的问题进行理解、规划、反思、进化能力,同样支持多模态。

此外,X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等众多特色工具。所以,X1更像是一个推理能力超强的智能体。

体验地址:https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其实多模态理解已经成为国内外大模型的标配,但能直接高效准确解读视频的模型并不多。而文心4.5就具备这种特殊能力。

这里就用今天咱们二条发布的,美国陆军收到首个AI模型驱动的军事情报战车TITAN宣传视频做解读案例。

因为这是刚出的视频,大概率不在预训练模型的数据范围内,能很好地考验文心4.5基于多模态的理解能力,对全新未知内容的分析水平。

需要注意的是,上传的视频不能超过20M,支持Mp4、MOV、MKV等常规格式。

上传完视频后,提问,这是一个什么视频?大约用了不到1分钟,解读效率还是相当高的。

文心4.5给出了完整TITAN答案,解读基本上是正确的,可以比肩谷歌的NoteGPT。这个功能对于需要快速了解国外学术介绍、娱乐影视的人来说很有帮助。如果视频太大,记得可以先压缩之后再上传。

音频解读一样准确高效,一次可以上传10个音频,单个最大别超过10M,支持mp3、m4a、wav等常规格式,有兴趣的小伙伴可以体验一下。

再体验一下X1,其特殊能力就是能自动调用多种其他工具。

例如,让X1自动解读一下电影《肖申克救赎》的海报,直接提问“这是一张什么图片?”

X1开启了深度思考模式,我们可以清楚看到它自动调用了图片理解工具,帮它来解读这张图片。

在得到结果后,总结出了图片的主题秒速、背景与色调、风格设计等主要框架,最后进行了完整的输出。

我们接着提问,根据这个电影写一份200字的影评。文本风格欢快一些,最好带点网络梗。

这次X1没有调用别的工具,因为只是简单的文本生成,但也会梳理一下输出逻辑,包括影评基调、加入网络梗、内容点评等。

最后输出的结果如下:

《肖申克的救赎》yyds!这部片子简直是”监狱版《越狱》”的鼻祖,蒂姆·罗宾斯演的安迪简直是个”神级挖坑王”,用一把小鹤嘴锄挖出自由之路,看得人热血沸腾!

摩根·弗里曼的旁白更是”金句制造机”,”希望是好事,也许是人间至善”这句话,我直接原地emo转鸡血!影片节奏就像”德芙巧克力,纵享丝滑”,看完感觉心灵都被”越狱”了!姐妹们,答应我,没看过的一定要冲,这片子保熟!

感觉写的还行,有小红书那味儿了吧。可以在这个基础之上改一改就能直接出文案了。

至于价格方面,个人用户是免费使用这两款大模型;企业开发者在百度智能云千帆大模型平台,现在能直接使用文心4.5 API,输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens;

X1也即将在千帆平台上线,输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。

文心4.5和X1架构简单介绍

根据百度官方介绍,文心4.5主要使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多种创新技术,使其在多模态的理解和生成方面得到了质的飞跃。

传统的注意力掩码计算在处理长序列时往往面临效率瓶颈,而FlashMask通过动态调整注意力掩码的方式,能够加速计算过程。使得模型在处理长文本或长序列数据时表现更加出色。还能优化多轮交互场景下的性能,这对于需要连续对话或长文本生成的应用场景具有重要意义。

多模态异构专家扩展技术主要解决不同模态之间的梯度不均衡难题。在多模态模型中,图像、文本、音频等不同模态的数据特性差异很大,导致它们在训练过程中梯度更新速度不一致,进而影响模型的整体性能。

通过构建模态异构专家,为每种模态设计专门的处理模块,并结合自适应模态感知损失函数,该技术能够动态调整各模态的权重,从而平衡梯度更新,提升多模态融合的效果。

时空维度表征压缩技术针对的是多模态数据中的图片和视频语义表征。在多模态训练中,图片和视频的语义信息往往需要大量的计算资源来处理,尤其是长视频数据。

通过在时空维度对这些语义表征进行高效压缩,大幅减少了计算量,提升了多模态数据的训练效率。同时,还增强了模型从长视频中提取世界知识的能力,这对于提升模型对复杂场景的理解和生成能力至关重要。

根据测试数据显示,文心4.5的原生多模态能力,在CCBench、OCRBench、MMMU、MathVista等主流基准测试中,大幅度超过了OpenAI发布的GPT-4o。

X1的深度思考能力则应用了基于思维链和行动链的端到端训练,将输入直接映射到输出的训练方式,避免了传统多阶段训练中可能出现的信息丢失和误差累积问题。

在深度搜索场景中,模型不仅需要考虑搜索结果的相关性,还需要理解用户的搜索意图,通过思维链的构建,将用户的意图分解为一系列的逻辑步骤,然后通过行动链将这些步骤转化为具体的搜索行为。

例如,当用户输入一个复杂的查询请求时,模型首先通过思维链理解用户可能需要的信息类型、范围和优先级,然后通过行动链调用不同的搜索工具或算法,逐步细化搜索结果,最终提供最符合用户需求的答案。这种端到端的训练方式能够根据最终的结果反馈,直接调整模型的参数,从而显著提升训练效果。

百度表示,未来会开源文心4.5大模型。

本文素材来源百度、文心一言,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-03-17
Previous Article 云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
Next Article AI Agent再迎一巨头!Zoom发布全平台Agent,智能体大爆发
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 最新市场研究
  • 人物观点
  • 低代码/零代码动态
  • 活动
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

原力CEO赵锐:ToDesk是国内唯一适合高精远程办公需求的解决方案
央视财经对话汪源:低代码最核心的是降低对写代码的人的要求
干货文章 | 低代码真的有价值吗?
壹沓科技融资近2亿元之后:以通用大语言模型赋能,构建数字机器人超级大脑
专访中银金科:数字营销成为新的增长引擎,未来业务转化是关键
实现技术普惠 网易数帆轻舟低代码的差异化竞争之道
LowCode低码时代LowCode低码时代

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?