游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: 苹果开源通用视觉模型:创新训练方法,超1000颗星
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 未分类 > 苹果开源通用视觉模型:创新训练方法,超1000颗星
未分类

苹果开源通用视觉模型:创新训练方法,超1000颗星

孙婷婷-LowCode低码时代
Last updated: 2025/02/27 at 12:28 下午
孙婷婷-LowCode低码时代 1年 ago
Share
SHARE

苹果的研究人员开源了最新通用多模态视觉模型AIMv2,有300M、600M、1.2B和2.7B四种参数,整体能耗很低,可以适用于手机、PC等不同类型的设备。

与传统视觉模型不同的是,AIMV2 使用了一种创新的多模态自回归预训练方法,将视觉与文本信息深度融合,为视觉模型领域带来了新的技术突破。

简单来说,就是AIMV2 不再局限于仅处理视觉信息的传统模式,而是将图像和文本整合为统一的序列进行预训练。在这个过程中,图像被划分为一系列不重叠的Patches,形成图像token序列。

文本则被分解为子词令牌序列,然后将两者拼接在一起。这种独特的拼接方式使得文本令牌能够关注图像令牌,实现了视觉与文本信息的交互融合。

例如,在处理一张风景图片和相关描述文字时,AIMV2可以通过这种融合方式更好地理解图片中的元素与文字描述之间的对应关系,包括图片中的山脉、河流等元素与文字中提及的自然景观特征的关联。

开源地址:https://github.com/apple/ml-aim

Huggingface地址:https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c

AIMV2技术架构

在以往的研究中,专家模型被设计来最大化特定任务的性能,而通用模型则能够被部署在多个预定义的下游任务中,仅需最小的调整。

但随着大语言模型GPT系列的成功,预训练模型已成为自然语言处理领域的主流范式。这些模型通过生成预训练或对比学习等方法,学习了大量的语言表示。在机视觉领域,尽管生成预训练在语言模型中占据主导地位,但在视觉模型中的表现却落后于判别方法。

AIMV2的核心技术在于其多模态自回归预训练框架。这一框架将图像和文本整合到一个统一的序列中,使得模型能够自回归地预测序列中的下一个标记,无论它属于哪种模态。

在预训练阶段,AIMV2使用一个因果多模态解码器,首先回归图像块,然后以自回归的方式解码文本标记。这种简单的方法有几个巨大技术优势:AIMV2易于实现和训练,不需要非常大的批量大小或特殊的跨批次通信方法;

AIMV2的架构和预训练目标与LLM驱动的多模态应用非常吻合,可以实现无缝集成;AIMV2从每个图像块和文本标记中提取训练信号,提供了比判别目标更密集的监督。

训练流程与测试数据

在预训练目标方面,AIMV2定义了图像和文本领域的单独损失函数。文本领域的损失函数是标准的交叉熵损失,用于衡量每一步中真实标记的负对数似然。图像领域的损失函数是像素级的回归损失,模型预测的图像块与真实图像块进行比较。

整体目标是最小化文本损失和图像损失的加权和。这种损失函数的设计旨在平衡模型在图像和文本两个领域的性能,同时鼓励模型学习到能够准确预测两个模态的表示。

AIMV2的预训练过程涉及到大量的图像和文本配对数据集。这些数据集不仅包括公开的DFN-2B和COYO数据集,还包括苹果公司的专有数据集HQITP。这些数据集的结合为AIMV2提供了丰富的预训练数据,使其能够在多种下游任务中表现出色。

预训练过程中,图像被划分为非重叠的图像块,文本序列被分解为子词,然后这些序列被连接起来,允许文本标记关注图像标记。这种处理方式使得AIMV2能够处理不同分辨率和长宽比的图像,提高了模型的灵活性和适应性。

在性能测试方面,AIMV2在多个领域展现出了卓越的性能。在图像识别方面,AIMV2在ImageNet-1k数据集上达到了89.5%的准确率,这还是在冻结模型主干的情况下完成的。

此外,与其他视觉语言预训练基线模型相比,AIMV2 同样展现出了高度竞争的性能。例如,在ViT-Large容量下,AIMV2 在大多数基准测试中优于OAI CLIP,并在 IN-1k、iNaturalist、DTD和 Infographic 等关键基准测试中超越了DFN-CLIP 和 SigLIP。

值得注意的是,AIMV2 在训练数据量仅为 DFN-CLIP 和 SigLIP 的四分之一(12B vs. 40B)的情况下,仍能取得如此优异的成绩,且训练过程更加简便、易于扩展。

此外,AIMV2在开放词汇对象检测和指代表达理解等任务上也表现出色,显示出其在多模态任务中的广泛适用性。

本文素材来源苹果,如有侵权请联系删除

You Might Also Like

30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕

《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区

“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!

120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!

孙婷婷-LowCode低码时代 2025-02-27
Previous Article GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
Next Article OpenAI发布GPT-4.5:功能非常特殊,推理很贵
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?