游戏小漫书游戏小漫书
  • 首页
  • 游戏产业观察
    游戏产业观察
    聚焦大厂财报、并购投资、版号下发解读及海外市场分析…
    Show More
    Top News
    智能赋能云端脱险 Agent Empowered Cloud Escape | OPENAIGC开发者大赛高校组优秀作品
    1年 ago
    特朗普:OpenAI成立新公司Stargate,投资5000亿美元!
    1年 ago
    中国烟草总公司重庆市公司,私有化部署低代码平台建设项目,中标候选人公示
    4年 ago
    Latest News
    重磅!OpenAI开源首个Agent SDK,反击Manus
    1年 ago
    云计算巨头AI战略分化:谁将定义企业级AI的未来规则?
    1年 ago
    DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10
    1年 ago
    2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!
    1年 ago
  • 活动与社群
    活动与社群
    最新活动,包含线上研讨会、技术预测峰会、线下峰会、…
    Show More
    Top News
    厂商征集 | 2022年金融科技卓越影响力评选
    3年 ago
    申报倒计时 | 2022年卓越影响力榜单-中国产业创新奖评选
    3年 ago
    2022年卓越影响力榜单 | 中国产业创新奖评选
    3年 ago
    Latest News
    2024第五届ISIG产业智能大会,四大科技峰会共掀数字化创新浪潮
    1年 ago
    参赛者必看 | 拯救者杯OPENAIGC开发者大赛最全攻略指南来啦~
    2年 ago
    2024第四届ISIG产业智能大会(RPA超级自动化、AIGC大模型、低代码/零代码、流程挖掘)
    2年 ago
    超自动化·智启高效运营|艺赛旗2023年春季产品发布会成功举办
    3年 ago
  • 关于低码时代
    • LowCode原创研究
Reading: LongLoRA:超长上下文,大语言模型高效微调方法
Share
Notification Show More
Latest News
30部佳作突围!2025 AI视听创作嘉年华晋级名单揭晓,总决赛11月25日启幕
未分类
《2025 AI 大模型开发生态白皮书》正式发布 | 算泥社区
未分类
“AI幻想·未来亦城”2025AI视听创作嘉年华作品征集来了!
未分类
120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
未分类
2025-10-21
未分类
Aa
游戏小漫书游戏小漫书
Aa
  • 游戏产业观察
  • 活动与社群
  • 首页
  • 游戏产业观察
  • 活动与社群
  • 关于低码时代
Have an existing account? Sign In
  • LowCode低码时代
Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
游戏小漫书 > Blog > 游戏产业观察 > LongLoRA:超长上下文,大语言模型高效微调方法
游戏产业观察

LongLoRA:超长上下文,大语言模型高效微调方法

LowCode低码时代
Last updated: 2023/10/08 at 8:00 上午
LowCode低码时代 2年 ago
Share
SHARE

麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力,而无需消耗大量算力资源。

通常,想增加大语言模型的上下文处理能力,需要更多的算力支持。例如,将上下文长度从2048扩展至8192,需要多消耗16倍算力。

LongLoRA在开源模型LLaMA2 7B/13B/70B上进行了试验,将上下文原始长度扩展至32K、64K、100K,所需要的算力资源却很少。

开源地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/abs/2309.12307

LongLoRA的高效微调方法

根据LongLoRA的论文介绍,采用了两大步骤完成了高效微调。第一,在训练期间使用一种更简单的注意力形式(聚焦于特定信息),开发者称之为转变短注意力(S2-Attn)。

这种新的注意力方法有助于节省大量的计算能力,而且几乎与常规的注意力方法一样有效,在训练过程中发挥了重要作用。

第二,重新挖掘了一种有效扩大上下文(用于训练的信息量)的方法。开发人员发现,一种名为LoRA的方法对此非常有效,尤其是当与可训练的嵌入和规范化一起使用时。

LongLoRA在各种任务上都显示出了优异的结果,可以与不同大小的LLMs一起使用。它可以将用于训练的数据量从4k增加到100k,对于另一个模型,可以增加到32k,所有这些都在一台强大的计算机机器上完成。此外,它与其他现有技术兼容性很强,并不会改变原始模型设计架构。

此外,为了让 LongLoRA 更加实用、高效,开发者还整理了一个名为 LongQA 的数据集,其中包含 3000 多对用于训练的问题和答案。这使得 LongLoRA 还能有效改进大语言模型的输出能力。

研究发现

该研究评估了Proof-pile 和 PG19数据集上的不同模型。研究发现,在训练过程中,随着上下文大小的增加,模型的表现更好,显示了其微调方法的有效性。

简单来说,使用更多信息进行训练,将会带来更好的结果。例如,当上下文窗口大小从 8192 增加到 32768 时,一个模型的困惑度性能从 2.72 提高到 2.50。

该研究还探讨了这些模型可以在一台机器上处理多少上下文。开发人员扩展了模型以处理极长的上下文,并发现模型仍然表现良好,尽管上下文尺寸较小时性能有所下降。

除了语言建模之外,该研究还测试了其他任务,包括在很长的对话中找到特定的主题。开发人员的模型在这项任务中的表现与最先进的模型类似,甚至在某些情况下表现得更好。值得一提的是,与竞争对手相比,开发人员的模型能够更有效地适应开源数据。

LongLoRA表明,大模型能够处理的信息越多,理解语言的能力就越强。并且它不仅擅长处理长文本,而且LongLoRA也非常擅长在长对话中找到特定的主题。这表明它可以处理现实世界中复杂而混乱的任务。

但因为加大了上下文窗口,所以LongLoRA在处理较短的文本片段时会有一些问题,这个问题作者还没有找到原因。

总体来说,LongLoRA 在大型语言模型领域提出了创新方法,在处理大量信息时,也可以更轻松、更高效地微调这些模型,而必须消耗更多的算力资源。

本文素材来源LongLoRA论文,如有侵权请联系删除


– END –


 报告下载 



大佬观点

西门子低代码-王炯 | 西门子低代码-阮铭 | 微软-李威 | 微软-徐玉涛 | 葡萄城-李佳佳 | 葡萄城-宁伟 | SAP-陈泽平 | 华为-周明旺 | 华为云-董鑫武 | 钉钉宜搭-邵磊 | 轻流-严琦东 | 腾讯云微搭-骆勤 | 网易数帆-陈谔、严跃杰 | 百特搭-姜楠
用友-刘鑫 |  数睿数据-张超 |  奥哲-朱鹏喜 | 炎黄盈动-汤武 | 普元信息-孟庆余 | 得帆-李健达 | 瀚码技术-钟惟渊 | iVX-孟智平
Treelab-何浚炫 | 阿里-汪凤震 | 明道云-薛晨 | 上海斯歌-傅正斌




公众号后台回复【加群】
可受邀进入【无代码&低代码技术应用研讨群】
欢迎各位从业者/应用者/关注者加入


You Might Also Like

重磅!OpenAI开源首个Agent SDK,反击Manus

云计算巨头AI战略分化:谁将定义企业级AI的未来规则?

DeepSeek创造历史!登顶全球AI应用第2名,豆包排名第10

2025“赋能开发者”高峰论坛即将启幕,诚邀您报名参加!

LowCode低码时代 2023-10-08
Previous Article 低代码,提升跨平台应用开发效率的关键
Next Article 3个实例,看低代码如何帮助企业HR、运营数字化提质增效
Leave a comment

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

about us

关注中国低代码(LowCode)无代码/零代码领域,包括行业研究、市场报告、技术选型和媒体报道,推进低代码的技术普及、生态建设发展和产业应用,重塑IT开发和自动化的未来。

  • 游戏产业观察
  • 活动与社群
  • 联系我们
  • RPA中国
  • 数字金融网
  • 信创中国
  • Xverse元宇宙

最新专家访谈

游戏小漫书游戏小漫书

Copyright©2015-2022 北京企智未来科技有限公司 All Rights Reserved.
京ICP备19023145号-8

  • LowCode低码时代
订阅最新动态!

订阅最新低代码/零代码市场报告、研究咨询、分析师趋势以及市场活动

Zero spam,可随时取消订阅.

Removed from reading list

Undo
欢迎回来!

登录你的账号

Lost your password?