快速全面了解大模型长文本能力

前言

如今的大模型被应用在各个场景，其中有些场景则需要模型能够支持处理较长文本的能力(比如8k甚至更长)，其中已经有很多开源或者闭源模型具备该能力比如GPT4、Baichuan2-192K等等。

那关于LLM的长文本能力，目前业界通常都是怎么做的？有哪些技术点或者方向？今天我们就来总结一波，供大家快速全面了解。

当然也有一些关于LLM长文本的综述，感兴趣的小伙伴可以看看，比如：

《Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey》：https://arxiv.org/pdf/2311.12351.pdf

今天我们会从如下几个层面进行介绍：：数据层面、模型层面、评估层面。每个层面挑几个还不错的工作浅浅学一下业界都是怎么做的。

全文涉及较多工作，建议收藏，方便后续查询细读或者下载数据。

数据层面

LongAlpaca-12k

链接：https://huggingface.co/datasets/Yukang/LongAlpaca-12k

其是LongAlpaca-12k的一个工作，共收集了9k条长文本问答语料对，包含针对名著、论文、深度报道甚至财务报表的各类问答。

同时为了兼顾短文本能力，还从原有的Alpaca数据集中挑选了3k左右的短问答语料即最终构建了12k。

LongQLoRA

链接：https://huggingface.co/datasets/YeungNLP/LongQLoRA-Dataset

其是LongQLoRA的一个工作，其开源了两部分数据一部分是54k的预训练数据，一部分是39k的sft数据。

Ziya-Reader

链接：https://arxiv.org/abs/2311.09198

本篇paper主要贡献是如何构建长文本问答训练数据，专注用于多文档或单文档问答，虽然训练数据没有开源，但是做数据的方法我们可以学习一下

其主要借鉴cot的思路，在长文本问答领域也采用类cot，具体来说是：

（1）让模型先对问题进行复述，这使得模型在看了一段非常长的上下文信息后，也不会因为距离衰减的原因忘记原始的提问，因而在生成回复时，更加能够关注到问题。

（2）让模型预测正确上下文段落的索引下标，通过这样的方式可以让模型更加关注正确的上下文段落。

（3）预测最终答案

可以看到(1)(2)就是作者采用的cot

除此之外之外，还构建了一些负样本，比如没有正确上下文等等来增强模型的泛化性。

LongAlign

链接：https://huggingface.co/datasets/THUDM/LongAlign-10k

这篇工作主要聚焦做长文本的sft数据，具体来说作者从9个不同的来源收集长篇文章后使用Claude 2.1根据给定的长篇背景生成任务和答案。

模型层面

模型层面主要是探索外推性，即如何确保在模型推理阶段可以支持远远超过预训练的长度，其中限制外推的根本原因有两个即在inference阶段面对更长文本的时候，会出现更长的新位置编码（相比训练）以及历史上下文kv缓存过大这两个根本难题。

为此目前的探索主要发力解决这两个难题：（1）设计位置编码；（2）动态设计局部注意力机制。下面我们逐个详细看看～

（1）设计位置编码

关于这部分推荐一篇博客：https://mp.weixin.qq.com/s/RtI95hu-ZLxGkdGuNIkERQ

大模型的位置编码发展史：绝对位置编码 -> 相对位置编码 -> 旋转位置编码。

其中绝对编码的一个缺点是模型无法显式的感知两个token之间的相对位置，而后续的比如Sinusoidal相对位置编码则通过正余弦函数实现了相对位置编码，而旋转位置编码则实现了通过简单的周期性旋转将位置信息编入了进去。

其中一个向量维度是d，越靠后的分组，它的旋转速度越慢，正弦函数的周期越大、频率越低。

所以我们简单总结一下旋转位置编码直观的性质，他的核心是通过旋转向量来将位置信息植入进来（非常巧妙，不需要其他什么复杂的改变，只需要旋转向量就可以），具体的旋转过程是：假设当前向量是d维，那么就分为d/2个组，每个组进行各自的周期旋转，越靠后的分组，它的旋转速度越慢，正弦函数的周期越大、频率越低。

转化为数学一点为：向量q(维度为d)在位置m时，它的第i组(总共d/2个组)分量的旋转弧度为

当训练长度为L时，模型训练的时候只见过即，当推理长度大于L时，模型不能cover新的旋转弧度也即无法插入新的位置信息了。

知道了卡点，下面我们来看几个相关的改进工作。

Position Interpolation

该方法为位置插值，思路也比较好的理解，既然超过L后的旋转模型因为没有见过就不能理解，那么我们就不超过，但是位置m还想扩大（比如一倍），那就可以通过缩小每个位置的旋转弧度（让向量旋转得慢一些），每个位置的旋转弧度变为原来的，这样的话长度就可以扩大几倍。具体的为：，这样的话即保证了没有超过训练的旋转范围，又插入更长或者更多的位置。

NTK-Aware Interpolation

该方法也是通过缩放，具体方法为如下：具体的是引入了一个缩放因子。

从数学角度看的话，Position Interpolation是将缩放因子放到了外面，而NTK是放到了里面（带有指数）。从直观的理论上看Position Interpolation方法是对向量的所有分组进行同等力度地缩小，而NTK对于较前的分组（高频分量）缩小幅度小，对于较后的分组（低频分量）缩小幅度大。

这样做的目的是靠前的分组，在训练中模型已经见过很多完整的旋转周期（因为旋转速度很快，这个性质之前已经介绍过了），位置信息得到了充分的训练，所以已经具有较强的外推能力。而靠后的分组，由于旋转的较慢，模型无法见到完整的旋转周期，或者见到的旋转周期很少，外推性能就很差，需要进行位置插值。

NTK-by-parts Interpolation

这个方法就更直接了，直接一刀切，对于高频分量就不缩小了（一点也不）即不进行插值，因为已经具备外推性，而对于低频分量由于训练没见过完整旋转周期所以外推性差，那就进行插值。相比于NTK-Aware Interpolation方法，这个方法更硬一些。

Dynamic NTK Interpolatio

NTK插值在超过训练长度L时表现还不错，但是在训练长度内反而表现较差，为此本方法实现了动态插值即当inference的长度l在训练长度L内就不进行插值，超过训练长度L才进行NTK-Aware Interpolation。

具体的缩小因子也是个动态值为：，其中l随着不断生成不断累加，是个动态值。

（2）动态设计局部注意力机制

在生成每一个token的时候，其实核心都是在计算attention score，那么就需要查询之前token的kv值，为了提高效率，一般来说会把历史的kv值都缓冲起来，这样后续就可以快速用了，但问题是当随着长度增加时，内存必然OOM。

知道了卡点，下面我们来看几个相关的改进工作。

EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS

论文链接：https://arxiv.org/pdf/2309.17453.pdf

(a) 就是常规inference，可以看到不论是复杂度还是效果性能随着长度增加，都会变得严峻。

(b) 就是常说的滑动窗口，核心方法就是每次只缓冲最近几个token，这样的话可以保证效率，但是当文本变长后，性能会下降。

(d) 就是本文提出的方法，其通过观察发现大量的注意力分数被分配给初始token（即使这些token与语言建模任务没有相关性），基于此作者沿用(b)的方法，只不过每次除了用缓冲的最近几个token，额外再加上开头的几个token。

通过(d)方法最终实现了无限外推，该工作的代码也已经开源，star非常多，很受欢迎。

LONGLORA: EFFICIENT FINE-TUNING OF LONG- CONTEXT LARGE LANGUAGE MODELS

论文地址：https://browse.arxiv.org/pdf/2309.12307.pdf

本篇主要的贡献在于开源了一个长文本训练数据（见上节）以及提出了一个shift short attention

可以看到就是先分组(各个组内进行self attention)，只不过由于各个组由于之间没有交互信息，导致效果变成，于是作者也采用滑窗口机制来缓解一下，即使用半组长度来滑，本质上就是滑动窗口，只不过就是先分组再滑。

同时其支持lora训练，可快速训练适配部署自己的模型。

LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

论文地址：https://arxiv.org/pdf/2311.04879.pdf

其和上篇的LONGLORA大同小异，主要不同是替用qlora进行训练，更节省资源，同时另外一个贡献就是开源了一个长文本数据集(见上节)

Soaring from 4K to 400K: Extending LLM’s Context with Activation Beacon

论文地址：https://arxiv.org/pdf/2401.03462v1.pdf

这篇论文的思路也很朴素：大的思路也是采用滑动窗口，只不过在怎么动态保存之前上下文的思路上采用的是压缩思路，即前面信息既然太多，那就压一压。

具体的前面咱们介绍的EFFICIENT是通过每次滑的时候始终保留最前面几个token，而本篇的思路就是把每个区间的信息（图中蓝色）压缩成一个激活信标（图中绿色），而后面就用这些单个激活信标来代表整个区间的信息。

那激活信标怎么得到呢？作者也是采用了注意力机制，具体的探索了三种方法，一种是分段即每个信标只用自己区间的信息（图A），第二种是逐步分段即每个信标可以关注比其前身多一个子区间(图B)，第三种是完全覆盖，其中所有信标都可以关注整个上下文（图C）。这三种方法的计算成本相同。最后作者发现第二种最好。

有了信标后，便可以将信标和来自普通信息一起使用滑动窗口进行流式处理即每个滑动窗口由过去上下文区间的m个信标和最新上下文区间的普通标记组成。

评估层面

在迭代模型长文本能力的过程中，需要一个量化指标来不断指导，目前业界已经有一些评估，一起来看看吧～

ZeroSCROLLS

论文链接：https://arxiv.org/pdf/2305.14196.pdf

其由十个自然语言任务构成，包括摘要、问答、聚合任务(给50条评论，让模型预测正面评论的百分比)等等

longeval

论文链接：https://lmsys.org/blog/2023-06-29-longchat/

该工作通过设计topic和lines长文本记忆能力来测试模型的长文本能力。

L-Eval

论文链接：https://arxiv.org/pdf/2307.11088.pdf

该工作从公开数据集收集数据，然后手动过滤和校正，重新标注得到。

LongBench

论文链接：https://arxiv.org/abs/2308.14508

该工作也是设计了单文档问答、多文档问答、摘要任务、Few-shot任务、合成任务、代码补全等等

LooGLE

论文链接：https://arxiv.org/pdf/2311.04939.pdf

该工作从科学论文、维基百科文章、电影和电视中收集样本，然后也是设计摘要等任务。

FinLongEval

论文链接：https://github.com/valuesimplex/FinLongEval

主要聚焦金融领域的长文本评测

总结

可以看到，在助力LLM长文本能力的道路上目前有两个大的方向在发力：

（1）从数据入手即构建做高质量长文本数据，这非常重要，因为有了数据才能训练，其中长文本预训练数据相对来说比较好找，但是sft数据就比较难了，并不是说强行cat起来就是有效长文本，比如把多个单轮文本cat到8k，但是这是一个伪多轮，对模型学习全局信息帮助很小；关于怎么构建高质量的长文本数据尤其是中文领域的数据还需要更多的探索，可以借鉴长文本评测任务来汲取灵感进行构建训练数据。

（2）从模型层面入手进行外推，目前一个是探索位置编码，另外一个就是探索怎么缓解kv缓冲也即两个核心问题：第一就是寻找或设计合适的位置编码；第二是设计局部注意力机制。其中第一个大的方向都是缩放即通过缩放将旋转范围依然缩放到和训练一致但实现了插入了更多的或者更长的位置，第二个大的方向基本都是探索怎么把之前的信息进行动态压缩，更进一步这里的动态其实就是滑动，只不过在滑动上进行各种不同的逻辑。将两个技术点（本来就是解决不同问题的）合理的结合也是很重要的。

总的来说，首先尽可能的收集准备好高质量的长文本训练数据，然后在当前资源下训练到最大长度，最后在推理时可以借助各种外推手段进行拓展。

审核编辑：黄飞

阅读全文

GPT(14803) GPT(14803)
位置编码器(5494) 位置编码器(5494)
大模型(810) 大模型(810)
LLM(229) LLM(229)

一文全面了解linux相关知识

今天浩道跟大家分享linux实用场景相关的实例，助你全面了解linux相关知识。

2023-01-29 11:09:09

374

3D软件中如何应用文本特征？3D文本特征应用技巧

`在日常设计过程中，设计工程师总会遇到需要在各种塑料、铸造或锻造零件的模型上，标注企业标准化标签或零件号的情况。浩辰3D软件除了能够快速且高效地完成3D模型的设计与装配，还能在各种3D模型上实现文本

2021-04-22 17:28:02

全面了解电脑主板

大家知道，主板是所有电脑配件的总平台，其重要性不言而喻。而下面我们就以图解的形式带你来全面了解主板。

2019-08-02 06:42:14

全面了解红外遥控

本帖最后由 eehome 于 2013-1-5 09:51 编辑全面了解红外遥控

2012-08-19 22:57:01

全面了解红外遥控

本帖最后由 eehome 于 2013-1-5 10:10 编辑全面了解红外遥控

2012-08-11 09:44:07

全面了解车用电机控制器，从原理到设计！

的优缺点。全面总结了开关磁阻电动机的发展方向及应用前景，描述了开开关磁阻电动机调速系统的四个组成部分和运行情况。从分析SR电机的性能入手，在Matlab／Simulink下建立了开关磁阻电机的线性仿真模型

2020-06-22 14:44:05

全面、高效的了解电子行业最新信息

  由于经济危机带来的影响，电子行业也面临着种种困难。如何拓展国际市场，如何让产品结构与贸易形势方式调整更加深入。如何快速掌握市场变化，了解行业最新行情、市场需求和同行业的相关

2009-06-23 10:59:47

快速创建下拉列表项文本

快速创建下拉列表项文本，通过复制文本到txt控件快速导入，如图上内容

2019-07-18 11:32:45

文本信息抽取的分阶段详细介绍

系统基于已有的标注构建一个学习模型，并用一个条件概率分布进行表示。信息抽取系统则是根据得到的条件概率分布模型，对新的样本进行标注。文字单元在具体的实现中可以是一个文本、一个句子、一个词语，甚至还可

2019-09-16 15:03:58

长文件名没有用

=_MAX_LFN*2+1;//长文件名最大长度tfileinfo.lfname=mymalloc(SRAMIN,tfileinfo.lfsize);//为长文件缓存区分配内存if(res

2019-04-15 04:47:16

CC2540的应用是否需要全面了解蓝牙协议

现在打算用这个IC来开发一些产品，但是感觉入门挺高的，不知如何下手。请各位指导一二！用这个来开发，是否需要全面了解蓝牙协议,对于蓝牙协议，该如何处理？

2018-08-19 07:39:33

HarmonyOS 3.1版本发布，全面进入声明式开发

——Stage模型，并在DFX、Web组件开发、国际化开发、通信互联、媒体软件等子系统能力方面有所更新或增强，这些能力标志着HarmonyOS全面进入ArkTS语言的声明式开发阶段。下面，让我们一起了解

2022-11-15 11:58:42

NLPIR在文本信息提取方面的优势介绍

构建知识图谱需要满足三项要素要求，分别是实体，关系和属性。文本信息提取，则是在文本中提出三元信息，包括实体和关系的信息，实体和属性的信息，然后将这些关系设置成数据库的过程。进行信息提取的主要环节

2019-09-12 15:33:03

eplan_路径功能文本能解决什么问题

eplan_路径功能文本是什么？eplan_路径功能文本能解决什么问题？eplan_路径功能文本可能存在哪些问题？

2021-09-06 07:24:07

为什么双层板顶面可以全面灌注底面只能用快速灌注

2017-11-23 08:54:33

初学者怎样提高自己的动手能力和掌握知识的全面性

2015-08-14 14:56:59

大咖带你了解技术团队效能动力模型

全面发展，从而提升自己的职业素养。技术团队效能动力模型针对以上三个问题的思考形成了技术团队效率动力模型。模型中主要包含两部分，即集体环境效能和个体职业素养，而各部分又可进一步可分解出其他要素。模型中箭头所

2018-06-06 21:28:10

如何快速地得到精确的MGH发送器模型？

如何建立自己的MGH MacroModel？如何快速地得到精确的MGH发送器模型？

2021-05-25 07:24:25

如何快速搭建STM32应用模型？

2022-02-10 06:27:15

如何利用CH376S创建长文件名文件？

用CH376S创建长文件名文件时，根据EXAM11例程创建文件，发现返回的数值是0x41，在电脑中查看U盘文件，短文件名文件有创建，长文件名没有创建，还有想知道这个短文件名和长文件名之间有什么对应

2022-07-04 07:42:27

如何提升模型能力？

目标检测的模型集成方法及实验常见的提升模型能力的方式

2021-02-24 07:10:29

如何构建文本生成器？如何实现马尔可夫链以实现更快的预测模型

加载真正的训练语料库。可以使用任何想要的长文本(.txt)文档。为了简单起见将使用一个政治演讲来提供足够的词汇来教授我们的模型。text_path = "

2022-11-22 15:06:55

求助，CH32F103如何读取U盘已有的长文件名？

读取U盘里面现有的长文件名，通过CH103FileOpen枚举文件夹内的文件，可以得到长文件名文件的短文件名，也可以使用该短文件名来操作这个文件，就是不知道如何得到这个长文件名文件的长文件名？如果有

2022-05-12 08:28:17

用于快速模型的模型调试器11.20版用户指南

用于快速模型的模型调试器是用于可扩展集群软件开发的完全可重定目标的调试器。它旨在满足SoC软件开发人员的需求。 Model Debugger具有易于使用的GUI前端，并支持： •源代码级调试

2023-08-10 06:33:37

用于快速模型的模型调试器11.21版用户指南

2023-08-09 07:57:45

论述运用word排版长文档的主要步骤和方法精选资料分享

，在这里供大家使用。（如果大家使用计算机二级office软件方便的话，另说）长文本排版：首先是要求：(1) 调整纸张大小为B5，页边距的左边距为2cm，右边距为2cm，装订线1cm，对称页边距。(2

2021-07-19 07:38:17

全面了解红外遥控.pdf

2006-04-09 22:21:18

101

快速的文本倾向性分类方法

提出了一种快速的文本倾向性分类方法，即采用类别空间模型描述词语对类别的倾向性，基于词的统计特征实现分类；针对倾向性分类的复杂性，在综合考虑词频、词的文本频、词

2008-12-18 16:41:43

3D打印高性能材料模型树脂 RE 51 高耐磨高精度无气泡快速打印

3D打印高性能材料模型树脂 RE 51 RE 51 模型树脂RE 51是一款可快速打印的模型树脂材料，具有高精度的材料特性，可使打印模型具有光洁、精细的纹理表面

2023-02-15 14:50:30

配电网CAD系统中文本标注技术与应用

本文介绍了矢量绘图系统中文本标注技术的原理和方法，结合配电网CAD 系统的开发，给出了在VC++开发环境下多行文本标注的具体实现方法。标注文本能和系统图形同步显示，具

2010-02-22 13:49:16

笔记本能换显卡？

2010-01-20 14:10:24

528

文本分类的原理是什么？#硬声创作季

文本

电子学习发布于 2022-11-20 21:09:28

基于PLSA主题模型的多标记文本分类_蒋铭初

2017-01-08 10:40:54

通信设备硬件工程师应该具备的基本能力和知识

通信设备硬件工程师应该具备的基本能力和知识

2017-01-13 21:53:25

文本分类中CTM模型的优化和可视化应用研究

如何从海量文本中自动提取相关信息已成为巨大的技术挑战，文本分类作为解决该问题的重要方法已引起广大关注，而其中文本表示是影响分类效果的关键因素。为此采用相关主题模型进行文本表示，以保证信息完整同时表现

2017-11-22 10:46:30

基于微博文本的词对主题演化模型

针对传统主题模型忽略了微博短文本和文本动态演化的问题，提出了基于微博文本的词对主题演化（ BToT）模型，并根据所提模型对数据集进行主题演化分析。BToT模型在文本生成过程中引入连续的时间变量

2017-12-03 11:31:15

中文短文本聚合模型研究

的中文短文本聚合模型，通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量，并保证匹配的精度．针对传统短文本相似度算法的不足，提出了一种新颖的广义Jaro-Winkler相似度算法，并从理论上分析了该算法的参

2017-12-25 10:11:34

通过讲述Redis的数据结构和主要命令对Redis的基本能力进行直观介绍

本文将从Redis的基本特性入手，通过讲述Redis的数据结构和主要命令对Redis的基本能力进行直观介绍。之后在性能调优等方面进行更深入的介绍和指导。

2018-01-25 15:41:04

3749

如何使用TensorFlow Hub文本模块构建一个模型，以根据相关描述预测电影类型

您所选择的预训练文本嵌入是您模型中的一个超参数，所以最好用不同的文本嵌入进行试验，看看哪个的准确性最高。先从用与您的文本最接近的文本训练过的模型开始。由于我们的电影描述都是较长的输入，因此，我发现

2018-09-07 17:13:16

2968

基于用户行为特征的多维度文本聚类

每个维度中属性间的关系。为有效利用与文本相关的用户行为信息，提出一种结合用户行为信息的多维度文本聚类模型（MTCUBC）。根据文本间的相似性在不同空间上应该保持一致的原则，该模型将用户行为信息作为文本内容聚类的约束来

2018-11-16 15:37:26

如何使用狄利克雷多项分配模型进行多源文本主题挖掘模型

随着文本数据来源渠道越来越丰富，面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模，直接应用于多源文本数据有较多的限制。针对该问题提出

2018-11-27 17:30:40

训练一个机器学习模型，实现了根据基于文本分析预测葡萄酒质量

我们可以把上述的其他信息也引入作为特征参数，这样就能构建出一个更全面的模型来预测葡萄酒质量。为了将文字描述与其他特征结合起来进行预测，我们可以创建一个集成学模型（文本分类器就是集成在内的一部分）；也可以创建一个层级模型，在层级模型中，分类器的输出会作为一个预测变量。

2019-05-16 18:27:39

5662

人工智能在文本创作上的发展分析

AI在文本创作上的能力正在加强。人们对于人工智能的创作能力赋予了更大的想象力，尤其是在OpenAI 推出文本生成模型 GPT-2 后。

2019-07-08 09:53:07

1291

KUKA-C4机器人如何导出/导入长文本

如果已经分配输入 / 输出端、标志位或名称，则可以将这些名称（所谓的 “长文本 ”）导出到一个文件中。同样也可以导入具有长文本名称的文件。用这个方法，重新安装之后就不必在每台机器人上手动输入

2020-12-23 17:11:51

3964

如何优雅地使用bert处理长文本

这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》，介绍了如何优雅地使用bert处理长文本。作者同时开源

2020-12-26 09:17:27

8296

如何提高事件检测(ED)模型的鲁棒性和泛化能力？

论文中指出，以往关于ED的工作都是考虑如何提升模型的性能，而较少考虑模型的鲁棒性和泛化能力，作者将模型的鲁棒性和泛化能力定义为如下三条，并通过设计模型进行研究：抗攻击性能:当训练数据中被加入扰动

2020-12-31 10:21:13

2997

传统企业中台数字化转型需要提升哪些方面的基本能力呢？

传统企业在技术能力、组织架构和商业模式等方面与阿里巴巴存在非常大的差异，在实施中台战略时是否可以照搬阿里巴巴中台建设模式？传统企业中台数字化转型需要提升哪些方面的基本能力呢？

2021-01-05 17:10:24

4653

给KUKA-C4机器人导入长文本方法

2021-02-09 13:49:00

1600

KUKA-C4机器人如何导出/导入长文本

如果已经分配输入 / 输出端、标志位或名称，则可以将这些名称（所谓的 “长文本 ”）导出到一个文件中。

2021-03-10 10:44:41

3269

结合BERT模型的中文文本分类算法

针对现有中文短文夲分类算法通常存在特征稀疏、用词不规范和数据海量等问题，提出一种基于Transformer的双向编码器表示（BERT）的中文短文本分类算法，使用BERT预训练语言模型对短文本进行句子

2021-03-11 16:10:39

基于神经网络的中文文本蕴含识别模型

基于神经网络的文本蕴含识别模型通常仅从训练数据中学习推理知识，导致模型泛化能力较弱。提出种融合外部语义知识的中文知识增强推理模型（ CKEIM）。根据知网知识库的特点提取词级语义知识特征以构建注意力

2021-03-12 13:50:16

一种基于神经网络的短文本分类模型

针对短文本缺乏上下文信息导致的语义模糊冋题，构建一种融合知识图谱和注意力机制的神经网络模型。借助现有知识库获取短文本相关的概念集，以获得短文本相关先验知识，弥补短文本缺乏上下文信息的不足。将字符向量

2021-03-12 14:07:47

FAT32长文件名解析

接着我们来看看FAT32 文件系统特有的长文件名。结构如下图：为研究方便，先在我的1G的u盘建一个长文件名的文本文件。

2021-03-18 17:35:18

基于图集成模型的自动摘要生产方法

现有长文本自动摘要生成方法存在句子特征单一化和无法全面衡量句子相似特征的问题，导致摘要生成的准确率降低。为此，提岀一种基于图集成模型的自动摘要生成方法。在计算得到文本句子词频、语义和句法特征后，利用

2021-03-22 14:40:16

基于BP神经网络分类器的垃圾文本过滤模型

在网络社交平台海量的信息文本中含有许多垃圾文本，这些文本的广泛散布影响了人们正常社交。为此提出一种垃圾文本过滤模型。通过BERT模型提取文本的句编码，采用B- Feature方法对句编码进行特征构造

2021-03-27 10:39:01

一种基于BERT模型的社交电商文本分类算法

基于BERT模型的社交电商文本分类算法。首先，该算法采用BERT（ Bidirectional Encoder Representations from Transformers）预训练语言模型来完成社交电商文本的句子层面的特征向量表示，随后有针对性地将获得的特征向量输入分类器进行分类，最后采

2021-04-13 15:14:21

融合文本分类和摘要的多任务学习摘要模型

质量，使用K- means聚类算法构建 Cluster-2、 Cluster-10和 Cluster-20文本分类数据集训练分类器，并研究不同分类数据集参与训练对摘要模型的性能影响，同时利用基于统计分布的判别法全面评价摘要准确性。在CNNDM测试集上的实验结果表明，

2021-04-27 16:18:58

公交车停靠站的快速路出口通行能力模型

论，建立两种情况下的快速路岀口通行能力模型，通过仿真对模型进行验证。结果表眀：模型具有较高的精度和可靠型;随着公交车到达率的増大，公交停靠站设置在岀口上游时岀口通行能力下降更显著;当公交车到达率低于240辆/h时，泊位

2021-05-07 16:22:06

基于词嵌入与神经网络的文本匹配模型

为增强文本匹配模型的文本语义捕捉能力并提高语义匹配准确度，提出一种基于词嵌人与依存关系的文本匹配模型。构建融合词语义和词间依存关系的语义表示，通过余弦均值卷积和K-Maκ池化操作获得描述两段文本

2021-06-09 16:28:55

基于LSTM的表示学习-文本分类模型

分类的关键。为了获得妤的文本表示，提高文本分类性能，构建了基于LSTM的表示学习-文本分类模型，其中表示学习模型利用语言模型为文本分类模型提供初始化的文本表示和网络参数。文中主要采用对抗训练方法训练语言模型，即在词向量

2021-06-15 16:17:17

基于评分矩阵与评论文本的深度学习模型

2021-06-24 11:20:30

基于深度学习的文本主题模型研究综述

2021-06-24 11:49:18

文本挖掘之概率主题模型综述

2021-06-24 14:16:54

基于注意力机制的新闻文本分类模型

2021-06-27 15:32:32

基于WordNet模型的迁移学习文本特征对齐算法

2021-06-27 16:14:43

如何快速了解天线匹配

2021-09-23 11:57:06

受控文本生成模型的一般架构及故事生成任务等方面的具体应用

来自：哈工大讯飞联合实验室本期导读：本文是对受控文本生成任务的一个简单的介绍。首先，本文介绍了受控文本生成模型的一般架构，点明了受控文本生成模型的特点。然后，本文介绍了受控文本生成技术在故事生成

2021-10-13 09:46:39

3033

KUKA-C4机器人导出/导入长文本

从长文本导出中生成的文件，已自动具有相应结构，确保其可被重新导入。如果应手动将名称写入一个文件，则建议首先在机器人控制系统中分配几个虚拟长文本，然后导出并将名称写入文件。

2022-07-26 15:55:37

2049

快速了解文本语义相似度领域的研究脉络和进展

文本表示：当数据被预处理完成后，就可以送入模型了。在文本相似度任务中，需要有一个模块用于对文本的向量化表示，从而为下一步相似度比较做准备。这个部分一般会选用一些 backbone 模型，如 LSTM，BERT 等。

2022-08-16 10:04:55

609

Taskflow API之三大特性

文档级输入：支持文档级输入，解决预训练模型对输入文本的长度限制问题，大大节省用户输入长文本时的代码开发量。

2022-09-20 16:36:58

1313

给一个文本提示就能生成3D模型！

想要直接训练一个text-to-3D的模型非常困难，因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对，但三维合成并不存在如此大规模的标注数据，也没有一个高效的模型架构对3D数据进行降噪。

2022-10-19 14:51:16

697

基于文本驱动的三维模型风格化方法

来自华南理工大学、香港理工大学、跨维智能、鹏城实验室等机构的研究团队提出了一种基于文本驱动的三维模型风格化方法，该方法可对输入的三维模型根据文本进行更具真实性和鲁棒性的风格化。

2022-10-31 16:56:43

699

摘要模型理解或捕获输入文本的要点

输入文本的要点；（2）模型过度依赖语言模型，生成流畅但不充分的单词。在本文研究中，提出了一个忠实增强摘要模型（FES），旨在解决这两个问题，提高抽象摘要的忠实度。对于第一个问题，本文使用问答（QA）来检查编码器是否完全掌握输入文档，并

2022-11-01 11:37:57

692

一种「个性化」的文本到图像扩散模型 DreamBooth

一些大型文本到图像模型基于用自然语言编写的文本提示（prompt）实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验，例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。

2022-11-14 15:11:22

1027

基于VQVAE的长文本生成利用离散code来建模文本篇章结构的方法

等，其输入信息有限，而要求输出内容丰富，经常需要生成多个句子或段落，在这些任务上预训练语言模型依然存在连贯性较差、缺乏常识等问题。本次与大家分享一篇建模长文本篇章结构的工作，用以提升生成文本的连贯性。论文题目《DISCODVT: Generating L

2022-12-01 17:07:49

1101

百度文心一言背后的大模型实力如何？文心一言背后的它全面领先

文心大模型在市场格局中处于第一梯队，产品能力、生态能力、应用能力全面领先，受到行业广泛认可。简单来说，文心大模型能为即将发布的生成式对话产品文心一言提供强大的技术支持。作为基于百度智能云技术打造出来的大模型，文心一言未

2023-03-04 14:26:04

2077

ELMER: 高效强大的非自回归预训练文本生成模型

每个单词都依赖于输入文本与之前生成的单词。自回归生成模型只建模了前向的单词依赖关系，依次生成的结构也使得自回归模型难以并行化。目前大部分预训练生成模型均采用自回归方式，包括GPT-2，BART，T5等模型。

2023-03-13 10:39:59

910

GTC 2023主题直播：NVIDIA Nemo构建定制的语言文本转文本

NVIDIA Nemo用于构建定制的语言文本转文本，客户可以引入自己的模型，或从Nemo涵盖了GPT-8、GPT-43到GPT-530等数十亿参数的从创建专有模型到运营，NVIDIA AI专家将全程与您合作。

2023-03-22 11:22:25

497

KUKA-C4机器人导出/导入长文本

如果已经分配输入 / 输出端、标志位或名称，则可以将这些名称（所谓的 “长文本 ”）导出到一个文件中。同样也可以导入具有长文本名称的文件。用这个方法，重新安装之后就不必在每台机器人上手动输入长字段文字。

2023-04-10 14:22:08

739

NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

vivo AI 团队与 NVIDIA 团队合作，通过算子优化，提升 vivo 文本预训练大模型的训练速度。在实际应用中，训练提速 60% ，满足了下游业务应用对模型训练速度的要求。通过

2023-05-26 07:15:03

422

ETH提出RecurrentGPT实现交互式超长文本生成

RecurrentGPT 则另辟蹊径，是利用大语言模型进行交互式长文本生成的首个成功实践。它利用 ChatGPT 等大语言模型理解自然语言指令的能力，通过自然语言模拟了循环神经网络（RNNs）的循环计算机制。

2023-05-29 14:34:43

573

Meta开源文本如何生成音乐大模型

年初，谷歌推出了音乐生成大模型 MusicLM，效果非常不错。有人称这比大火的 ChatGPT 还重要，几乎解决了音乐生成问题。近日，Meta 也推出了自己的文本音乐生成模型 MusicGen，并且

2023-06-12 15:11:25

493

基于文本到图像模型的可控文本到视频生成

1. 论文信息 2. 引言大规模扩散模型在文本到图像合成方面取得了巨大的突破，并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功，即在野外世界建模高维复杂视频分布。然而，训练这样

2023-06-14 10:39:14

536

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型也包括

2023-06-15 16:36:11

277

达观曹植大模型正式对外公测！专注于长文本、多语言、垂直化发展

处理工程实践经验，已开发出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。7月伊始，达观正式对外发布“曹植”大语言模型应用公测版，可在达观数据官网申请试用！申请通道与规则 1 申请通道公司官网申请通道

2023-07-12 15:04:01

552

对话文本数据是培养大模型的智能与交流之源

对话文本数据，作为人类交流的生动表现，正成为训练大型模型的宝贵资源。这些数据不仅蕴含了丰富的语言特点和人类交流方式，更在模型训练中发挥着重要的意义，从而为其赋予更强大的智能和更自然的交流能力。大型模型

2023-08-14 10:11:11

368

对话文本数据的珍贵贡献：训练大模型赋予智能与情感理解

在当今信息爆炸的时代，对话文本数据正成为塑造人工智能大模型的重要基石，为这些模型注入智能和情感理解的能力。这些数据不仅在培养模型的语言表达能力方面起到关键作用，更为其赋予了人类交流的深度和多样性

2023-08-14 10:09:37

355

大型模型的重要基石与洞察力之源之文本数据

在当今数字化时代，文本数据已成为人类活动的主要载体，无处不在的信息交流塑造着我们的社会、经济和文化。而正是这些海量的文本数据，为大型模型的训练和应用提供了丰富的资源，成为其重要的基石与洞察力之源

2023-08-14 10:06:23

328

Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

今天，Meta发布了Code Llama，一款可以使用文本提示生成代码的大型语言模型（LLM）。

2023-08-25 09:06:57

885

港中文贾佳亚团队联手MIT发布超长文本扩展技术，打破LLM遗忘魔咒

它代表着业界对长文本大语言模型的重新思考和关注，有效扩展了大语言模型的上下文窗口，允许模型考虑和处理较长的文本序列，是大语言模型的革新性发明。

2023-10-18 15:54:53

281

李开复4个多月后“放大招”：对标OpenAI、谷歌，发布“全球最强”开源大模型

在语言模型中，上下文窗口是大模型综合运算能力的金指标之一，对于理解和生成与特定上下文相关的文本至关重要，拥有更长窗口的语言模型可以处理更丰富的知识库信息，生成更连贯、准确的文本。

2023-11-06 15:47:40

285

Long-Context下LLM模型架构全面介绍

的限制:当前许多LLM受资源限制，主要是在较短的文本上进行预训练，使它们对现实世界中常见的较长的上下文提示不太有效。本文对基于Transformer的LLM模型架构的进展进行了全面的介绍。

2023-11-27 17:37:36

440

浪潮信息发布源2.0基础大模型，千亿参数全面开源

11月27日，浪潮信息发布"源2.0"基础大模型，并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型，在编程、推理、逻辑等方面展示出了先进的能力。

2023-11-28 09:10:14

417

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

2023-12-28 11:19:52

361

商汤科技发布新版日日新·商量大语言模型

商汤科技近日发布了新版的日日新·商量大语言模型-通用版本（SenseChat V4）。这一版本的模型在知识理解、阅读理解、综合推理、数理、代码和长文本理解等领域的通用能力得到了显著提升。

2024-02-04 10:30:41

426

商汤日日新SensNova 4.0发布

商汤科技“日日新SenseNova 4.0”正式发布，标志着大模型体系的一次重大飞跃。该模型在知识覆盖、推理能力、长文本理解、数字推理以及代码生成等多个维度上实现了全面升级。

2024-02-05 10:29:50

447

亚马逊发布史上最大文本转语音模型BASE TTS

亚马逊的人工智能研究团队近日宣布，他们成功开发出了迄今为止规模最大的文本转语音模型——BASE TTS。这款新模型拥有高达9.8亿个参数，不仅在规模上超越了之前的所有版本，还在能力上实现了质的飞跃。

2024-02-20 17:04:21

336

已全部加载完成

搜索历史

快速全面了解大模型长文本能力

评论