搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

深度学习自然语言处理

关注

文章：836 被阅读：170.9w 粉丝数：40 关注数：0 点赞数：5

最新研究综述——探索基础模型中的“幻觉”现象

这种“幻觉”现象可能是无意中产生的，它可以由多种因素导致，包括训练数据集中存在的偏见、模型不能获取最....

的头像

深度学习自然语言处理发表于 09-22 16:57 •344次阅读

TextBind：在开放世界中多轮交织的多模态指令跟随

语言模型能够执行各种任务，包括根据一组图像创作引人入胜的故事，比较多个图像中的共同和不同之处，用生动....

的头像

深度学习自然语言处理发表于 09-19 16:53 •217次阅读

Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调

使用领域适应技术对预训练LLM进行微调可以提高在特定领域任务上的性能。但是，进行完全微调可能会很昂贵....

的头像

深度学习自然语言处理发表于 09-19 16:33 •319次阅读

Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调

从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM

要理解大语言模型（LLM），首先要理解它的本质，无论预训练、微调还是在推理阶段，核心都是next t....

的头像

深度学习自然语言处理发表于 09-19 16:25 •645次阅读

从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM

百川的大模型KnowHow介绍

大模型是一个实验工程，涉及数据清洗、底层框架、算法策略等多个工序，每个环节都有很多坑，因此知道如何避....

的头像

深度学习自然语言处理发表于 09-18 10:28 •828次阅读

字节跳动李航：AI for Science的一些探索和进展

ByteDance Research 也在进行 AI for Science 的研究，包括机器学习与....

的头像

深度学习自然语言处理发表于 09-12 16:32 •369次阅读

字节跳动李航：AI for Science的一些探索和进展

开源大模型FLM-101B：训练成本最低的超100B参数大模型

近期，一支来自中国的研究团队正是针对这些问题提出了解决方案，他们推出了FLM-101B模型及其配套的....

的头像

深度学习自然语言处理发表于 09-12 16:30 •993次阅读

开源大模型FLM-101B：训练成本最低的超100B参数大模型

如何更好地继续预训练（Continue PreTraining）

但，这种前提是「充分训练」，如果只看训练前期的话，使用更长的预热步数（黄色的线）。无论是「上游任务」....

的头像

深度学习自然语言处理发表于 09-11 16:28 •453次阅读

如何更好地继续预训练（Continue PreTraining）

基于多模态学习的虚假新闻检测研究

目前，单流架构模型在视频分类、情感分析、图像生成等多模态领域中得以广泛应用，单流模型具有结构简单、容....

的头像

深度学习自然语言处理发表于 09-11 16:26 •1203次阅读

基于多模态学习的虚假新闻检测研究

LLaMA微调显存需求减半，清华提出4比特优化器

从 GPT-3，Gopher 到 LLaMA，大模型有更好的性能已成为业界的共识。但相比之下，单个 ....

的头像

深度学习自然语言处理发表于 09-11 16:08 •261次阅读

LLaMA微调显存需求减半，清华提出4比特优化器

大模型外挂知识库优化-大模型辅助向量召回

用LLM根据用户query生成k个“假答案”。（大模型生成答案采用sample模式，保证生成的k个答....

的头像

深度学习自然语言处理发表于 09-08 16:50 •1193次阅读

大模型外挂知识库优化-大模型辅助向量召回

检索增强LLM的方案全面的介绍

OpenAI 研究科学家 Andrej Karpathy 前段时间在微软 Build 2023 大会....

的头像

深度学习自然语言处理发表于 09-08 16:39 •862次阅读

检索增强LLM的方案全面的介绍

RLAIF：一个不依赖人工的RLHF替代方案

如图所示，在RLAIF中，首先使用LLM来评估给定的文本和2个候选回复，然后，这些由LLM生成的偏好....

的头像

深度学习自然语言处理发表于 09-08 16:38 •508次阅读

RLAIF：一个不依赖人工的RLHF替代方案

YaRN：一种高效RoPE扩展方法，可推理更长上下文并达到SOTA

为了解决在插值RoPE嵌入时丢失高频信息的问题，[4]中开发了"NTK-aware"插值。与同样乘以....

的头像

深度学习自然语言处理发表于 09-07 16:36 •1711次阅读

斯坦福教授Manning长文梳理：十年后的基础模型能成AGI吗？

Transofrmer一个常见的自监督目标是遮罩文本中出现的单词，将该位置的query, key和v....

的头像

深度学习自然语言处理发表于 09-07 16:04 •228次阅读

斯坦福教授Manning长文梳理：十年后的基础模型能成AGI吗？

AI Agents的框架构成以及LLMs的基础知识

智能代理（AI Agents）长期以来都被视为通往人工通用智能（AGI）的一条希望途径，预期中其能够....

的头像

深度学习自然语言处理发表于 09-06 16:27 •1505次阅读

AI Agents的框架构成以及LLMs的基础知识

一个任务通用的的指令微调Embedder！

现有的文本嵌入表示方法在应用到新的任务或领域时，通常性能都会受损，甚至应用到相同任务的不同领域也会遇....

的头像

深度学习自然语言处理发表于 09-05 17:13 •576次阅读

一个任务通用的的指令微调Embedder！

十分钟读懂旋转编码（RoPE）

对于位置编码，常规的做法是在计算 query，key 和 value 向量之前，会计算一个位置编码向....

的头像

深度学习自然语言处理发表于 09-05 17:11 •13961次阅读

十分钟读懂旋转编码（RoPE）

大模型现存的10个问题和挑战

减轻幻觉问题并开发用于衡量幻觉的度量标准是一个蓬勃发展的研究课题。有许多初创公司专注于解决这个问题。....

的头像

深度学习自然语言处理发表于 09-05 17:05 •745次阅读

32k上下文可商用！羊驼进化成长颈鹿，“开源大模型之最”

首先团队发现，目前已有的长下文外推方法普遍都是通过修改注意力机制中使用的位置编码系统，指示token....

的头像

深度学习自然语言处理发表于 08-25 17:05 •554次阅读

32k上下文可商用！羊驼进化成长颈鹿，“开源大模型之最”

LoRA继任者ReLoRA登场，通过叠加多个低秩更新矩阵实现更高效大模型训练效果

虽然目前学术界和工业界都在不断推出自家的各种基座模型，但不可否认的是，完全预训练一个具有初等推理能力....

的头像

深度学习自然语言处理发表于 08-25 17:02 •671次阅读

LoRA继任者ReLoRA登场，通过叠加多个低秩更新矩阵实现更高效大模型训练效果

大模型分布式训练并行技术（一）-概述

数据并行是最常见的并行形式，因为它很简单。在数据并行训练中，数据集被分割成几个碎片，每个碎片被分配到....

的头像

深度学习自然语言处理发表于 08-24 15:17 •653次阅读

大模型分布式训练并行技术（一）-概述

BaiChuan13B多轮对话微调范例

答案是不会。原因是LLM作为语言模型，它的注意力机制是一个单向注意力机制(通过引入 Masked A....

的头像

深度学习自然语言处理发表于 08-24 14:59 •643次阅读

BaiChuan13B多轮对话微调范例

国内首个数学千亿大模型MathGPT上线开启公测

用户使用MathGPT时，用文字或图片方式上传数学题，即可得到对话式的解答反馈，也可以通过“随机来一....

的头像

深度学习自然语言处理发表于 08-24 14:55 •490次阅读

国内首个数学千亿大模型MathGPT上线开启公测

通过循环训练实现忠实的低资源数据文本生成

从结构化数据中自然语言生成（NLG）往往会产生多种错误，从而限制了这些模型在面向客户的应用中的实用性....

的头像

深度学习自然语言处理发表于 08-24 14:53 •265次阅读

通过循环训练实现忠实的低资源数据文本生成

大型语言模型与知识图谱：机遇与挑战

这对知识表示领域来说是一个巨大的步骤。长时间以来，人们关注的是明确的知识，例如嵌入在文本中的知识，有....

的头像

深度学习自然语言处理发表于 08-24 14:50 •425次阅读

大型语言模型与知识图谱：机遇与挑战

为什么要做AI研究器

OpenAI所选择的路径就是：「Turn compute into alignment」，通过计算的....

的头像

深度学习自然语言处理发表于 08-23 15:56 •356次阅读

关于Llama 2的一切资源，我们都帮你整理好了

Meta 发布的 Llama 2，是新的 SOTA 开源大型语言模型（LLM）。Llama 2 代表....

的头像

深度学习自然语言处理发表于 08-23 15:40 •750次阅读

中科大提出：LLMs的个性化综述，详述大模型与个性化的挑战与机遇

因此，我们认为现在是时候审视个性化服务的挑战以及用大型语言模型来解决它们的机会了。特别是，我们在这篇....

的头像

深度学习自然语言处理发表于 08-21 16:33 •553次阅读

中科大提出：LLMs的个性化综述，详述大模型与个性化的挑战与机遇

LLM大模型训练Trick系列之拒绝采样

这个方法之所以有效，是因为均匀分布帮助我们将Mq(x)提供的“封包”缩放到p(x)的概率密度函数。另....

的头像

深度学习自然语言处理发表于 08-21 15:07 •831次阅读

LLM大模型训练Trick系列之拒绝采样

上一页 1 2 345 6 7 8 9 10 11 28 下一页