0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解大型语言模型 (LLM) 领域中的25个关键术语

颖脉Imgtec 2024-05-10 08:27 次阅读

1. LLM(大语言模型)

大型语言模型 (LLMs) 是先进的人工智能系统,经过大量文本数据集的训练,可以理解和生成类似人类的文本。他们使用深度学习技术以上下文相关的方式处理和生成语言。OpenAI的GPT系列、Google的Gemini、Anthropic AI的Claude、Meta的Llama模型等LLMs的发展,标志着自然语言处理领域的重大进步。


2. 训练

训练是指通过将语言模型暴露于大型数据集来教导语言模型理解和生成文本。该模型学习预测序列中的下一个单词,并通过调整其内部参数随着时间的推移提高其准确性。这个过程是开发任何处理语言任务的人工智能的基础。


3. 微调

微调是在较小的特定数据集上进一步训练(或调整)预训练语言模型以专门针对特定领域或任务的过程。这使得模型能够更好地执行原始训练数据中未广泛涵盖的任务。


4. 参数

神经网络(包括LLMs)的背景下,参数是从训练数据中学习的模型架构的可变部分。参数(如神经网络中的权重)在训练期间进行调整,以减少预测输出和实际输出之间的差异。


5. 矢量

机器学习中,向量是以算法可以处理的格式表示数据的数字数组。在语言模型中,单词或短语被转换为向量,通常称为嵌入,它捕获模型可以理解和操作的语义。


6. 嵌入

嵌入是文本的密集向量表示,其中熟悉的单词在向量空间中具有相似的表示。这项技术有助于捕获单词之间的上下文和语义相似性,这对于机器翻译和文本摘要等任务至关重要。


7. 标记化标记化是将文本分割成多个片段,称为标记,可以是单词、子词或字符。这是使用语言模型处理文本之前的初步步骤,因为它有助于处理各种文本结构和语言。


8. Transformer

Transformer 是神经网络架构,它依赖于自注意力机制来不同地权衡输入数据不同部分的影响。这种架构对于许多自然语言处理任务非常有效,并且是大多数现代 LLMs 的核心。


9. 注意力机制

神经网络中的注意力机制使模型能够在生成响应的同时专注于输入序列的不同部分,反映了人类注意力在阅读或听力等活动中的运作方式。这种能力对于理解上下文和产生连贯的响应至关重要。


10. 推理

推理是指使用经过训练的模型进行预测。在 LLMs 的上下文中,推理是指模型使用在训练期间学到的知识基于输入数据生成文本。这是LLMs实现实际应用的阶段。


11. 温度

在语言模型采样中,温度是一个超参数,它通过在应用 softmax 之前缩放 logits 来控制预测的随机性。较高的温度会产生更多的随机输出,而较低的温度会使模型的输出更具确定性。


12. 频率参数

语言模型中的频率参数根据标记的出现频率来调整标记的可能性。该参数有助于平衡常见词和稀有词的生成,影响模型在文本生成中的多样性和准确性。


13. 取样

语言模型上下文中的采样是指根据概率分布随机选择下一个单词来生成文本。这种方法允许模型生成各种且通常更具创意的文本输出。


14. Top-k 采样

Top-k 采样是一种技术,其中模型对下一个单词的选择仅限于根据模型的预测的 k 个最可能的下一个单词。此方法减少了文本生成的随机性,同时仍然允许输出的可变性。


15. RLHF(人类反馈强化学习)

根据人类反馈进行强化学习是一种根据人类反馈而不仅仅是原始数据对模型进行微调的技术。这种方法使模型的输出与人类的价值观和偏好保持一致,从而显着提高其实际有效性。


16. 解码策略

解码策略决定了语言模型在生成过程中如何选择输出序列。策略包括贪婪解码(在每一步中选择最有可能的下一个单词)和波束搜索(通过同时考虑多种可能性来扩展贪婪解码)。这些策略显着影响输出的一致性和多样性。


17. 语言模型提示

语言模型提示涉及设计指导模型生成特定类型输出的输入(或提示)。有效的提示可以提高问题回答或内容生成等任务的表现,而无需进一步培训。


18. Transformer-XL

Transformer-XL 扩展了现有的 Transformer 架构,能够学习超出固定长度的依赖关系,而不会破坏时间一致性。这种架构对于涉及长文档或序列的任务至关重要。


19. 掩码语言建模(MLM)

掩码语言建模需要在训练期间屏蔽某些输入数据段,促使模型预测隐藏的单词。该方法构成了 BERT 等模型的基石,利用 MLM 来增强预训练效果。


20. 序列到序列模型(Seq2Seq)

Seq2Seq 模型旨在将序列从一个域转换为另一个域,例如将文本从一种语言翻译或将问题转换为答案。这些模型通常涉及编码器和解码器。


21. 生成式预训练变压器(GPT)

Generative Pre-trained Transformer 是指 OpenAI 设计的一系列语言处理 AI 模型。GPT 模型使用无监督学习进行训练,根据输入生成类似人类的文本。


22. 困惑度

困惑度衡量概率模型对给定样本的预测准确性。在语言模型中,困惑度的降低表明测试数据的预测能力更强,通常与更流畅、更精确的文本生成相关。


23. 多头注意力

多头注意力是 Transformer 模型中的一个组件,使模型能够同时关注不同位置的各种表示子空间。这增强了模型动态关注相关信息的能力。


24. 上下文嵌入

上下文嵌入是考虑单词出现的上下文的单词表示。与传统的嵌入不同,这些嵌入是动态的,并根据周围的文本而变化,提供更丰富的语义理解。


25. 自回归模型

语言建模中的自回归模型根据序列中先前的单词来预测后续单词。这种方法是 GPT 等模型的基础,其中每个输出单词都成为下一个输入,从而促进连贯的长文本生成。

来源:自由坦荡的湖泊AI、海豚实验室

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1780

    文章

    44560

    浏览量

    231326
  • 语言模型
    +关注

    关注

    0

    文章

    461

    浏览量

    10104
  • LLM
    LLM
    +关注

    关注

    0

    文章

    216

    浏览量

    243
收藏 人收藏

    评论

    相关推荐

    苹果将使用自研大型语言模型Ajax优化iOS 18

    在科技界的瞩目下,苹果再次展示了其在人工智能领域的深厚实力。近日,苹果宣布将使用自研的大型语言模型LLM)Ajax来优化即将发布的iOS
    的头像 发表于 05-10 11:20 268次阅读

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    《大语言模型》是一本深入探讨人工智能领域中语言模型的著作。作者通过对语言
    发表于 04-30 15:35

    Claude-3力压GPT-4荣膺最佳大语言模型

    前,这家机构推出了一项名为Chatbot Arena的服务,这是针对大语言模型LLM)进行评估的基准平台,该平台采用众包形式对大型语言
    的头像 发表于 03-28 15:23 142次阅读

    语言模型推断中的批处理效应

    随着开源预训练大型语言模型(Large Language Model, LLM )变得更加强大和开放,越来越多的开发者将大语言
    的头像 发表于 01-04 12:32 319次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推断中的批处理效应

    2023年大语言模型(LLM)全面调研:原理、进展、领跑者、挑战、趋势

    大型语言模型(LLM)是基于人工智能的先进模型,经过训练,它可以密切反映人类自然交流的方式处理和生成人类
    的头像 发表于 01-03 16:05 595次阅读
    2023年大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)全面调研:原理、进展、领跑者、挑战、趋势

    物联网领域关键术语

    物联网领域有许多关键术语和缩写词。我列出了一些常见术语。由于物联网的范围极广,因此我无法在本帖中列出所有术语。请在此列表中添加任何可能对他人
    的头像 发表于 12-28 09:40 361次阅读

    怎样使用Accelerate库在多GPU上进行LLM推理呢?

    大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些
    的头像 发表于 12-01 10:24 800次阅读
    怎样使用Accelerate库在多GPU上进行<b class='flag-5'>LLM</b>推理呢?

    Long-Context下LLM模型架构全面介绍

    随着ChatGPT的快速发展,基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同
    的头像 发表于 11-27 17:37 606次阅读
    Long-Context下<b class='flag-5'>LLM</b><b class='flag-5'>模型</b>架构全面介绍

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型LLM)。
    的头像 发表于 08-25 09:06 1029次阅读
    Meta发布一款可以使用文本提示生成代码的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>Code Llama

    大型语言模型关键任务和实际应用中的挑战

    大型语言模型的出现极大地推动了自然语言处理领域的进步,但同时也存在一些局限性,比如模型可能会产生
    的头像 发表于 08-15 09:33 1183次阅读
    <b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>在<b class='flag-5'>关键</b>任务和实际应用中的挑战

    2023年发布的25个开源大型语言模型总结

    大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的
    的头像 发表于 08-01 00:21 668次阅读
    2023年发布的<b class='flag-5'>25</b>个开源<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>总结

    2023年发布的25个开源大型语言模型总结

    来源: DeepHub IMBA 大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译
    的头像 发表于 07-28 12:20 492次阅读
    2023年发布的<b class='flag-5'>25</b>个开源<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>总结

    大型语言模型的应用

       大型语言模型LLM) 是一种深度学习算法,可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言
    的头像 发表于 07-05 10:27 1697次阅读

    基于Transformer的大型语言模型LLM)的内部机制

    本文旨在更好地理解基于 Transformer 的大型语言模型LLM)的内部机制,以提高它们的可靠性和可解释性。 随着大型
    的头像 发表于 06-25 15:08 1096次阅读
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的内部机制

    大型语言模型LLM)的自定义训练:包含代码示例的详细指南

    近年来,像 GPT-4 这样的大型语言模型LLM) 因其在自然语言理解和生成方面的惊人能力而受到广泛关注。但是,要根据特定任务或
    发表于 06-12 09:35 2005次阅读