0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA AI Foundation Models:使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

NVIDIA英伟达企业解决方案 来源:未知 2023-11-17 21:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZomVXbTKAGJfHAAW1azkbVqE901.png

大语言模型(LLM)正在彻底变革数据科学,带来自然语言理解、AI机器学习的高级功能。为洞悉特定领域而定制的自定义 LLM 在企业应用中越来越受到青睐。

NVIDIA Nemotron-3 8B系列基础模型是一套功能强大的全新工具,可用于为企业构建生产就绪生成式 AI 应用,从而推动从客服 AI 聊天机器人到尖端 AI 产品的各种创新。

这些新的基础模型现已加入NVIDIA NeMo。这个端到端框架用于构建、自定义和部署专为企业定制的 LLM。企业现在可以使用这些工具快速且经济高效地大规模开发 AI 应用。这些应用可在云端、数据中心以及 Windows PC 和笔记本电脑上运行。

Nemotron-3 8B 系列现已在 Azure AI Model 目录、HuggingFace 和NVIDIA NGC 目录上的NVIDIA AI Foundation Model中心提供。该系列包含基本模型、聊天模型和问答(Q&A)模型,可解决各种下游任务。表 1 列出了该系列的所有模型。

wKgZomVXbTKAaCMEAAD20aBXqnc614.jpg

表 1. Nemotron-3 8B 系列基础模型支持多种 LLM 用例

设计用于生产的基础模型

基础模型是强大的构建模块,它减少了构建实用的自定义应用所需的时间和资源。然而,企业机构必须确保这些模型符合其具体需求。

NVIDIA AI Foundation Models 基于来源可靠的数据集训练而成,集合了无数声音和体验。严格监控确保了数据的真实性,并符合不断变化发展的法律规定。任何出现的数据问题都会迅速得到解决,确保企业的 AI 应用既符合法律规范,又能保护用户隐私。这些模型既能吸收公开数据集,也能兼容专有数据集。

Nemotron-3-8B 基本模型

Nemotron-3-8B 基本模型是一种用于生成类人文本或代码的紧凑型高性能模型。该模型的 MMLU 5 样本平均值为 54.4。该基本模型还精通 53 种语言,包括英语、德语、俄语、西班牙语、法语、日语、中文、意大利语和荷兰语,因此能满足跨国企业对多语言能力的需求。该基本模型还经过 37 种不同编码语言的训练。

Nemotron-3-8B 聊天模型

该套件还添加了 Nemotron-3-8B 聊天模型,用于 LLM 驱动的聊天机器人交互。Nemotron-3-8B 聊天模型有三个版本,每个版本均针对特定用户的独特调整而设计:

  • 监督微调(SFT)

  • 人类反馈强化学习(RLHF)

  • NVIDIA SteerLM(https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/

Nemotron-3-8B-SFT 模型是指令微调的第一步,我们在此基础上建立了 RLHF 模型,该模型是 8B 类别中 MT-Bench 分数最高的模型(MT-Bench 是最常用的聊天质量指标)。用户可以从使用 8B-chat-RLHF 开始,以获得最佳的即时聊天互动效果。但对于希望与最终用户的偏好保持一致的企业,可以在使用 SFT 模型的同时,应用自己的 RLHF。

最后,最新的对齐方法 SteerLM 为训练和自定义推理 LLM 提供了新的灵活性。借助 SteerLM,用户可以定义其所需的所有属性,并将其嵌入单个模型中,然后就可以在该模型运行时为特定用例选择其所需的组合。

这种方法支持持续的改进周期。自定义模型响应可以作为未来训练的数据,从而将模型的实用性提升到新的水平。

Nemotron-3-8B 问答模型

Nemotron-3-8B-QA 模型是一个问答(QA)模型,该模型在大量数据基础上针对目标用例进行微调。

Nemotron-3-8B-QA 模型的性能一流,在 Natural Questions 数据集(https://ai.google.com/research/NaturalQuestions/)上实现了 41.99% 的零样本 F1 分数。该指标用于衡量生成的答案与问答中真实答案的相似程度。

Nemotron-3-8B-QA 模型已与其他参数规模更大的先进语言模型进行了对比测试。测试是在 NVIDIA 创建的数据集以及 Natural Questions 和 Doc2Dial 数据集上进行的。结果表明,该模型具有良好的性能。

使用 NVIDIA NeMo 框架

构建自定义 LLM

NVIDIA NeMo 通过为多种模型架构提供端到端功能和容器化方案,简化了构建自定义企业生成式 AI 模型的路径。借助 Nemotron-3-8B 系列模型,开发者就可以使用 NVIDIA 提供的预训练模型,这些模型可以轻松适应特定用例。

快速模型部署

使用 NeMo 框架时,无需收集数据或设置基础架构。NeMo 精简了这一过程。开发者可以自定义现有模型,并将其快速部署到生产中。

最佳模型性能

此外,它还与NVIDIA TensorRT-LLM开源库和NVIDIA Triton 推理服务器无缝集成,前者可优化模型性能,后者可加速推理服务流程。这种工具组合实现了最先进的准确性、低延迟和高吞吐量。

数据隐私和安全

NeMo 可实现安全、高效的大规模部署,并符合相关安全法规规定。例如,如果数据隐私是业务的关键问题,就可以使用NeMo Guardrails在不影响性能或可靠性的情况下安全存储客户数据。

总之,使用 NeMo 框架构建自定义 LLM 是在不牺牲质量或安全标准的情况下、快速创建企业 AI 应用的有效方法。它为开发者提供了自定义灵活性,同时提供了大规模快速部署所需的强大工具。

开始使用 Nemotron-3-8B

您可以使用 NeMo 框架在 Nemotron-3-8B 模型上轻松运行推理,该框架充分利用 TensorRT-LLM 开源库,可在NVIDIA GPU上为高效和轻松的 LLM 推理提供高级优化。它内置了对各种优化技术的支持,包括:

  • KV caching

  • Efficient Attention modules (including MQA, GQA, and Paged Attention)

  • In-flight (or continuous) batching

  • 支持低精度(INT8/FP8)量化以及其他优化

NeMo 框架推理容器包含在 NeMo 模型(如 Nemotron-3-8B 系列)上应用 TensorRT-LLM 优化所需的所有脚本和依赖项,并将它们托管在 Triton 推理服务器上。部署完成后,它可以开放一个端点,供您发送推理查询。

在 Azure ML 上的部署步骤

Nemotron-3-8B 系列模型可在 Azure ML 模型目录中获得,以便部署到 Azure ML 管理的端点中。AzureML 提供了易于使用的“无代码部署”流程,使部署 Nemotron-3-8B 系列模型变得非常容易。该平台已集成了作为 NeMo 框架推理容器的底层管道。

wKgZomVXbTKAFSStAACR2QTk7WA932.png

图 1. 在 Azure ML 中选择实时端点

如要在 Azure ML 上部署 NVIDIA 基础模型并进行推理,请按照以下步骤操作:

  1. 登录 Azure 账户:https://portal.azure.com/#home

  2. 导航至 Azure ML 机器学习工作室

  3. 选择您的工作区,并导航至模型目录

NVIDIA AI Foundation 模型可在 Azure 上进行微调、评估和部署,还可以在 Azure ML 中使用 NeMo 训练框架对这些模型进行自定义。NeMo 框架由训练和推理容器组成,已集成在 AzureML 中。

如要微调基本模型,请选择您喜欢的模型变体,单击“微调”,填写任务类型、自定义训练数据、训练和验证分割以及计算集群等参数。

如要部署该模型,请选择您喜欢的模型变体,单击“实时端点”,选择实例、端点和其他用于自定义部署的参数。单击“部署”,将推理模型部署到端点。

Azure CLI 和 SDK 支持也可用于在 Azure ML 上运行微调作业和部署。详细信息请参见“Azure ML 中的 Foundation Models”文档。

在本地或其他云上的部署步骤

Nemotron-3-8B 系列模型具有独特的推理请求提示模板,建议将其作为最佳实践。但由于它们共享相同的基本架构,因此其部署说明很相似。

有关使用 NeMo 框架推理容器的最新部署说明,参见:https://registry.ngc.nvidia.com/orgs/ea-bignlp/teams/ga-participants/containers/nemofw-inference

为了演示,让我们部署 Nemotron-3-8B-Base-4k。

1. 登录 NGC 目录,获取推理容器。

# log in to your NGC organization
docker login nvcr.io


# Fetch the NeMo framework inference container
docker pull nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10

2. 下载 Nemotron-3-8B-Base-4k 模型。8B 系列模型可在 NGC 目录和 Hugging Face 上获得,您可以选择其中一个下载模型。

NVIDIA NGC

从 NGC 下载模型最简单的方法是使用 CLI。如果您没有安装 NGC CLI,请按照入门指南(https://docs.ngc.nvidia.com/cli/cmd.html#getting-started-with-the-ngc-cli)进行安装和配置。

# Downloading using CLI. The model path can be obtained from it’s page on NGC
ngc registry model download-version "dztrnjtldi02/nemotron-3-8b-base-4k:1.0"

Hugging Face Hub

以下指令使用的是 git-lfs,您也可以使用 Hugging Face 支持的任何方法下载模型。

git lfs install
git clone https://huggingface.co/nvidia/nemotron-3-8b-base-4knemotron-3-8b-base-4k_v1.0

3.在交互模式下运行 NeMo 推理容器,安装相关路径

# Create a folder to cache the built TRT engines. This is recommended so they don’t have to be built on every deployment call. 
mkdir -p trt-cache


# Run the container, mounting the checkpoint and the cache directory
docker run --rm --net=host 
                     --gpus=all 
                     -v $(pwd)/nemotron-3-8b-base-4k_v1.0:/opt/checkpoints/  
                     -v $(pwd)/trt-cache:/trt-cache  
                     -w /opt/NeMo 
                     -it nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10 bash

4. 在 Triton 推理服务器上使用 TensorRT-LLM 后端转换并部署该模型。

python scripts/deploy/deploy_triton.py 
                     --nemo_checkpoint /opt/checkpoints/Nemotron-3-8B-Base-4k.nemo 
                     --model_type="gptnext" 
                     --triton_model_name Nemotron-3-8B-4K 
                     --triton_model_repository /trt-cache/ 
                     --max_input_len 3000 
                     --max_output_len 1000 
                     --max_batch_size 2

当该指令成功完成后,就会显示一个可以查询的端点。让我们来看看如何做到这一点。

运行推理的步骤

有几种运行推理的方法可供选择,取决于您希望如何集成该服务:

1. 使用 NeMo 框架推理容器中的 NeMo 客户端 API

2. 使用 PyTriton 在您的环境中创建一个客户端应用

3. 鉴于所部署的服务会开放一个 HTTP 端点,使用任何可以发送 HTTP 请求的程序资源库/工具。

选项 1(使用 NeMo 客户端 API)的示例如下。您可以在同一台设备上的 NeMo 框架推理容器中使用,也可以在能访问服务 IP 和端口的不同设备上使用。

from nemo.deploy import NemoQuery


# In this case, we run inference on the same machine
nq = NemoQuery(url="localhost:8000", model_name="Nemotron-3-8B-4K")


output = nq.query_llm(prompts=["The meaning of life is"], max_output_token=200, top_k=1, top_p=0.0, temperature=0.1)
print(output)

其他选项示例可以在该推理容器的 README 中找到。

8B 系列模型指令

NVIDIA Nemotron-3-8B 系列中的模型:所有 NVIDIA Nemotron-3-8B 数据集共享预训练基础,但用于调优聊天(SFT、RLHF、SteerLM)和问答模型的数据集是根据其特定目的自定义的。此外,构建上述模型还采用了不同的训练技术,因此这些模型在使用与训练模板相似的定制指令时最为有效。

这些模型的推荐指令模板位于各自的模型卡上。

例如,以下是适用于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型的单轮和多轮格式:

wKgZomVXbTKAd9-9AAD-epn1CLM582.jpg

指令和回复字段与输入内容相对应。下面是一个使用单轮模板设置输入格式的示例。

PROMPT_TEMPLATE = """System
{system}
User
{prompt}
Assistant
"""
system = ""
prompt = "Write a poem on NVIDIA in the style of Shakespeare"


prompt = PROMPT_TEMPLATE.format(prompt=prompt, system=system)
print(prompt)

注意对于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型,我们建议保持系统提示为空。

进一步训练和自定义

NVIDIA Nemotron-3-8B 模型系列适用于针对特定领域数据集的进一步定制。对此有几种选择,例如继续从检查点进行预训练、SFT 或高效参数微调、使用 RLHF 校准人类演示或使用 NVIDIA 全新 SteerLM 技术。

NeMo 框架训练容器提供了上述技术的易用脚本。我们还提供了各种工具,方便您进行数据整理、识别用于训练和推理的最佳超参数,以及在您选择的硬件(本地 DGX 云、支持 Kubernetes 的平台或云服务提供商)上运行 NeMo 框架的工具。

更多信息,参见 NeMo 框架用户指南(https://docs.nvidia.com/nemo-framework/user-guide/latest/index.html)或容器 README(https://registry.ngc.nvidia.com/orgs/ea-bignlp/containers/nemofw-training)。

Nemotron-3-8B 系列模型专为各种用例而设计,不仅在各种基准测试中表现出色,还支持多种语言。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会


原文标题:NVIDIA AI Foundation Models:使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4041

    浏览量

    97696

原文标题:NVIDIA AI Foundation Models:使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA推出面向语言、机器人和生物学的全新开源AI技术

    NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,为构建开源生态系统做出贡献,扩展 AI 的普及并推
    的头像 发表于 11-06 11:49 704次阅读

    NVIDIA RTX AI PC为AnythingLLM加速本地AI工作流

    大语言模型(LLM)基于包含数十亿个 Token 的数据集训练而来,能够生成高质量的内容。它们是众多最热门 AI 应用的核心支撑技术,包括聊天机器人智能助手、代码生成工具等。
    的头像 发表于 07-04 15:05 797次阅读

    HarmonyOS应用自定义键盘解决方案

    自定义键盘是一种替换系统默认键盘的解决方案,可实现键盘个性化交互。允许用户结合业务需求与操作习惯,对按键布局进行可视化重构、设置多功能组合键位,使输入更加便捷和舒适。在安全防护层面,自定义键盘可以
    的头像 发表于 06-05 14:19 1599次阅读

    小智 AI 聊天机器人 (XiaoZhi AI Chatbot)

    小智 AI 聊天机器人是一款基于开源硬件的智能对话设备,由开发者“虾哥”以 ​MIT 许可证发布,旨在帮助用户入门 AI 硬件开发,将大语言模型(L
    的头像 发表于 05-30 15:56 1.2w次阅读
    小智 <b class='flag-5'>AI</b> <b class='flag-5'>聊天机器人</b> (XiaoZhi <b class='flag-5'>AI</b> Chatbot)

    机器人领域领先企业利用NVIDIA技术实现工业AI

    包括 KUKA、西门子、Standard Bots、优傲机器人和 Vention 在内的行业领先企业,展示了由 NVIDIA 加速且可投入生产的工业自动化解决方案。
    的头像 发表于 05-20 16:10 807次阅读

    关于尝试基于dll方式自定义16*16点阵遇到的问题

    和.MDF文(放在了MODELS文件下) 同时dll文件也放在了MODELS文件下 然后我重新启动了proteus 但是再元件库中无法找到我自定义的元件请问我哪里出现了错误
    发表于 04-06 10:47

    英伟达GTC2025亮点:NVIDIA与行业领先存储企业共同推出面向AI时代的新型企业基础设施

    存储提供商构建搭载 AI 查询智能体的基础设施,利用 NVIDIA 计算、网络和软件,针对复杂查询进行推理并快速生成准确响应 NVIDIA
    的头像 发表于 03-21 09:42 1072次阅读

    NVIDIA 与行业领先的存储企业共同推出面向 AI 时代的新型企业基础设施

    3 月 18 日 —— NVIDIA 今日推出了 NVIDIA AI 数据平台 —— 一项可自定义的参考设计,领先的存储提供商可用来构建
    发表于 03-19 10:11 414次阅读
    <b class='flag-5'>NVIDIA</b> 与行业领先的存储<b class='flag-5'>企业</b>共同推出面向 <b class='flag-5'>AI</b> 时代的新型<b class='flag-5'>企业</b>基础设施

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    月 18 日 ——  NVIDIA 今日发布具有推理功能的开源 Llama Nemotron 模型系列,旨在为开发者和企业提供业务就绪基础,助力
    发表于 03-19 09:31 336次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放推理 <b class='flag-5'>AI</b> 模型系列,助力开发者和<b class='flag-5'>企业</b><b class='flag-5'>构建</b>代理式 <b class='flag-5'>AI</b> 平台

    马斯克DOGE团队开发政府AI聊天机器人

    近日,据媒体引述消息人士透露,全球首富马斯克旗下的政府效率部门(DOGE)正着手为美国联邦总务署(GSA)打造一款定制的生成式人工智能(GenAI)聊天机器人——GSAi。
    的头像 发表于 02-10 18:04 1025次阅读

    Altium Designer 15.0自定义元件设计

    电子发烧友网站提供《Altium Designer 15.0自定义元件设计.pdf》资料免费下载
    发表于 01-21 15:04 0次下载
    Altium Designer 15.0<b class='flag-5'>自定义</b>元件设计

    英伟达推出基石世界模型Cosmos,解决智机器人具身智能训练数据问题

    。Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。开发者还可以通过微调 Cosmos WFM 构建自定义模型。 为加速机器人和自动驾驶
    的头像 发表于 01-14 11:04 2106次阅读
    英伟达推出基石世界模型Cosmos,解决智<b class='flag-5'>驾</b>与<b class='flag-5'>机器人</b>具身<b class='flag-5'>智能</b>训练数据问题

    think-cell:自定义think-cell(四)

    C.5 设置默认议程幻灯片布局 think-cell 议程可以在演示文稿中使用特定的自定义布局来定义议程、位置和议程幻灯片上的其他形状,例如标题或图片。通过将此自定义布局添加到模板,您可以为整个组织
    的头像 发表于 01-13 10:37 886次阅读
    think-cell:<b class='flag-5'>自定义</b>think-cell(四)

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 1614次阅读

    Cloudera推出RAG Studio,助力企业快速部署聊天机器人

    企业在利用实时企业数据部署RAG聊天机器人方面迈出了重要一步,且整个过程仅需几分钟。 RAG Studio是一款无代码解决方案,它极大地简化了非技术用户使用AI应用的难度。通过这一平台
    的头像 发表于 12-12 11:06 1031次阅读