IBM 专家观点：IBM 大模型揭秘-电子发烧友网

作者：吴敏达，IBM 科技事业部数据与人工智能资深技术专家

作者简介：吴敏达是 The Open Group 卓越级技术专家 (Distinguished Technical Specialist)，同时拥有计算机技术与软件专业系统架构设计师技术资格。他现在是 IBM 科技事业部数据与人工智能资深技术专家，拥有 20 多年数据分析软件相关技术经验，是 IBM 认证的大数据架构师和 Watson 开发者，专长是大数据、人工智能等领域。他是 IBM Developer 的大师级作者，已经发表了 40 余篇技术文章和教程。现从事大数据、人工智能相关技术支持和架构设计工作。

引言

对企业用户而言，拥有选择权对于成功采用人工智能至关重要。对于生成式 AI ，并非所有大模型都是一样的，一种模型并不适合所有情况：最好的模型将取决于行业、领域和用例。IBM watsonx 为客户提供一系列模型选择，包括 IBM 开发的基础模型、开源模型以及来自第三方供应商的模型，在模型和部署环境两个维度上提供选择和灵活性。

更重要的是，模型并不总是越大越好，过大的模型推理成本太高，企业无法承担运行

数据处理

为了支持企业级大模型的训练，IBM 构建了一个来自学术界、互联网、企业 (例如金融、法律) 和源代码的非结构化语言数据的大数据集。这是非常罕见的，也表示了 IBM 对透明度和负责任的 AI 的承诺。

该预训练数据集是替代开源数据集而创建的专有数据集，开源数据集因包含有毒、有害或盗版内容而受到批评。通过构建 IBM 预训练数据语料库解决以上提到的这些问题和其他隐含问题。IBM 大模型训练中使用的数据集如下：

1. arXiv: 发布到 arXiv 的超过 180 万篇科学论文预印本。

2. Common Crawl: 开放的可以被网络爬虫获取的存储库。

3. DeepMind Mathematics: 数学问答数据。

4. Free Law: 来自美国联邦和州法院的公共领域法律意见。

5. GitHub Clean: 来自 CodeParrot 的源代码数据，涵盖多种编码语言。

6. Hacker News: 2007-2018 年产生的计算机科学与创业新闻。

7. OpenWeb Text: OpenAI 的 Web 文本语料库的开源版本，包含到 2019 年的网页。

8. Project Gutenberg (PG-19): 免费电子书库，重点关注美国版权已过期的旧作品。

9. Pubmed Central: 生物医学和生命科学论文。

10. SEC Filings: 美国证券交易委员会 (SEC)1934-2022 年的 10-K/Q 文件。

11. Stack Exchange: Stack Exchange 网络上所有用户贡献内容的匿名集合，这是一个以用户贡献的问题和答案为中心的流行网站集合。

12. USPTO: 1975年至2023年5月授予的美国专利，不包括外观设计专利。

13.Webhose: IBM 获取的 Web 内容转换为机器可读数据集。

14. Wikimedia: 维基项目 (enwiki，enwikibooks，enwikinews，enwikiquote，enwikisource，en- wikiversity，enwikivoyage，enwiktionary)。包含从页面和文章中提取的纯文本。

IBM 精选的预训练数据集正在不断增长和发展，其他数据会定期审查并考虑添加到语料库中。除了增加预训练数据的大小和范围外，还会定期生成和维护这些数据集的新版本，以反映增强的过滤功能 (例如，重复数据删除以及仇恨和脏话检测) 和改进的工具。

在 granite.13b 进行预训练时，IBM 在预处理之前收集了 6.48 TB 的数据，在预处理后构建了 2.07 TB 的训练数据。而 granite.20b.code 在预处理后构建了 100 多种不同编码语言的 1.6T 的训练数据，包括 Cobol 和 Ansible。

整个数据预处理管道的各种步骤为模型训练做好准备，整个过程是在最大的可信企业级数据湖 watsonx.data 上完成的，这是建立在开放式湖仓一体架构之上。预处理过程由以下步骤组成：

1）文本提取

2）重复数据消除

3）语言识别

4）句子拆分

5）仇恨、辱骂和脏话检测

6）文档质量注释

7）网址屏蔽列表注释

8）过滤

9）标记化

从训练数据可以看出，IBM 模型为什么可以安全地供企业使用？

根据 IBM 广泛的数据治理实践 (对应于数据清理和获取)对模型进行了审查；文件质量检查；预处理数据管道，包括标记化、重复数据删除等。
Granite 模型根据 IBM 自己的 HAP (仇恨、辱骂和脏话)检测器审查的数据进行训练，以检测并根除令人反感的内容，并以内部和公共模型为基准。
IBM 部署定期、持续的数据保护措施，包括监控以盗版或其他攻击性材料闻名的网站，并避开这些网站。‍

‍

‍

模型训练

第一阶段预训练过程，granite.13b 基础模型经过 30 万次迭代训练，批量大小为 4M 个 Token，总共 1 万亿个 Token。预训练让大模型根据输入生成文本。

第二阶段监督微调过程，使用来自不同来源的数据集混合执行监督微调，每个示例都包含一个提示和一个答案，执行3个周期获得 granite.13b.instruct 模型。

第三阶段对比微调过程，惩罚来自负数据分布的数据点概率，同时增加来自正数据分布的数据点的概率。换句话说，我们不鼓励大模型为每个训练提示生成错对齐的答案 (例如有害的答案)，同时鼓励对齐的答案 (例如有用的答案)。通过防止模型输出出现幻觉和错位，最后获得 granite.13b.chat 模型。

IBM 用于训练基础模型的主要计算基础设施是 AI 优化的云原生超级计算机 Vela [2]，每个 Vela节点：

• 8 个 80GB A100 GPU

• 96 CPU

• 1.5TB 的 DRAM

• 4 个3.2TB NVMe 固态硬盘

• 600GBps GPU 高可用网络连接

• 1.6TB 跨机架带宽

granite.13b.v1 大模型是在较旧的基础设施上训练的，使用了 256 个 A100 GPU，花费了 1056 GPU Hours。而 granite.20b.code 大模型是在更新的基础设施上训练的，使用了 768 个 A100 GPU。

应用场景

Granite 大模型支持所有 5 个 NLP 任务 (问答、生成、提取、总结、分类)，这些任务针对跨多个领域的业务目标数据进行训练，以提供最相关的见解。IBM 训练的 AI 模型可以通过快速的工程技术进一步定制，以满足特定的企业任务，从而在 watsonx.ai 中实现更高的准确性和实现价值的时间。最终可以使用企业数据针对独特的下游任务调整模型，例如，针对正在进行的以 NLP 为中心的任务进行提示调整。

企业需要的模型一定是学到企业的专用知识，当使用 IBM 开发的模型来创建差异化的 AI 资产时，可以进一步定制 IBM 模型以满足特定的下游任务。通过提示工程和微调技术，客户可以负责任地使用自己的企业数据来提高模型输出的准确性，从而创造竞争优势。watsonx.ai 可以进行本地部署，从而实现数据的合规和安全。

Granite 大模型采用了特定领域的企业数据，10% 的训练数据来自法律和金融，这使得信用风险评估、保险 QA、对话式金融 QA 和总结等财务任务具有卓越的性能。因此，金融服务领域的客户 (银行、保险、金融)或有法律需求的客户，Granite 是一个值得推荐的绝佳模型。另外 Granite.13b 需要更少的 GPU 资源实现金融任务的卓越性能，从而实现更高的性价比。基于 IBM Research 的初步评估和测试，涵盖 11 种不同的金融任务，结果表明 granite-13b 是金融任务中表现最佳的模型之一，评估的任务包括：提供股票和财报电话会议记录的情绪评分、对新闻标题进行分类、提取信用风险评估、总结金融长篇文本以及回答金融或保险相关问题。在测试中，granite-13b 的速度比业界 70b 的大模型快 3 倍，GPU 资源消耗减少 1/4。令人欣喜的是，granite.13b.v2 也正在紧锣密鼓的开发训练中，通过添加多语言的语料训练，实现多语言支持。

在代码领域，granite.20b.code 分为 cobol 和 ansible 的两个变体，granite.20b.code.cobol 可在 IBM Z 上更快地将 COBOL 语言转换为 Java 语言，从而提高开发人员的工作效率；而 granite.20b.ansible 旨在为 IT 运营自动化生成 ansible 剧本。

治理和管控

IBM 的 AI 开发方法以基于信任和透明度承诺的核心原则为指导，坚信要负责任地创建、部署和利用 AI 模型来推动业务创新。

在 Granite 模型开发中利用 watsonx.governance 进行基础模型生命周期治理，通过基准测试评估模型质量，打包并标记通过测试的模型，创建模型名片，记录模型细节，合并数据名片与模型名片，形成模型事实。支持大模型特定指标收集和警报，提升公平性和责任 (例如监控滥用和亵渎行为)，通过源属性解释大模型输出，提供大模型使用指南和最佳实践。

采用生成式 AI 的首要障碍是对数据血缘或来源的担忧，为了更好地理解为其智能系统提供数据的数据，通过IBM 最新收购的数据血缘厂商 Manta[3]，提高了 watsonx 内部的透明度，以便企业可以确定其 AI 模型和系统是否使用了正确的数据、数据的起源、演变方式以及数据流中的任何差异。

总结

考虑到开放和单一模型无法满足每个业务用例的独特需求，Granite 系列正在开发不同参数大小的模型。同时 IBM 定期从开源大模型中从性能、伦理、法律、数据等角度选择和审查商业适用性最合适的更新到 watsonx 平台中。借助这些模型和 watsonx，帮助企业成为 AI 价值创造者，可以将企业专有数据引入 IBM 大模型和开源模型，构建适合其业务和用例的独特模型。

面向平台的方法：watsonx 是一个在 OpenShift 上运行的平台，具有 AI 推理功能并运行 Ray 和 PyTorch 等开源技术。客户可以将其部署在自己选择的基础架构中，从而可以安全地与企业数据集成。采用私有化部署，无需额外担心数据安全和主权。
客户保护: IBM 标准的知识产权保护 (与其为硬件和软件产品提供的知识产权保护相类似) 将适用于由 IBM 开发的 watsonx 模型。IBM 为其基础模型提供 IP 赔偿 (合同保护)，使其客户能够更有信心地使用他们的数据来构建 AI ，这是生成式 AI 竞争优势之所在。客户可以使用他们自己的数据和由 IBM 基础模型所提供的客户保护、准确性和信任来开发他们的 AI 应用程序。
数据和人工智能治理：随着监管人工智能，全球客户面临着利用人工智能安全创造价值的压力。 IBM watsonx 拥有全面、领先的 AI 和数据治理产品组合，提供模型治理、监控，独有的仇恨、辱骂和脏话检测过滤器，支持管理监管要求，以便客户能够以负责任、安全和合乎道德的方式扩展 AI。

参考资料：

[1] https://www.ibm.com/downloads/cas/X9W4O6BM

[2] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster

[3]https://newsroom.ibm.com/IBM-acquires-Manta-Software-Inc-to-complement-data-and-AI-governance-capabilities

关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商，帮助超过 175 个国家和地区的客户，从其拥有的数据中获取商业洞察，简化业务流程，降低成本，并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

了解更多信息，请访问：https://www.ibm.com/cn-zh

END 往期回顾

→新发声&强阵容｜齐聚 IBM 企业数据合规治理研讨会

→制造企业采用 IBM App Connect 打败应用集成“拦路虎”