0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IBM 专家观点:IBM 大模型揭秘

IBM中国 来源:未知 2023-11-21 20:40 次阅读

wKgaomVcplSAaJnSAAUH1WcibZI859.gifwKgaomVcplSAX_SdAAIo1cbXNhk545.png

作者:吴敏达,IBM 科技事业部 数据与人工智能资深技术专家

wKgaomVcplaAKmHiAAHF1HXPkWU495.png                  

作者简介:吴敏达是 The Open Group 卓越级技术专家 (Distinguished Technical Specialist),同时拥有计算机技术与软件专业系统架构设计师技术资格。他现在是 IBM 科技事业部数据与人工智能资深技术专家,拥有 20 多年数据分析软件相关技术经验,是 IBM 认证的大数据架构师和 Watson 开发者,专长是大数据、人工智能等领域。他是 IBM Developer 的大师级作者,已经发表了 40 余篇技术文章和教程。现从事大数据、人工智能相关技术支持和架构设计工作。

wKgaomVcplaAPPFzAABIMULQipw365.png

引言

对企业用户而言,拥有选择权对于成功采用人工智能至关重要。对于生成式 AI ,并非所有大模型都是一样的,一种模型并不适合所有情况:最好的模型将取决于行业、领域和用例。IBM watsonx 为客户提供一系列模型选择,包括 IBM 开发的基础模型、开源模型以及来自第三方供应商的模型,在模型和部署环境两个维度上提供选择和灵活性。

更重要的是,模型并不总是越大越好,过大的模型推理成本太高,企业无法承担运行

wKgaomVcplaAPp8gAADWwajMPko810.png

数据处理

为了支持企业级大模型的训练,IBM 构建了一个来自学术界、互联网、企业 (例如金融、法律) 和源代码的非结构化语言数据的大数据集。这是非常罕见的,也表示了 IBM 对透明度和负责任的 AI 的承诺。

该预训练数据集是替代开源数据集而创建的专有数据集,开源数据集因包含有毒、有害或盗版内容而受到批评。通过构建 IBM 预训练数据语料库解决以上提到的这些问题和其他隐含问题。IBM 大模型训练中使用的数据集如下:

1. arXiv: 发布到 arXiv 的超过 180 万篇科学论文预印本。

2. Common Crawl: 开放的可以被网络爬虫获取的存储库。

3. DeepMind Mathematics: 数学问答数据。

4. Free Law: 来自美国联邦和州法院的公共领域法律意见。

5. GitHub Clean: 来自 CodeParrot 的源代码数据,涵盖多种编码语言。

6. Hacker News: 2007-2018 年产生的计算机科学与创业新闻。

7. OpenWeb Text: OpenAI 的 Web 文本语料库的开源版本,包含到 2019 年的网页。

8. Project Gutenberg (PG-19): 免费电子书库,重点关注美国版权已过期的旧作品。

9. Pubmed Central: 生物医学和生命科学论文。

10. SEC Filings: 美国证券交易委员会 (SEC)1934-2022 年的 10-K/Q 文件。

11. Stack Exchange: Stack Exchange 网络上所有用户贡献内容的匿名集合,这是一个以用户贡献的问题和答案为中心的流行网站集合。

12. USPTO: 1975年至2023年5月授予的美国专利,不包括外观设计专利。

13.Webhose: IBM 获取的 Web 内容转换为机器可读数据集。

14. Wikimedia: 维基项目 (enwiki,enwikibooks,enwikinews,enwikiquote,enwikisource,en- wikiversity,enwikivoyage,enwiktionary)。包含从页面和文章中提取的纯文本。

IBM 精选的预训练数据集正在不断增长和发展,其他数据会定期审查并考虑添加到语料库中。除了增加预训练数据的大小和范围外,还会定期生成和维护这些数据集的新版本,以反映增强的过滤功能 (例如,重复数据删除以及仇恨和脏话检测) 和改进的工具。

在 granite.13b 进行预训练时,IBM 在预处理之前收集了 6.48 TB 的数据,在预处理后构建了 2.07 TB 的训练数据。而 granite.20b.code 在预处理后构建了 100 多种不同编码语言的 1.6T 的训练数据,包括 Cobol 和 Ansible。

wKgaomVcpleAIkMNAAMLY9jC9Xk210.png

整个数据预处理管道的各种步骤为模型训练做好准备,整个过程是在最大的可信企业级数据湖 watsonx.data 上完成的,这是建立在开放式湖仓一体架构之上。预处理过程由以下步骤组成:

1)文本提取

2)重复数据消除

3)语言识别

4)句子拆分

5)仇恨、辱骂和脏话检测

6)文档质量注释

7)网址屏蔽列表注释

8)过滤

9)标记化

wKgaomVcpleADoFXAAG45qmc9k8914.png

从训练数据可以看出,IBM 模型为什么可以安全地供企业使用?

  • 根据 IBM 广泛的数据治理实践 (对应于数据清理和获取)对模型进行了审查;文件质量检查;预处理数据管道,包括标记化、重复数据删除等。

  • Granite 模型根据 IBM 自己的 HAP (仇恨、辱骂和脏话)检测器审查的数据进行训练,以检测并根除令人反感的内容,并以内部和公共模型为基准。

  • IBM 部署定期、持续的数据保护措施,包括监控以盗版或其他攻击性材料闻名的网站,并避开这些网站。

模型训练

第一阶段预训练过程,granite.13b 基础模型经过 30 万次迭代训练,批量大小为 4M 个 Token,总共 1 万亿个 Token。预训练让大模型根据输入生成文本。

第二阶段监督微调过程,使用来自不同来源的数据集混合执行监督微调,每个示例都包含一个提示和一个答案,执行3个周期获得 granite.13b.instruct 模型。

第三阶段对比微调过程,惩罚来自负数据分布的数据点概率,同时增加来自正数据分布的数据点的概率。换句话说,我们不鼓励大模型为每个训练提示生成错对齐的答案 (例如有害的答案),同时鼓励对齐的答案 (例如有用的答案)。通过防止模型输出出现幻觉和错位,最后获得 granite.13b.chat 模型。

wKgaomVcpleAbjE5AAIoCXnHjqc886.png

IBM 用于训练基础模型的主要计算基础设施是 AI 优化的云原生超级计算机 Vela [2],每个 Vela节点:

• 8 个 80GB A100 GPU

• 96 CPU

• 1.5TB 的 DRAM

• 4 个3.2TB NVMe 固态硬盘

• 600GBps GPU 高可用网络连接

• 1.6TB 跨机架带宽

wKgaomVcpleAGmxBAAOIrQN2WRI975.png

granite.13b.v1 大模型是在较旧的基础设施上训练的,使用了 256 个 A100 GPU,花费了 1056 GPU Hours。而 granite.20b.code 大模型是在更新的基础设施上训练的,使用了 768 个 A100 GPU。

应用场景

Granite 大模型支持所有 5 个 NLP 任务 (问答、生成、提取、总结、分类),这些任务针对跨多个领域的业务目标数据进行训练,以提供最相关的见解。IBM 训练的 AI 模型可以通过快速的工程技术进一步定制,以满足特定的企业任务,从而在 watsonx.ai 中实现更高的准确性和实现价值的时间。最终可以使用企业数据针对独特的下游任务调整模型,例如,针对正在进行的以 NLP 为中心的任务进行提示调整。

企业需要的模型一定是学到企业的专用知识,当使用 IBM 开发的模型来创建差异化的 AI 资产时,可以进一步定制 IBM 模型以满足特定的下游任务。 通过提示工程和微调技术,客户可以负责任地使用自己的企业数据来提高模型输出的准确性,从而创造竞争优势。watsonx.ai 可以进行本地部署,从而实现数据的合规和安全。

wKgaomVcpleAe84zAAGvMdDsx-w096.png

Granite 大模型采用了特定领域的企业数据,10% 的训练数据来自法律和金融,这使得信用风险评估、保险 QA、对话式金融 QA 和总结等财务任务具有卓越的性能。因此,金融服务领域的客户 (银行、保险、金融)或有法律需求的客户,Granite 是一个值得推荐的绝佳模型。另外 Granite.13b 需要更少的 GPU 资源实现金融任务的卓越性能,从而实现更高的性价比。基于 IBM Research 的初步评估和测试 ,涵盖 11 种不同的金融任务,结果表明 granite-13b 是金融任务中表现最佳的模型之一,评估的任务包括:提供股票和财报电话会议记录的情绪评分、对新闻标题进行分类、提取信用风险评估、总结金融长篇文本以及回答金融或保险相关问题。在测试中,granite-13b 的速度比业界 70b 的大模型快 3 倍,GPU 资源消耗减少 1/4。令人欣喜的是,granite.13b.v2 也正在紧锣密鼓的开发训练中,通过添加多语言的语料训练,实现多语言支持。

在代码领域,granite.20b.code 分为 cobol 和 ansible 的两个变体,granite.20b.code.cobol 可在 IBM Z 上更快地将 COBOL 语言转换为 Java 语言,从而提高开发人员的工作效率;而 granite.20b.ansible 旨在为 IT 运营自动化生成 ansible 剧本。

治理和管控

IBM 的 AI 开发方法以基于信任和透明度承诺的核心原则为指导,坚信要负责任地创建、部署和利用 AI 模型来推动业务创新。

在 Granite 模型开发中利用 watsonx.governance 进行基础模型生命周期治理,通过基准测试评估模型质量,打包并标记通过测试的模型,创建模型名片,记录模型细节,合并数据名片与模型名片,形成模型事实。支持大模型特定指标收集和警报,提升公平性和责任 (例如监控滥用和亵渎行为),通过源属性解释大模型输出,提供大模型使用指南和最佳实践。

wKgaomVcpliAaRitAAF-pRiFt3A630.png

采用生成式 AI 的首要障碍是对数据血缘或来源的担忧,为了更好地理解为其智能系统提供数据的数据,通过IBM 最新收购的数据血缘厂商 Manta[3],提高了 watsonx 内部的透明度,以便企业可以确定其 AI 模型和系统是否使用了正确的数据、数据的起源、演变方式以及数据流中的任何差异。

总结

考虑到开放和单一模型无法满足每个业务用例的独特需求,Granite 系列正在开发不同参数大小的模型。同时 IBM 定期从开源大模型中从性能、伦理、法律、数据等角度选择和审查商业适用性最合适的更新到 watsonx 平台中。借助这些模型和 watsonx,帮助企业成为 AI 价值创造者,可以将企业专有数据引入 IBM 大模型和开源模型,构建适合其业务和用例的独特模型。

  • 面向平台的方法:watsonx 是一个在 OpenShift 上运行的平台,具有 AI 推理功能并运行 Ray 和 PyTorch 等开源技术。 客户可以将其部署在自己选择的基础架构中,从而可以安全地与企业数据集成。采用私有化部署,无需额外担心数据安全和主权。

  • 客户保护: IBM 标准的知识产权保护 (与其为硬件和软件产品提供的知识产权保护相类似) 将适用于由 IBM 开发的 watsonx 模型。IBM 为其基础模型提供 IP 赔偿 (合同保护),使其客户能够更有信心地使用他们的数据来构建 AI ,这是生成式 AI 竞争优势之所在。客户可以使用他们自己的数据和由 IBM 基础模型所提供的客户保护、准确性和信任来开发他们的 AI 应用程序。

  • 数据和人工智能治理:随着监管人工智能,全球客户面临着利用人工智能安全创造价值的压力。 IBM watsonx 拥有全面、领先的 AI 和数据治理产品组合,提供模型治理、监控,独有的仇恨、辱骂和脏话检测过滤器,支持管理监管要求,以便客户能够以负责任、安全和合乎道德的方式扩展 AI。

参考资料

[1] https://www.ibm.com/downloads/cas/X9W4O6BM

[2] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster

[3]https://newsroom.ibm.com/IBM-acquires-Manta-Software-Inc-to-complement-data-and-AI-governance-capabilities


关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

了解更多信息,请访问:https://www.ibm.com/cn-zh

END 往期回顾

→新发声&强阵容|齐聚 IBM 企业数据合规治理研讨会

制造企业采用 IBM App Connect 打败应用集成“拦路虎”

wKgaomVcplmARvWxAAU4T0HTDmg558.gif

wKgaomVcplmAU9D1AAEa0eKWCBI781.gif    

wKgaomVcplmACZZoAABAYCxzKA8111.gif

点击“阅读原文”,获取更多内容


原文标题:IBM 专家观点:IBM 大模型揭秘

文章出处:【微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1673

    浏览量

    74273

原文标题:IBM 专家观点:IBM 大模型揭秘

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    IBM在watsonx上提供开源的Mistral AI模型

    IBM 提供 Mixtral-8x7B 的优化版本,该版本可将延迟时间最多缩短 75% IBM、第三方和开源模型的目录不断增加,为客户提供更多选择和灵活性 是 watsonx 人工智能与数据平台
    的头像 发表于 03-12 19:10 1091次阅读

    IBM发布新量子计算芯片

    IBM量子芯片行业芯事行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年12月06日 16:23:09

    量子计算技术重磅升级:IBM展示最新的模块化量子处理器

    IBM量子处理器
    北京中科同志科技股份有限公司
    发布于 :2023年12月05日 15:52:55

    IBM 发布新一代 IBM Storage Scale System 6000,加速释放数据和 AI 的潜力

    面向非结构化数据的全新云规模、高性能存储设备,支持最严苛的 AI 和容量密集型工作负载 近日,IBM (纽交所股票代码:IBM)  推出了全新的 IBM Storage Scale System
    的头像 发表于 11-14 19:45 297次阅读
    <b class='flag-5'>IBM</b> 发布新一代 <b class='flag-5'>IBM</b> Storage Scale System 6000,加速释放数据和 AI 的潜力

    【重磅】首批 IBM watsonx 专有 “花岗岩”Granite 模型全球开始上市,化解企业采用生成式 AI 的“数据焦虑”

    IBM 开发的企业级 watsonx Granite 模型系列现已上市,旨在帮助企业构建和扩展生成式 AI 为 IBM 开发的 watsonx 模型提供
    的头像 发表于 10-20 01:15 378次阅读
    【重磅】首批 <b class='flag-5'>IBM</b> watsonx 专有 “花岗岩”Granite <b class='flag-5'>模型</b>全球开始上市,化解企业采用生成式 AI 的“数据焦虑”

    IBM 谢东:IBM watsonx 助力生成式 AI 的企业应用

    作为 2023 中国国际服务贸易交易会的系列会议,2023 中国 AIGC 创新发展论坛于 9 月 4 日在北京召开,IBM 全球副总裁、IBM 大中华区首席技术官谢东先生出席并发表演讲。他谈到
    的头像 发表于 09-06 18:20 318次阅读
    <b class='flag-5'>IBM</b> 谢东:<b class='flag-5'>IBM</b> watsonx 助力生成式 AI 的企业应用

    IBM 专家观点:LinuxONE 全面助力企业级基础架构可持续创新

    本文作者:廉勇刚、孙晓妍 廉勇刚 IBM 大中华区主机及 LinuxONE 系统技术架构师 孙晓妍 IBM 大中华区主机及 LinuxONE 系统技术架构师 顺应市场趋势与客户需求,IBM
    的头像 发表于 08-15 18:15 252次阅读
    <b class='flag-5'>IBM</b> <b class='flag-5'>专家</b><b class='flag-5'>观点</b>:LinuxONE 全面助力企业级基础架构可持续创新

    IBM Aspera Connect常见问题

    IBM Aspera采用了一种不同的方法来应对全球广域网上大数据移动的挑战。Aspera没有优化或加速数据传输,而是使用突破性的传输技术消除了潜在的瓶颈,充分利用可用的网络带宽来最大限度地提高速度,并在没有理论限制的情况下快速扩展。
    发表于 08-11 06:51

    IBM 计划在 watsonx 平台上提供 Meta 的 Llama 2 模型

    2-聊天模型,现在已经可以提供给部分客户抢先体验。这是基于 IBM 与 Meta 在 AI 开放式创新方面的合作,包括就 Meta 的开源项目而展开的合作,例如在 watsonx.data 中使
    的头像 发表于 08-09 20:35 332次阅读

    IBM 观点:是什么让全球超过350家石化企业选择IBM Maximo?

    北京2023年7月17日 /美通社/ -- 7 月 12 日至14 日,由山东省石油化工设备管理协会主办的2023中国(青岛)石油化工设备管理及四新技术交流论坛在山东青岛召开,IBM大中华区科技事业
    的头像 发表于 07-17 22:05 403次阅读
    <b class='flag-5'>IBM</b> <b class='flag-5'>观点</b>:是什么让全球超过350家石化企业选择<b class='flag-5'>IBM</b> Maximo?

    IBM 观点:是什么让全球超过 350 家石化企业选择 IBM Maximo?

    7 月 12 日至 14 日,由山东省石油化工设备管理协会主办的  2023 中国(青岛)石油化工设备管理及四新技术交流论坛 在山东青岛召开,IBM 大中华区科技事业部可持续发展软件资产管理业务总监
    的头像 发表于 07-17 18:15 275次阅读
    <b class='flag-5'>IBM</b> <b class='flag-5'>观点</b>:是什么让全球超过 350 家石化企业选择 <b class='flag-5'>IBM</b> Maximo?

    IBM 观点:企业需要什么样的生成式 AI?

    作者:Kareem Yusuf 博士,IBM Software 产品管理与成长 高级副总裁 企业需要的是根据其 独特需 求 和 自身数据 而 量身定制 的生成式 AI (2023 年 7 月 13
    的头像 发表于 07-13 18:20 237次阅读
    <b class='flag-5'>IBM</b> <b class='flag-5'>观点</b>:企业需要什么样的生成式 AI?

    IBM 魏永明:拥抱基础模型与生成式 AI,迎接“AI+”新时代

    本文作者:IBM 大中华区混合云及人工智能专家实验室总经理魏永明 2023 年 5 月 25 日,受组委会邀请,我有幸代表 IBM 参加了在贵阳举办的 2023 中国国际大数据产业博览会上就“ 大数
    的头像 发表于 06-19 18:10 205次阅读
    <b class='flag-5'>IBM</b> 魏永明:拥抱基础<b class='flag-5'>模型</b>与生成式 AI,迎接“AI+”新时代

    IBM发布watsonx平台,为下一代企业级基础模型提供动力

    、AIOps、数字劳动力、安全性和可持续性 与Hugging Face的新合作将致力于基于watsonx平台为企业提供最佳开源AI模型 IBM Consulting 宣布成立一个生成式 AI 卓越中心
    的头像 发表于 05-10 21:22 405次阅读

    IBM发布watsonx平台,为下一代企业级基础模型提供动力

    IBM (NYSE: IBM) 昨晚在其 2023 年度 Think 大会上宣布推出 IBM watsonx,这是一个全新的 AI 和数据平台,能够让企业利用可信数据来扩展和加速领先的 AI 影响力
    的头像 发表于 05-10 14:27 514次阅读