0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IBM 专家观点:IBM 大模型揭秘

IBM中国 来源:未知 2023-11-21 20:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgaomVcplSAaJnSAAUH1WcibZI859.gifwKgaomVcplSAX_SdAAIo1cbXNhk545.png

作者:吴敏达,IBM 科技事业部 数据与人工智能资深技术专家

wKgaomVcplaAKmHiAAHF1HXPkWU495.png                  

作者简介:吴敏达是 The Open Group 卓越级技术专家 (Distinguished Technical Specialist),同时拥有计算机技术与软件专业系统架构设计师技术资格。他现在是 IBM 科技事业部数据与人工智能资深技术专家,拥有 20 多年数据分析软件相关技术经验,是 IBM 认证的大数据架构师和 Watson 开发者,专长是大数据、人工智能等领域。他是 IBM Developer 的大师级作者,已经发表了 40 余篇技术文章和教程。现从事大数据、人工智能相关技术支持和架构设计工作。

wKgaomVcplaAPPFzAABIMULQipw365.png

引言

对企业用户而言,拥有选择权对于成功采用人工智能至关重要。对于生成式 AI ,并非所有大模型都是一样的,一种模型并不适合所有情况:最好的模型将取决于行业、领域和用例。IBM watsonx 为客户提供一系列模型选择,包括 IBM 开发的基础模型、开源模型以及来自第三方供应商的模型,在模型和部署环境两个维度上提供选择和灵活性。

更重要的是,模型并不总是越大越好,过大的模型推理成本太高,企业无法承担运行

wKgaomVcplaAPp8gAADWwajMPko810.png

数据处理

为了支持企业级大模型的训练,IBM 构建了一个来自学术界、互联网、企业 (例如金融、法律) 和源代码的非结构化语言数据的大数据集。这是非常罕见的,也表示了 IBM 对透明度和负责任的 AI 的承诺。

该预训练数据集是替代开源数据集而创建的专有数据集,开源数据集因包含有毒、有害或盗版内容而受到批评。通过构建 IBM 预训练数据语料库解决以上提到的这些问题和其他隐含问题。IBM 大模型训练中使用的数据集如下:

1. arXiv: 发布到 arXiv 的超过 180 万篇科学论文预印本。

2. Common Crawl: 开放的可以被网络爬虫获取的存储库。

3. DeepMind Mathematics: 数学问答数据。

4. Free Law: 来自美国联邦和州法院的公共领域法律意见。

5. GitHub Clean: 来自 CodeParrot 的源代码数据,涵盖多种编码语言。

6. Hacker News: 2007-2018 年产生的计算机科学与创业新闻。

7. OpenWeb Text: OpenAI 的 Web 文本语料库的开源版本,包含到 2019 年的网页。

8. Project Gutenberg (PG-19): 免费电子书库,重点关注美国版权已过期的旧作品。

9. Pubmed Central: 生物医学和生命科学论文。

10. SEC Filings: 美国证券交易委员会 (SEC)1934-2022 年的 10-K/Q 文件。

11. Stack Exchange: Stack Exchange 网络上所有用户贡献内容的匿名集合,这是一个以用户贡献的问题和答案为中心的流行网站集合。

12. USPTO: 1975年至2023年5月授予的美国专利,不包括外观设计专利。

13.Webhose: IBM 获取的 Web 内容转换为机器可读数据集。

14. Wikimedia: 维基项目 (enwiki,enwikibooks,enwikinews,enwikiquote,enwikisource,en- wikiversity,enwikivoyage,enwiktionary)。包含从页面和文章中提取的纯文本。

IBM 精选的预训练数据集正在不断增长和发展,其他数据会定期审查并考虑添加到语料库中。除了增加预训练数据的大小和范围外,还会定期生成和维护这些数据集的新版本,以反映增强的过滤功能 (例如,重复数据删除以及仇恨和脏话检测) 和改进的工具。

在 granite.13b 进行预训练时,IBM 在预处理之前收集了 6.48 TB 的数据,在预处理后构建了 2.07 TB 的训练数据。而 granite.20b.code 在预处理后构建了 100 多种不同编码语言的 1.6T 的训练数据,包括 Cobol 和 Ansible。

wKgaomVcpleAIkMNAAMLY9jC9Xk210.png

整个数据预处理管道的各种步骤为模型训练做好准备,整个过程是在最大的可信企业级数据湖 watsonx.data 上完成的,这是建立在开放式湖仓一体架构之上。预处理过程由以下步骤组成:

1)文本提取

2)重复数据消除

3)语言识别

4)句子拆分

5)仇恨、辱骂和脏话检测

6)文档质量注释

7)网址屏蔽列表注释

8)过滤

9)标记化

wKgaomVcpleADoFXAAG45qmc9k8914.png

从训练数据可以看出,IBM 模型为什么可以安全地供企业使用?

  • 根据 IBM 广泛的数据治理实践 (对应于数据清理和获取)对模型进行了审查;文件质量检查;预处理数据管道,包括标记化、重复数据删除等。

  • Granite 模型根据 IBM 自己的 HAP (仇恨、辱骂和脏话)检测器审查的数据进行训练,以检测并根除令人反感的内容,并以内部和公共模型为基准。

  • IBM 部署定期、持续的数据保护措施,包括监控以盗版或其他攻击性材料闻名的网站,并避开这些网站。

模型训练

第一阶段预训练过程,granite.13b 基础模型经过 30 万次迭代训练,批量大小为 4M 个 Token,总共 1 万亿个 Token。预训练让大模型根据输入生成文本。

第二阶段监督微调过程,使用来自不同来源的数据集混合执行监督微调,每个示例都包含一个提示和一个答案,执行3个周期获得 granite.13b.instruct 模型。

第三阶段对比微调过程,惩罚来自负数据分布的数据点概率,同时增加来自正数据分布的数据点的概率。换句话说,我们不鼓励大模型为每个训练提示生成错对齐的答案 (例如有害的答案),同时鼓励对齐的答案 (例如有用的答案)。通过防止模型输出出现幻觉和错位,最后获得 granite.13b.chat 模型。

wKgaomVcpleAbjE5AAIoCXnHjqc886.png

IBM 用于训练基础模型的主要计算基础设施是 AI 优化的云原生超级计算机 Vela [2],每个 Vela节点:

• 8 个 80GB A100 GPU

• 96 CPU

• 1.5TB 的 DRAM

• 4 个3.2TB NVMe 固态硬盘

• 600GBps GPU 高可用网络连接

• 1.6TB 跨机架带宽

wKgaomVcpleAGmxBAAOIrQN2WRI975.png

granite.13b.v1 大模型是在较旧的基础设施上训练的,使用了 256 个 A100 GPU,花费了 1056 GPU Hours。而 granite.20b.code 大模型是在更新的基础设施上训练的,使用了 768 个 A100 GPU。

应用场景

Granite 大模型支持所有 5 个 NLP 任务 (问答、生成、提取、总结、分类),这些任务针对跨多个领域的业务目标数据进行训练,以提供最相关的见解。IBM 训练的 AI 模型可以通过快速的工程技术进一步定制,以满足特定的企业任务,从而在 watsonx.ai 中实现更高的准确性和实现价值的时间。最终可以使用企业数据针对独特的下游任务调整模型,例如,针对正在进行的以 NLP 为中心的任务进行提示调整。

企业需要的模型一定是学到企业的专用知识,当使用 IBM 开发的模型来创建差异化的 AI 资产时,可以进一步定制 IBM 模型以满足特定的下游任务。 通过提示工程和微调技术,客户可以负责任地使用自己的企业数据来提高模型输出的准确性,从而创造竞争优势。watsonx.ai 可以进行本地部署,从而实现数据的合规和安全。

wKgaomVcpleAe84zAAGvMdDsx-w096.png

Granite 大模型采用了特定领域的企业数据,10% 的训练数据来自法律和金融,这使得信用风险评估、保险 QA、对话式金融 QA 和总结等财务任务具有卓越的性能。因此,金融服务领域的客户 (银行、保险、金融)或有法律需求的客户,Granite 是一个值得推荐的绝佳模型。另外 Granite.13b 需要更少的 GPU 资源实现金融任务的卓越性能,从而实现更高的性价比。基于 IBM Research 的初步评估和测试 ,涵盖 11 种不同的金融任务,结果表明 granite-13b 是金融任务中表现最佳的模型之一,评估的任务包括:提供股票和财报电话会议记录的情绪评分、对新闻标题进行分类、提取信用风险评估、总结金融长篇文本以及回答金融或保险相关问题。在测试中,granite-13b 的速度比业界 70b 的大模型快 3 倍,GPU 资源消耗减少 1/4。令人欣喜的是,granite.13b.v2 也正在紧锣密鼓的开发训练中,通过添加多语言的语料训练,实现多语言支持。

在代码领域,granite.20b.code 分为 cobol 和 ansible 的两个变体,granite.20b.code.cobol 可在 IBM Z 上更快地将 COBOL 语言转换为 Java 语言,从而提高开发人员的工作效率;而 granite.20b.ansible 旨在为 IT 运营自动化生成 ansible 剧本。

治理和管控

IBM 的 AI 开发方法以基于信任和透明度承诺的核心原则为指导,坚信要负责任地创建、部署和利用 AI 模型来推动业务创新。

在 Granite 模型开发中利用 watsonx.governance 进行基础模型生命周期治理,通过基准测试评估模型质量,打包并标记通过测试的模型,创建模型名片,记录模型细节,合并数据名片与模型名片,形成模型事实。支持大模型特定指标收集和警报,提升公平性和责任 (例如监控滥用和亵渎行为),通过源属性解释大模型输出,提供大模型使用指南和最佳实践。

wKgaomVcpliAaRitAAF-pRiFt3A630.png

采用生成式 AI 的首要障碍是对数据血缘或来源的担忧,为了更好地理解为其智能系统提供数据的数据,通过IBM 最新收购的数据血缘厂商 Manta[3],提高了 watsonx 内部的透明度,以便企业可以确定其 AI 模型和系统是否使用了正确的数据、数据的起源、演变方式以及数据流中的任何差异。

总结

考虑到开放和单一模型无法满足每个业务用例的独特需求,Granite 系列正在开发不同参数大小的模型。同时 IBM 定期从开源大模型中从性能、伦理、法律、数据等角度选择和审查商业适用性最合适的更新到 watsonx 平台中。借助这些模型和 watsonx,帮助企业成为 AI 价值创造者,可以将企业专有数据引入 IBM 大模型和开源模型,构建适合其业务和用例的独特模型。

  • 面向平台的方法:watsonx 是一个在 OpenShift 上运行的平台,具有 AI 推理功能并运行 Ray 和 PyTorch 等开源技术。 客户可以将其部署在自己选择的基础架构中,从而可以安全地与企业数据集成。采用私有化部署,无需额外担心数据安全和主权。

  • 客户保护: IBM 标准的知识产权保护 (与其为硬件和软件产品提供的知识产权保护相类似) 将适用于由 IBM 开发的 watsonx 模型。IBM 为其基础模型提供 IP 赔偿 (合同保护),使其客户能够更有信心地使用他们的数据来构建 AI ,这是生成式 AI 竞争优势之所在。客户可以使用他们自己的数据和由 IBM 基础模型所提供的客户保护、准确性和信任来开发他们的 AI 应用程序。

  • 数据和人工智能治理:随着监管人工智能,全球客户面临着利用人工智能安全创造价值的压力。 IBM watsonx 拥有全面、领先的 AI 和数据治理产品组合,提供模型治理、监控,独有的仇恨、辱骂和脏话检测过滤器,支持管理监管要求,以便客户能够以负责任、安全和合乎道德的方式扩展 AI。

参考资料:

[1] https://www.ibm.com/downloads/cas/X9W4O6BM

[2] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster

[3]https://newsroom.ibm.com/IBM-acquires-Manta-Software-Inc-to-complement-data-and-AI-governance-capabilities


关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

了解更多信息,请访问:https://www.ibm.com/cn-zh

END 往期回顾

→新发声&强阵容|齐聚 IBM 企业数据合规治理研讨会

制造企业采用 IBM App Connect 打败应用集成“拦路虎”

wKgaomVcplmARvWxAAU4T0HTDmg558.gif

wKgaomVcplmAU9D1AAEa0eKWCBI781.gif    

wKgaomVcplmACZZoAABAYCxzKA8111.gif

点击“阅读原文”,获取更多内容


原文标题:IBM 专家观点:IBM 大模型揭秘

文章出处:【微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1853

    浏览量

    76784

原文标题:IBM 专家观点:IBM 大模型揭秘

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    IBM与Anthropic达成战略合作

    近日,在面向全球开发者与技术专家的年度盛会 TechXchange 2025 期间,IBM(纽约证券交易所代码:IBM)与Anthropic 宣布达成战略合作:IBM 将 Anthro
    的头像 发表于 10-15 17:55 526次阅读

    IBM联合NASA发布开源AI模型重要突破

    近日,IBM(纽交所代码:IBM)与美国国家航空航天局 (NASA) 联合发布了一款开创性的开源基础模型,可理解高分辨率的太阳观测数据,从而预测太阳活动对地球和太空技术的影响。该模型
    的头像 发表于 09-02 09:16 649次阅读

    OpenAI开源模型登陆IBM watsonx.ai开发平台

    OpenAI 已向公众发布了两款 AI 模型,允许开发者和企业可自由下载、运行并进行定制。其中一款模型现已部署在 IBM watsonx.ai 开发平台上。
    的头像 发表于 08-26 15:36 765次阅读

    IBM发布2025年第二季度业绩报告

    今天,IBM (NYSE: IBM) 发布了 2025年第二季度业绩报告。
    的头像 发表于 07-29 13:55 788次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    逻辑,硬件性能的成本选择,达到的效果, 最后是对人工智能的影响。 Deepseek在技术思路上,采用混合专家系统MoE架构(思维模块),MoE则由多个专家模型组成,在处理任务时,它能够根据任务的特性
    发表于 07-22 22:14

    企业级AI的未来:IBM实现通用型企业级 AI 智能体的重大突破

      作者:吴敏达,IBM科技事业部数据与人工智能资深技术专家 作者简介 :吴敏达是 The Open Group 卓越级技术专家(Distinguished Technical Specialist
    的头像 发表于 07-21 15:14 321次阅读
    企业级AI的未来:<b class='flag-5'>IBM</b>实现通用型企业级 AI 智能体的重大突破

    IBM和Oracle深化合作伙伴关系

    近日,IBM 正在与 Oracle 合作,将 IBM 旗舰 AI 产品组合 watsonx 的强大功能引入 Oracle 云基础设施 (OCI)。 借助 OCI 的原生人工智能服务,IBM 与 Oracle 这一最新里程碑式技术
    的头像 发表于 06-30 14:15 840次阅读

    智能体元年,IBM技术专家怎么看AI智能体?

        作者:吴敏达 IBM 科技事业部数据与人工智能资深技术专家 我们都知道,现在市面上有很多热门的智能体方案,这些方案的特点是简单易用,能够处理各种任务,确实很方便。但它们的一个主要缺点是,它们
    的头像 发表于 05-12 19:09 994次阅读
    智能体元年,<b class='flag-5'>IBM</b>技术<b class='flag-5'>专家</b>怎么看AI智能体?

    IBM发布2025年第一季度业绩报告

    今天,IBM (NYSE: IBM) 发布了 2025年第一季度业绩报告。
    的头像 发表于 04-25 17:40 1245次阅读

    IBM推出新一代大型主机IBM z17

    今天,IBM(纽约证券交易所:IBM)宣布推出新一代大型主机 IBM z17。作为 IBM Z 主机系列的最新旗舰产品,IBM z17 搭载
    的头像 发表于 04-10 14:45 866次阅读

    IBM携手英伟达AI数据平台推动企业级AI创新

    近日,IBM(纽约证券交易所:IBM)宣布与英伟达(纳斯达克股票代码:NVDA)开展全新合作,双方将基于英伟达 AI 数据平台参考架构(reference architecture)进行产品集成
    发表于 03-24 19:20 415次阅读

    IBM携手合作伙伴以AI技术推动行业变革

    在内的特邀嘉宾,以及 40余位 IBM 领导与专家汇聚一堂,共同探讨如何通过 AI 技术构建可持续生态,加速产业客户迈向全球化舞台。
    的头像 发表于 03-20 15:18 1093次阅读

    DeepSeek最新AI模型现已登陆IBM watsonx.ai平台

    ,工程和科学计算提供裨益。 利用已部署的模型(如 IBM Granite,Llama,DeepSeek等)和以下解决方案能力,开发者可以在 IBM watsonx.ai 内构建 AI 解决方案:以易于理解的格式和UI测试和评估
    的头像 发表于 02-08 09:21 1038次阅读

    IBM携手欧莱雅开发首个可持续化妆品AI模型

    近日,IBM(纽约证券交易所:IBM)与全球领先的化妆品公司欧莱雅(L’Oréal)宣布最新合作成果,即利用 IBM 的生成式人工智能 (Gen AI) 技术和行业专长,发掘化妆品配方数据中隐藏
    的头像 发表于 01-21 09:22 980次阅读

    IBM光学技术新进展:光电共封装提升AI模型效率

    近日,据最新报道,IBM在光学技术领域取得了新突破,这一进展有望大幅提升数据中心训练和运行生成式AI模型的效率。 为了实现这一目标,IBM推出了新一代光电共封装(CPO)工艺。这一创新技术利用
    的头像 发表于 12-18 14:26 1280次阅读