0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云存储针对AIGC大模型业务的应对之道

高端存储知识 来源:高端存储知识 2023-06-08 09:48 次阅读

AIGC,即人工智能生成内容,是指利用人工智能技术,根据用户的需求和意图,自动生成文本、图片、音视频等多种形式的内容。AIGC具有高效、多样、创新的特点,可以应用于娱乐、教育、营销、新闻等多个领域,为用户带来更丰富的体验和价值。

比如我这篇文章的配图,就是用AIGC生成的。我在bing图像创建器里面输入提示词“一个聊天机器人在给病人做心理咨询”,就可以得到上面的图片。

而大模型是指具备海量参数和复杂结构的人工智能模型。例如,GPT-3是一种具有1750亿个参数的大型语言模型,具备惊人的语言理解和生成能力。大模型的训练需要大量的计算资源和数据,但其带来的创作能力和自动化程度是前所未有的。大模型可以通过输入一小段文本,自动生成连贯、有逻辑的文章,为创作者提供了强大的辅助工具。

有大模型加持的AIGC随着chatGPT的火爆,已经是路人皆知了。很多企业也纷纷加入了这个领域的竞争。对大模型AIGC的支持也成了很多先进企业选择云基础设施重点考虑的因素。 而腾讯云作为国内领先的云计算服务商,为AIGC大模型场景提供了全面的解决方案。今天,我们就从存储的视角,看看腾讯云存储给AIGC场景提供哪些针对性的解决方案。

011e933a-0483-11ee-90ce-dac502259ad0.png

崔剑作为腾讯云存储产品团队的一员,他从腾讯云存储团队的角度,向大家介绍他们对AIGC场景的思考以及目前的工作和未来计划,旨在帮助国内从事AIGC相关业务的公司更好地进行大模型训练。

大规模训练对于开发者朋友们来说并不陌生。崔剑解释说,大规模训练可以分为两个阶段:训练和推理。在训练阶段,AIGC团队从各个网站收集各种待训练素材,包括他们自己生成的素材。这些初始素材经过初步清洗和标注后,被送入GPU进行训练。训练完成后,训练结果被输入到神经网络中,使得大模型训练的神经网络变得越来越智能

在训练场景中,数据存储起着至关重要的作用。为了满足不断增长的数据规模和多样化的数据类型,训练场景对存储系统有以下关键要求:

1. 数据湖统一存储:训练场景需要一个统一的数据湖存储系统,能够容纳不同来源和格式的数据。这种统一存储能够将数据集中管理,提供一致的接口和访问方式,简化数据管理和查询操作,从而提高效率。

2. 自由流动的数据:在训练场景中,数据的自由流动至关重要。存储系统应该提供高效的数据交换和传输机制,以便数据在不同业务之间自由流动。这样可以实现数据共享和协作,避免数据孤岛的问题,并且促进跨部门和跨团队的合作。

3. 高吞吐、低时延:由于训练场景通常涉及大规模数据处理和计算,存储系统需要具备高吞吐和低时延的能力。高吞吐能够支持快速读写操作,提供稳定的数据传输速度。低时延可以减少数据访问的延迟,确保训练任务能够及时响应和迭代。

综上所述,训练场景对存储系统有着数据湖统一存储、自由流动的数据、高吞吐和低时延的关键要求。满足这些要求的存储系统能够支持高效的数据管理、协作和处理,为训练场景的成功实施提供可靠的基础。

基于这些训练结果,业务团队将其进行推理和应用的封装。推理和应用包括文本生成、图像生成、视频生成等功能。终端用户可以提供输入,例如一段文本,希望生成相应的图像或古诗。输入进入推理系统后,系统基于神经网络的积累,通过服务端返回结果。在这个过程中,还有一些重要的旁路模块,如内容审核。

由于所有内容都由机器生成,可能涉及政治、色情或恐怖主义等问题,各大平台都投入了大量资源进行内容审核。 推理的结果可以应用于2B或2C的平台。对于2B平台,需要对推理结果进行管理,可能还需要下游内容管理的解决方案。崔剑表示,腾讯云在AIGC领域投入了大量精力,提供全面的解决方案,包括计算、存储、网络、容器和云原生等调度能力。时间有限,崔剑仅从存储团队的角度介绍了他们在腾讯云AIGC解决方案中的贡献。

018ae062-0483-11ee-90ce-dac502259ad0.png

AIGC的核心要素包括内容生成、内容审核和内容智理三个维度。内容生成是指利用深度学习模型,根据用户输入的关键词、语句或图片等信息,生成相应的内容。内容审核是指对生成的内容进行合法性、合规性和质量的检测和筛选,防止出现违规、低俗或不符合用户期望的内容。

内容智理是指对生成的内容进行结构化、分类、标签化等处理,提高内容的可检索性和可利用性。 腾讯云作为国内领先的云计算服务商,为AIGC场景提供了全面的解决方案,其中和云存储相关的包括:

- COS对象存储数据湖:基于腾讯云对象存储服务,为AIGC提供海量、安全、低成本的数据存储空间,支持多地域部署和跨地域复制,满足AIGC数据管理的需求。

- GooseFS数据加速:基于腾讯云自研的分布式缓存系统,为AIGC提供高性能缓存服务,利用GPU节点的内存或NVME SSD作为缓存介质,实现数据与计算节点的就近访问,提升数据访问效率。

- 数据万象内容审核:基于腾讯云数据万象服务,为AIGC提供全方位的内容审核服务,包括文本审核、图片审核、音视频审核等,利用业界领先的语义模型和海量的违规词库,快速识别出生成内容中包含的违规、低俗或不合适的信息。

- 企业网盘数据智理:基于腾讯云企业网盘产品,为AIGC提供高效的数据智理服务,包括对用户的数据集、Fine-tuned models、生成的内容进行结构化、分类、标签化等处理,并支持多模态检索和跨平台分享。 通过以上解决方案,腾讯云为AIGC场景提供了端到端的支持,帮助开发者们快速搭建AIGC应用平台,实现内容生成革命。

西瓜哥做存储很多年,采用对象存储做数据湖,采用分布式文件系统做大模型训练加速,这都是业界的常见做法,我也很容易想到,相信其他公有云厂商也是如此。但是,腾讯云引入了成熟的数据万象内容审核平台,帮助用户解决AIGC的合规问题,尤其有价值。并且最后通过网盘对AIGC的产出内容进行高效的管理,让AIGC的价值充分释放,我觉得也是腾讯云的一个亮点。

针对腾讯云存储的AIGC解决方案,有四个重要的步骤。

Step.1

01e91d26-0483-11ee-90ce-dac502259ad0.png

第一步是数据集下载和预处理,在这一关键步骤中,国内的公司与国外的ChatGPT存在一些差距。崔剑认为,这种差距主要体现在两个方面。首先是算法方面,虽然ChatGPT在早期的几个版本中公开了一些算法,但新版本的算法并没有公开,因为他们认为这是他们的核心竞争力之一。

其次是标注能力,这可能是大家容易忽视的因素。质量好坏与标注的准确性有关。对于经典的AI标注来说,例如对一张图片进行标注,判断其中是否有人物或风景,如果是人物,还要判断性别和肤色等,这些问题可以通过简单的问答进行标注。

然而,在大规模模型训练中,对结果的精确度要求非常高,且复杂度较高,因此标注环节的技术要求较高。问题不在于是否能正确回答问题,而在于提问者如何提出问题,问题的质量将决定标注数据的水平,而标注数据集的质量则决定了最终产物的质量,这也是一个核心竞争力所在。

由于国内公司在这方面的积累时间相对较短,可能会根据自身的技术积累进行标注,也会从国外网站获取数据。国外有一些网站提供了这样的服务,用户可以免费下载已标注好的数据作为训练素材集的冷启动。 对于从国外网站获取数据这个场景,国内许多公司的第一步是拉取数据,但面临一个问题,即如何快速将这些数据拉回国内。

在这方面,腾讯云提供了多种解决方案,包括离线、在线、存量和增量数据等。针对这个场景,腾讯云的解决方案是MSP腾讯数据迁移平台。它是一个PaaS平台,通过可视化操作,可以将数据从国外网站快速拉取到国内存储桶中,这就完成了第一步的操作。

Step.2

025fb904-0483-11ee-90ce-dac502259ad0.png

第二步就是训练了。在训练过程中,存储在配合GPU的使用上起到了重要的作用。由于GPU的稀缺性和珍贵性,我们必须在存储方面做好数据拉取加速,以更好地提供数据给GPU,避免浪费时间,并尽快将数据传输给GPU,从而减少GPU等待时间,提高GPU算力的利用率,从而节省成本。为了实现这个目标,我们需要分析整个训练流程是怎样的。

整个训练流程中,涉及到大量的IO操作。原始素材由用户汇集在云上对象存储的存储桶中,上面架设了GPU。训练模型这一方面会进行高带宽的数据拉取,将待训练的素材批量拉取到本地,方便对待训练素材进行向量化压缩和本地模型运算。

然而,在进行本地模型算力过程中,会不断进行Checkpoint的回写操作。不同厂家的回写策略不同,但都会周期性回写一次Checkpoint大文件,这对存储侧的写带宽和读带宽都有较高的要求。 为了满足用户对带宽和IO性能的高要求,腾讯云提供了一套方案。

COS对象存储汇集用户全量素材的产品,决定要拉取哪些数据可能会根据每日或每周的待训练任务而变化。推荐用户通过预热的方式将数据Load到GooseFS中。GooseFS是部署在用户计算端或近计算端的本地文件系统,它有效利用了GPU本地的SSD资源。

在常见的GPU卡中,都搭载了三到四块SSD盘,我们可以充分利用多台GPU本地SSD盘,将其构建成一个统一的GooseFS文件系统。一旦数据拉到本地GooseFS后,用户即可以在GPU本地进行更高效的读写训练操作。 在这个方案中,腾讯云希望持续打磨GooseFS这一层的能力,充分发挥方案价值。

如果用户直接从COS读取数据可能会在性能上存在一些瓶颈,从绝对的数据角度来看,各家COS服务商根据单个逻辑桶提供OPS,一个单桶可能只能提供3万OPS,也只能提供2GB的带宽,即15-16 GBps。这显然是不够的。然而,如果能事先一次性将数据Load到GPU本地,运行本地的GooseFS,释放本地SSD的带宽,那么GooseFS可以达到TB级的带宽,能够充分满足GPU本地训练框架的性能要求。

整体的训练加速比可以提升数十倍。此外,除了GooseFS层面的加速,如果需要的话,还可以进行AZ级服务端加速,进一步提升整个训练过程的效率。

Step.3

028a0286-0483-11ee-90ce-dac502259ad0.png

第三步就是推理了。在推理阶段,腾讯云已经走得比较快,开始考虑商业化或产品化的封装,这一步非常重要。腾讯云提供了一套内容审核方案,整个流程相对简单易懂。用户首先在AIGC产品客户端输入一个要执行的任务,但是用户输入的文字需要经过审核,因为有些描述可能不合规范。

因此,腾讯云先进行审核,检查用户输入的内容是否有问题。如果没有问题,数据就会传递到模型大脑这一层。模型大脑根据输入进行分析和理解,并指导用户获取他们想要的结果。然后,在第③步中,产出的结果会再次发送到腾讯云内容审核的服务端进行审核。一旦审核通过,结果将在第④步和第⑤步之后再次返回给用户。 崔剑介绍,腾讯云存储数据万象产品提供了数据处理和数据审核服务,已经成功运营多年。在审核能力和精准度方面,腾讯云在行业内处于领先地位。

Step.4

02bb77da-0483-11ee-90ce-dac502259ad0.png

最后就是结果的管理了。在最后一步中,推理产物的使用者可能是个人,也可能是一家公司。对于后者,可能需要涉及到下游流程。根据业务需求,公司通过接口请求获取推理产物,并需要进行管理。这个产物可能会作为知识库的一部分存储在公司内部,也可能需要在公司内部进行分发或汇总。为了解决这个问题,腾讯云存储团队提供了企业网盘作为最终闭环的解决方案。企业网盘是一种常见的SaaS办公软件,可以提供文件多人协作、一对多、多对多、多对一的文件分发和共享功能,同时支持移动办公。

在上面的四个部分,比较触动俺西瓜哥的其实是第一步。因为我知道,数据的收集和整理是最难的,也是工作量最大的。腾讯云能够提供很多自动化的数据迁移和标注工具,这个对用户的帮助是真的很大。俗话说,数据管理汇-存-算-管-用,汇是第一步。腾讯云的AIGC解决方案也覆盖了所有的这些标准动作,形成了闭环。

除了在AIGC产品中提供闭环解决方案外,腾讯云存储还在底层不断升级引擎,降低成本、提高性能和可靠性。在产品能力方面,腾讯云存储拥有三个核心产品。首先是公有云存储COS,其次是私有云存储TStor,该产品将存储技术集成到一体机中,可供企业进行线下部署。最后是智能存储的核心产品数据万象CI,它可以帮助用户处理存储在云上的数据,例如为图片打水印、进行转码和审核等智能存储功能。

032dedd8-0483-11ee-90ce-dac502259ad0.png

腾讯云存储团队孵化了许多PaaS和SaaS级存储产品,包括数据湖存储GooseFS、企业网盘和视图计算等。这些产品旨在满足不同行业和使用场景的需求。 腾讯云存储团队与腾讯云的各个行业团队紧密合作,为各个行业提供定制的解决方案,以满足其特定需求。不论您所在的行业是哪个,腾讯云存储团队都致力于提供优质的服务。

根据崔剑老师的介绍,我们了解到腾讯云存储针对AIGC的解决方案主要包括以下几个方面:

-在数据集的下载和预处理阶段,提供MSP数据迁移平台,帮助用户快速将标注好的数据迁移到云上对象存储桶。

- 在大模型训练阶段,提供 GooseFS 分布式文件系统,利用 GPU 本地的 SSD 资源,加速数据的拉取和缓存,提高 GPU 算力利用率,实现训练加速。

- 在推理阶段,提供数据万象的内容审核服务,对用户输入和推理产物进行质量把控,防止涉政、涉黄、涉恐等问题。

- 在推理产物管理阶段,提供企业网盘服务,支持文件多人协作、共享、分发和移动办公,帮助用户管理和利用推理产物。

西瓜哥的简单解读就到这里了,我们看到,腾讯云存储团队为 AIGC 领域提供了一套全面、高效、智能的解决方案,从数据集的下载和预处理,到大模型训练,再到推理和推理产物管理,展现了强大的技术实力和创新能力。这些解决方案不仅降低了用户的成本和时间,提高了用户的效率和质量,还为用户带来了更多的可能性和价值。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27052

    浏览量

    201435
  • 人工智能
    +关注

    关注

    1776

    文章

    43899

    浏览量

    230645
  • ChatGPT
    +关注

    关注

    27

    文章

    1411

    浏览量

    4776
  • AIGC
    +关注

    关注

    1

    文章

    262

    浏览量

    914

原文标题:揭秘腾讯云存储针对AIGC大模型业务的应对之道

文章出处:【微信号:High-end_Storage,微信公众号:高端存储知识】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    存储隐藏成本

    成本会随着逐渐扩展的业务快速累加起来。有时候这些被称之为存储的“隐藏成本”,这些成本如果不做一下存储成本分析或者计算一下具体交易的潜在成
    发表于 09-23 14:48

    视频监控业务方案解析

    摘要: 阿里针对安防监控服务在传统IT架构下面临的上述问题,基于阿里存储服务,提供视频监控解决方案。从2015年推出视频监控存储与播放解
    发表于 01-03 11:24

    阿里弹性计算Apsara Block Storage正式发布 构建企业级分布式块存储服务平台

    Storage可兼容多种类型的计算平台,包括阿里ECS、ZStack、OpenStack、Kubernetes以及物理服务器等不同类型,帮助客户轻松应对时代下海量存储资源的敏捷存
    发表于 06-14 17:09

    阿里Apsara Block Storage企业级分布式块存储产品,轻松应对时代下海量数据的敏捷存取需求

    ECS,ZStack,Openstack, Kubernetes以及物理服务器等不同类型,帮助客户轻松应对时代下海量存储资源的敏捷存取需求。Apsara Block Storage横空出世
    发表于 06-19 15:20

    【推荐体验】腾讯自然语言处理

    自然语言处理技术的功劳。可以说,只要有大量文本数据的应用场景,几乎都涉及到NLP技术,也都可以使用相关自然语言处理产品的接口来做智能分析。比如:社交媒体上的用户言论,可以使用腾讯NLP的情感分析接口,来做
    发表于 10-09 15:28

    如何针对自己的业务选择香港服务器

    就会越快。 2、操作系统香港服务器操作系统主要有windows系统和linux系统,这个选择很简单,只需要根据自己业务需求选择对应的系统就可以了,如果是不太熟悉的,用windows还是比较方便些。 3
    发表于 03-26 19:51

    eFuse如何应对应用过流保护的挑战?

    如今,新的复杂业务模型正采用基于的平台,通过省去内部数据中心,以提高效率,减少资本支出(CAPEX)和运营支出(OPEX)。采用存储和基
    发表于 10-29 07:10

    科技报道:率先迈入“10微秒”时代,腾讯存储跑出加速度 精选资料分享

    供应商。这一事实让人们惊讶地发现,原来存储成为企业级市场事实标准的时代真的来临了。存储作为一项新兴技术,在过去很长一段时间内,难免被拿来与传统
    发表于 07-12 06:16

    三大产品+三维生态,腾讯存储新蓝图来了 精选资料分享

    腾讯存储,正在形成面向未来的蓝图。在5月10日腾讯存储产品战略发布会上,
    发表于 07-12 07:35

    AT指令对接腾讯的使用方法

    文章系列:【腾讯物联开发平台笔记1】AT指令对接腾讯基本使用;【腾讯物联开发平台笔记 2】
    发表于 11-26 06:23

    【合作伙伴】腾讯--产业智变,启未来

    腾讯腾讯腾讯集团倾力打造的计算品牌,面向全世界各个国家和地区的政府机构、企业组织和个人开
    发表于 12-12 10:06

    Fibocom 公有腾讯 技术资料

    Fibocom 公有腾讯 技术资料内容如下:1、腾讯连接教程2、腾讯连连小程序使用教程3
    发表于 01-05 12:00

    科技大厂竞逐AIGC,中国的ChatGPT在哪?

    。 图源:OpenAI官网 中国AI水平与ChatGPT有多大的差距?中国如何训练出这样的GPT大模型?难点又在哪里? ChatGPT是AIGC的一种实现。在AIGC的大模型建设
    发表于 03-03 14:28

    中软国际AIGC业务亮相2023中国算力大会

    ​ 2023中国算力大会于8月18日在宁夏银川成功召开,中软国际携AIGC业务创新成果受邀参会,由AIGC研究院高级专家赵飞在“创新中国行走进银川·路演专场”活动中,向参会嘉宾介绍中软国际AI
    的头像 发表于 08-19 19:15 397次阅读

    腾讯发布混元大语言模型

    腾讯发布混元大语言模型 腾讯全球数字生态大会上腾讯正式发布了混元大语言模型,参数规模超千亿,预训练语料超2万亿tokens。 作为
    的头像 发表于 09-07 10:23 854次阅读