0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

北京拟对AI训练所需的算力推行统筹供给

OSC开源社区 来源:OSC开源社区 2023-05-18 15:01 次阅读

北京市发布了《北京市促进通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》,意见截止日期 19 日。

b1695708-f4d8-11ed-90ce-dac502259ad0.png

公告地址:https://www.beijing.gov.cn/hudong/gfxwjzj/zjxx/202305/t20230515_3103080.html

征求意见稿提出,“加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等,向在京高校院所和中小企业公布一批优质算力供应商。将新增算力建设项目纳入算力伙伴计划,加快推动海淀区 “北京人工智能公共算力平台”,朝阳区 “北京数字经济算力中心” 等项目建设,快速形成规模化先进算力供给能力,支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。..”

《若干措施》针对加强算力资源统筹供给能力、提升高质量数据要素供给能力、系统布局大模型技术体系持续探索通用人工智能路径、推动通用人工智能技术创新场景应用、探索营造包容审慎监管环境五大方向,明确组织机制,提出 21 项具体措施。

一、加强算力资源统筹供给能力

(一)组织商业算力定向满足本市紧迫需求

加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等,向在京高校院所和中小企业公布一批优质算力供应商。

(二)高效推动新增算力基础设施建设

将新增算力建设项目纳入算力伙伴计划,加快推动海淀区 “北京人工智能公共算力平台”,朝阳区 “北京数字经济算力中心” 等项目建设,快速形成规模化先进算力供给能力,支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。

(三)建设统一的多云算力调度平台

利用政府统一入口,降低公有云采购成本,普惠中小企业,同时减少企业分别面对不同云厂商的沟通成本。针对弹性算力需求,建设统一的多云算力调度平台,实现异构算力环境统一管理、统一运营,方便企业在不同云环境上无缝、经济、高效地运行各类人工智能计算任务。建设北京与河北、天津、山西、内蒙古等省(市)算力集群的直连基础光传输网络,进一步提升平台对四地算力资源感知能力,探索开展算力交易。

二、提升高质量数据要素供给能力

(四)归集高质量基础训练数据集

针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

(五)打造 “国家数据基础制度先行先试示范区”,谋划国家级数据训练基地

加快推动数据要素高水平开放的 “国家数据基础制度先行先试示范区” 建设,争创国家级数据训练基地,提升北京人工智能数据标注库规模和质量。倡议高质量数据网站所属企业提供部分脱敏高质量数据,进行定向有条件开放,企业或科研机构通过在线申请进行有偿使用,并探索基于数据贡献、模型应用的商业化场景合作。

(六)搭建数据集精细化标注众包服务平台

建设指令数据集及多模态数据集众包服务平台,开发集成相关工具应用的智能云服务系统,鼓励并组织来自不同学科的专业人员标注通用人工智能模型训练数据及指令数据,提高训练数据的多样性,给予贡献者适当奖励,推动平台持续良性发展。

三、系统布局大模型技术体系,持续探索通用人工智能路径

(七)开展大模型创新算法及关键技术研究

围绕大型语言模型构建、训练、调优对齐、推理部署等全流程,支持开展创新算法及核心技术研究,形成完整高效的训练体系并对外开源。探索多模态通用模型架构,研究大模型高效并行训练技术,以及逻辑和知识推理、指令学习、人类意图对齐等调优方法,研发支持百亿参数模型推理的高效压缩技术。

(八)加强大模型训练数据采集及治理工具研发

从 “采、存、管、研、用” 五个方面,研发包含数据采集、清洗、标注、脱敏、存储等功能在内的数据处理工具。重点研究互联网数据全量实时更新技术,多源异构数据整合与分类方法,数据管理平台相关系统,数据清洗、标注、分类、注释等软件工具及算法,数据内容安全审查算法及工具等。

(九)开放大模型评测基准及工具

构建多模态多维度的基础模型评测基准及评测方法。建立基础模型评测工具集,提供适应性的工具进行评测。建立公平高效的自适应评测机制,根据评测目标的不同,自动适配不同的工具和指标。研究人工智能辅助的智能模型评测算法,面向主观型或生成式的任务,构建自动化评估工具。集成包括通用性、高效性、智能性、鲁棒性在内的多维度评测工具,构建基础模型线上评测服务平台。

(十)推动大模型基础软硬件体系研发

支持研发分布式高效训练系统,实现模型训练任务高效自动并行。研发适用于模型训练场景的新一代人工智能编译器,实现算子自动生成和自动优化,推动人工智能芯片与框架的广泛适配。研发人工智能芯片评测系统,实现多芯片多框架的自动化评测。为大模型训练和应用提供自主创新的基础软硬件生态底座。

(十一)探索具身智能、通用智能体和类脑智能等通用人工智能新路径

发展面向通用人工智能的基础理论框架体系,加强人工智能数学机理、自主协同与决策等基础理论研究。推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。探索价值与因果驱动的通用人工智能新路径研究,打造通用人工智能统一理论框架体系、评级标准及测试平台,研发通用人工智能操作系统编程语言,推动通用智能体底层技术架构应用。探索类脑智能等交叉学科研究,通过大脑神经元连接模式、编码机制、信息处理原理研究,启发新型人工神经网络模型建模和训练方法。

四、推动通用人工智能技术创新场景应用

(十二)推动在政务服务领域率先试点应用

围绕政务咨询、政策服务、接诉即办、政务办事等工作,率先实现大模型技术赋能。借助大模型语义理解、自主学习和智能推理等能力,提高政务咨询系统智能问答水平,增强多语种交互能力。支撑 “京策” 平台建设,优化政策规范管理和精准服务。辅助市民服务热线更高效回应市民诉求,深化民生大数据高效利用。提升办事服务便利度,辅助引导办事人员表单填写,辅助综合窗口人员更精准提供办事指引,辅助审批人员提高审批效率,推进业务数据更充分共享、业务流程更高效协同。

(十三)探索在医疗领域示范应用

支持我市有条件的研究型医疗机构提炼智能导诊、辅助诊断、智能治疗等场景需求,充分挖掘医学文献、医学知识图谱、医学影像等多模态医疗数据,构建基于医疗领域通用数据与专业数据的智能应用,实现对各种疾病和症状的准确识别和预测,辅助医疗机构提高疾病诊断、治疗和预防的决策水平。

(十四)探索在科学研究领域示范应用

发展科学智能,加速人工智能技术赋能新材料和创新药物领域科学研究。支持我市能源、材料、生物领域相关实验室设立科研合作专项,与我市相关科研机构和创新企业开展联合研发,充分挖掘材料、蛋白质和分子药物领域实验数据,研发科学计算模型,开展新型合金材料、蛋白质序列和创新药物化学结构序列预测,缩短科研实验周期。

(十五)推动在金融领域示范应用

进一步挖掘我市金融行业应用场景,系统布局一批金融机构场景开放 “揭榜挂帅” 项目。支持金融科技企业针对金融场景中信息负载高,信息更新快,金融从业者难以快速全面的获取准确信息的问题,探索面向金融文本深度理解和分析的人工智能技术应用。聚焦智能风控、智能投顾、智能客服等环节,推动实现金融专业长文本的精准解析和模型知识的更新,突破复杂决策逻辑与模型信息处理能力间的融合技术,实现从复杂金融信息处理到投资决策建议的转化,支撑金融领域的投资辅助决策。

(十六)探索在自动驾驶领域示范应用

支持自动驾驶企业研发多模态自动驾驶技术,发挥大型语言模型高维语义理解和泛化优势,基于车路协同数据和车辆行驶多传感器融合数据,提高自动驾驶模型多维感知和预测性能,有效解决复杂场景长尾问题,辅助提高车载自动驾驶模型泛化能力。支持在北京市高级别自动驾驶示范区 3.0 建设中,构建车路协同数据库,引导企业开展基于真实场景的自动驾驶模型训练迭代。探索基于低时延通讯的云控自动驾驶模型测试,发展自动驾驶新技术路径。

(十七)推动在城市治理领域示范应用

支持人工智能研发企业结合智慧城市建设场景需求,率先在城市大脑建设中引进大模型技术,开展多感知系统融合处理技术研发,打破城市治理中各系统数据孤岛,实现智慧城市底层业务的统一感知、关联分析和态势预测,科学调配政府资源和行政力量,为城市治理提供更加综合全面的辅助决策能力。

五、探索营造包容审慎的监管环境

(十八)持续推动监管政策和监管流程创新

探索营造稳定包容的监管环境,积极推动人工智能领域新技术赋能传统行业的包容审慎监管,支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作。鼓励优先采用安全可信的软件、工具、计算和数据资源,通过改进算法等技术手段,确保训练数据集的规范性。鼓励生成式人工智能产品在科研等非面向公众服务领域实现向上向善应用。积极向国家网信部门争取,在中关村核心区建立先行先试,推动实行包容审慎监管试点。

(十九)建立常态化服务和指导机制

做好对拟面向公众提供服务的生成式人工智能产品的安全评估工作,建立常态化联系服务和指导机制,督促企业遵守法律法规要求,尊重社会公德、公序良俗。优化安全评估流程机制,细化对大模型算法设计、训练数据源筛选、内容安全性、人工标注规则的审核评估标准,开展精准化服务指导,加快推进我市人工智能企业相关技术产品的安全评估工作。指导企业建立健全算法安全防范机制,在产品研发阶段引入技术工具进行安全检测,督促企业积极履行算法备案和变更、注销备案手续。发布《北京市互联网信息服务算法推荐合规指引》,引导创新主体树立安全责任意识,健全管理制度、强化技术手段、促进企业算法合规发展。

(二十)加强网络服务安全防护和个人数据保护

指导算力运营主体落实《网络安全法》《数据安全法》《个人信息保护法》等法律规定,加强网络和数据安全管理,明确网络安全、数据安全和个人信息保护主体责任,强化安全管理制度建设和工作落实,鼓励企业开展数据安全管理认证及个人信息保护认证,落实数据跨境传输安全管理制度,全面提升网络安全和数据安全防护能力。

(二十一)持续提升人工智能产业伦理治理自律自治能力

落实国家新一代人工智能创新发展试验区建设任务,加强人工智能伦理安全规范及社会治理实践研究,研发并部署人工智能伦理治理公共服务平台,服务政府监管与产业自律自治,强化相关责任主体科技伦理规范意识,提升科技伦理治理能力。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43871

    浏览量

    230627
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14360

原文标题:北京拟对AI训练所需的算力推行统筹供给

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI训练,为什么需要GPU?

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人工智能(AI
    的头像 发表于 04-24 08:05 630次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要GPU?

    阿里云内部全面推行AI写代码

    阿里云正在内部全面推行 AI 编程,使用通义灵码辅助程序员写代码、读代码、查 BUG、优化代码等。
    的头像 发表于 04-07 09:22 259次阅读

    DocuSign拟用用户合同数据训练AI,引争议

    据了解,DocuSign计划借助微软Azure上的OpenAI工具,如GPT技术,以训练其所谓的“撰写协议”模型,并且从用户提供的大量数据中,训练出专属的人工智能(AI)模型,但这部分数据并无公开之意。
    的头像 发表于 03-04 15:45 154次阅读

    芯耀辉DDR PHY训练技术简介

    DDR接口速率越来越高,每一代产品都在挑战工艺的极限,对DDR PHY的训练要求也越来越严格。本文从新锐IP企业芯耀辉的角度,谈谈DDR PHY训练所面临的挑战,介绍芯耀辉DDR PHY训练的主要过程和优势,解释了芯耀辉如何解决
    的头像 发表于 01-05 10:27 677次阅读
    芯耀辉DDR PHY<b class='flag-5'>训练</b>技术简介

    “创客北京2023”算能·企业AI+TPU专项赛获奖名单出炉!

    近日,“创客北京2023”算能·企业AI+TPU专项赛决赛圆满落幕。417个各具特色的创新创业项目入选算能专项赛道,经过层层选拔,11个项目脱颖而出!算能大模型产品总监孙哲代表算能在活动上致辞
    的头像 发表于 10-10 10:17 466次阅读
    “创客<b class='flag-5'>北京</b>2023”算能·企业<b class='flag-5'>AI</b>+TPU专项赛获奖名单出炉!

    面向边缘的集成AI训练和推断解决方案

    电子发烧友网站提供《面向边缘的集成AI训练和推断解决方案.pdf》资料免费下载
    发表于 09-13 10:25 0次下载
    面向边缘的集成<b class='flag-5'>AI</b><b class='flag-5'>训练</b>和推断解决方案

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    转自https://m.ithome.com/html/714391.htm 2023 RISC-V 中国峰会8月23日在北京召开,平头哥在会上发布了首个自研 RISC-V AI 平台。 据介绍,该
    发表于 08-26 14:14

    实现生成式AI的关键半导体技术

    实现生成式AI的另一项关键技术是服务器的主内存。这些服务器用于访问和转换提供给先进训练引擎的数据,在保持训练流程的完整性方面起到了关键作用,而且对于找出实现高精度
    的头像 发表于 08-25 15:15 478次阅读

    如何在SAM时代下打造高效的高性能计算大模型训练平台

    在一起,从而显著提升模型的泛化能力。SAM 的设计初衷是简化图像分割的过程,减少对专业建模知识的依赖,并降低大规模训练所需的计算资源。
    的头像 发表于 08-21 04:02 1359次阅读
    如何在SAM时代下打造高效的高性能计算大模型<b class='flag-5'>训练</b>平台

    AI新品 | 兆瀚RA5900-B AI训练服务器

    END 原文标题:AI新品 | 兆瀚RA5900-B AI训练服务器 文章出处:【微信公众号:拓维信息】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 08-14 17:25 643次阅读

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25

    NVIDIA Omniverse让AI训练变得更加简单易用

    Rendered.ai 将 NVIDIA Omniverse Replicator 集成到其合成数据生成平台,使 AI 训练变得更加简单易用。
    的头像 发表于 07-24 09:14 834次阅读
    NVIDIA Omniverse让<b class='flag-5'>AI</b><b class='flag-5'>训练</b>变得更加简单易用

    NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练大模型的训练速度。在实际应用中, 训练提速 60% ,满足了下游业务应用对模型
    的头像 发表于 05-26 07:15 447次阅读
    NVIDIA <b class='flag-5'>AI</b> 技术助力 vivo 文本预<b class='flag-5'>训练</b>大模型性能提升

    什么是预训练AI模型?

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。
    的头像 发表于 05-25 17:10 638次阅读