0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

风靡万千软件开发者:揭秘华为研发代码大模型是如何实现的?

华为DevCloud 来源:未知 2023-12-15 15:50 次阅读

作者 | 陈泰红

秉持“自己的降落伞,自己先跳”的原则,由公司装备部门牵头,携手华为云PaaS作为基础能力提供方,与公司各产品线共同研发面向产业的代码大模型。在研发过程中,我们已取得初步成果,为了巩固各产品线的代码生成探索经验,我们将产品线研发成果迅速投入业务应用。在此基础上,我们总结了前期的方法和经验,期待更多产业的加入与交流,共同推动产业代码大模型的演进与推广落地。

本文深入探讨了当前研发大模型在实际产品中代码生成能力所面临的挑战,阐述了探索的总体思路、数据标准与语料层次、演进策略以及模型训练方案设计。同时,还介绍了RAG方案设计以及某产品线Dopra在真实场景中的应用,并总结了一套可快速复制的方法论。最后,对未来发展趋势进行了讨论:研发大模型是否有可能取代程序员

一、产业研发大模型面临的挑战

华为拥有超过10万名代码开发者,每天新增代码行数达千万级别。在这种情况下,提高开发过程的效率变得至关重要。研发过程涵盖了需求理解、系统分析与设计、软件开发(包括手工编写代码、测试用例、代码检视)、系统集成与验证以及研发维护等环节。在整个研发过程中,编写代码的部分大约占据20%的比重。在人工智能大模型的时代,为了提升研发效率,利用大模型辅助生成代码的需求已经迫在眉睫。

在与产品线领域代码专家进行交流时,我们发现,由于产业数据未纳入训练过程,开源代码大模型在研发阶段基本上无法发挥作用。在产业领域,我们面临以下挑战:

首先,信息通信技术ICT)专业领域知识繁杂且多变,开源模型未系统学习过程领域知识和系统设计等方面,因此难以处理复杂任务。

其次,华为代码仓库中存在数十万自定义的数据类型、函数API和变量引用,这些代码的语义复杂性较高。由于公司部分产业导向代码自注释,结构类型和成员、函数、变量缺少足够的人工注释。

此外,代码具有单一性,不同产品之间的代码关联性较小,导致代码语料数据泛化性不足。同时,文本与代码关联的语料数据在质量和数量方面都存在不足。华为嵌入式系统主要基于C/C++开发,C/C++代码具有固有特征,如头文件机制使类型和函数逻辑实现分离,状态空间更为庞大。

最后,代码依赖链路较长,涉及Void *、指针、结构体、宏定义、头文件等多种元素。项目级的跨文件和多层嵌套导致上下文依赖链路较长,从而降低了代码生成的准确性。

根据实地考察的业务需求以及公司研发战略目标,我们将重点关注具有业务价值的场景。目前,研发大模型项目组正致力于攻克代码辅助生成(C/C++/Java/Python)的难题,以构建软件领域的代码大模型,从而推动软件开发领域的新范式。

二、研发大模型构建探索总体思路

为了提高研发迭代的反馈效率,华为云PaaS大模型团队制定了5项数据标注与清洗规范、以及5个脚本工程项目。

wKgZomV8Bl2AZNSTAAMpL8nsZfM172.png

图1 研发大模型探索的总体思路

在整个流程中,从原始训练语料的准备与清洗、SFT语料的提取,到训练、评估和部署的全自动化操作,华为云PaaS团队已经制定了5个数据标注和清洗规范。在训练流水线过程中,涉及到的5个脚本工具(包括清洗工具、SFT提取工具、训练脚本工程、部署脚本工程和IDE插件)也已经得到了产品线业务专家的认可和落实。这些措施显著提高了大模型研发的效率。

三、那些数据应该参与研发大模型的训练?

数据是大模型研发的基石,其质量直接影响到模型的最高性能。若大模型未经过专业领域数据的训练,就如同“文科生学理科”。针对产业特有的数据特征和挑战,我们首先对产业数据的训练配方表进行了梳理。明确了训练语料的范围、目标、场景、数据标准、处理规则、处理工具、试点产业以及质量评价等相关信息。

wKgZomV8Bl6AU7bTAAHZ4zYFam8503.png

图2 研发大模型语料层次表

L0 开源阶段

对 GitHub、Stack Overflow 等高质量数据进行清洗。

L1 RawCode 阶段

清洗华为语料库中的 30 亿 tokens,涉及公司 10 余个产品线,以增强华为业务代码的基础能力。

L2 领域数据-SFT 阶段

包括代码地图、项目级的跨文件信息以及工程规范。通过 SFT 指令微调,利用跨文件上下文信息和领域专业知识,解决生成代码中的幻觉问题。

RAG阶段

RAG(Retrieval Augmented Generation)阶段,在 IDE 项目文件中检索跨文件信息;在向量数据库中检索 API 接口说明、工程规范信息。根据 prompt 模板,将用户的需求描述与上述检索信息拼接成完整的 prompt,输入给大模型。

由于 L1/L2 模型训练需要一定周期,业务实践中项目组先使用 RAG 语料验证效果,逐步探索 L2 SFT/L1 Raw Code 匹配任务,以提升模型的理解能力和研发效率。

单一的 Prompt 工程/RAG 在一定程度上可以让模型接触到专业领域知识,增强专业表达。然而,更为关键的是让专业领域知识参与到模型训练过程中。

四、研发大模型整体演进策略与方案设计

为了提高大模型研发的效率,我们将整个研发过程分为两个阶段进行迭代和优化:

数据准备阶段

首先,我们对各产品线的代码仓库进行评估,挑选出高质量的代码仓库。接着,根据华为云PaaS研发项目组制定的五项数据标注和清洗规范对代码进行清洗。在《训练&推理语料层次表》的基础上,构建代码地图,并通过人工抽查与脚本校验自动化执行。最后,对训练数据进行格式统一,生成训练集、客观评测集和主观评测集。

训练和评估阶段

在该阶段中,我们针对第一阶段所准备的训练数据,在ModelArts平台上启动训练任务。通过每隔x个epoch生成的检查点(checkpoint)来进行训练迭代。在此基础上,我们进行批量模型评估,并将模型部署在Alpha环境中,以便用户进行评估和使用。

在Alpha环境中,IDE插件的上下文提取和RAG检索两个过程被巧妙地隐藏起来。IDE需要在项目层面跨文件进行上下文分析,从而提取当前编辑区域用户关注的跨文件上下文信息,并在prompt工程中进行组装。同时,RAG会根据用户的输入和意图,检索业务知识向量库。在prompt工程中,上下文信息和业务知识将按照重要性进行排序,然后送入代码大模型进行推理。生成的代码经过后处理后,最终呈现在IDE用户界面上。

在研发过程中,数据准备以及模型的训练和评估并非一蹴而就,而是需要经过多次迭代和验证。训练和评估过程中出现的现象和问题可以为数据迭代过程提供反馈。两个阶段紧密衔接,共同推进以实现最终的优化目标。

wKgZomV8Bl6ABB6WAALJLUw4qv4271.png

图3 研发大模型整体演进策略与方案设计

五、RAG:研发大模型的最后“一公里”

模型训练在一定程度上缓解了领域知识匮乏的问题(例如,避免使用不存在的数据对象和API,从而减少编译错误和运行错误)。然而,由于模型更新迭代周期较长且领域范围广泛,在实际产业应用中,仍需结合领域相关的《xx使用手册》、《xx白皮书》和《xx使用指南》等资料,以进一步减轻代码生成中的幻觉问题,提高知识的可追溯性和解释性。

wKgZomV8Bl6ACZniAAFx-79tXN0867.png

图4 RAG整体框架图

RAG的设计方案和实现形式多样,我们的RAG方案主要关注自动化信息抽取和项目级上下文感知能力。

业务知识广泛分布于HTML、PDF、DOC、Word等多种形式,且范围广泛且接口不统一。为解决这一问题,项目组结合知识图谱和大模型技术,实现结构化、半结构化和非结构化信息的抽取,无需人工干预,即可生成低成本且高质量的知识。

自动化信息抽取同时解决了知识增量刷新机制的问题:通过工程化方法,克服了LLM知识更新的难题。将业务领域知识、华为编程框架、工程规范等模型所不具备的能力与模型相协同。在项目级上下文感知方面,基于项目静态结构、仓库演化历史以及开发者实时行为,精确检索与代码生成任务最相关的项目上下文。

以某产品线Dopra开发场景为例,我们整理了开发手册、线下文档、社区平台以及开发者经验等数据,汇总成Dopra开发的领域知识,并将这些知识向量化,存储到向量数据库中。当用户输入需求任务后,通过RAG能力,我们可以获取与该任务相关的开发经验信息。将这些信息通过“领域经验”提示模板输入给大模型,从而显著提高大模型输出代码的正确性。

wKgZomV8Bl6ASfDdAAIewUJcrL8670.png

图5 RAG方案中使用的Prompt版本示例

六、研发大模型:是否会取代程序员?

许多程序员都关心一个问题:研发大模型是否会最终取代程序员?经过调查,我们发现了一些有趣的观点。

1. 程序员的需求各异。在对产品线专家进行调研时,我们发现他们对业务非常熟悉,主要关注行级续写或代码块续写,目的是减少敲击键盘的时间。他们期望模型能顺应开发思路给出提示,辅助编码,而非完全替代开发。

2. AI编程具有很高的特殊性。

精确敏感性:一个字符的错误可能导致代码不可用,需要人工干预。 远程敏感性:全局变量、父类信息、项目级跨文件信息等大量远程(非IDE插件打开的当前文件信息)对语义影响很大。

库敏感性:调用API库的语句对函数的语义影响非常大。

3. AI目前的定位是助手,即开发人员的智能助手。AI助手并不会替代程序员的思考;它们擅长处理重复性高、机械性的任务,帮助程序员聚焦高价值点,提升专业方向的能力。然而,程序员仍需要掌握辅助驾驶的方向盘。

大模型的使用对程序员提出了更高的要求。简单重复的工作可以交给大模型,但更高维度的工作,如代码调试、通信链路联调、项目级别的功能实现等,可能需要经验丰富的架构师和资深程序员来把控。

总而言之,研发大模型将有效提升研发效率,使程序员能够更加专注于深入思考,从而减少重复性和高频率的工作负担。

文章来自 PaaS技术创新Lab,PaaS技术创新Lab隶属于华为云,致力于综合利用软件分析、数据挖掘、机器学习等技术,为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力,不断构筑研发利器,持续交付高价值商业特性!加入我们,一起开创研发新“境界”!

详情欢迎联系:

mayuchi1@huawei.com;bianpan@huawei.com


原文标题:风靡万千软件开发者:揭秘华为研发代码大模型是如何实现的?

文章出处:【微信公众号:华为DevCloud】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    215

    文章

    33619

    浏览量

    247149

原文标题:风靡万千软件开发者:揭秘华为研发代码大模型是如何实现的?

文章出处:【微信号:华为DevCloud,微信公众号:华为DevCloud】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    华为云 CodeArts Snap,揭开智能研发新篇章

    AIGC 浪潮席卷全球,大模型技术应用到软件开发领域,正在颠覆传统的软件工程。华为云 CodeArts Snap 是一款基于大模型技术打造的
    的头像 发表于 04-07 17:11 307次阅读

    鸿蒙开发者预览版如何?

    在24年的华为鸿蒙发布会中表示。预览版已经向开发者开放申请,首批支持的机型有三款分别为华为 Mate 60、华为Mate 60 Pro、华为
    发表于 02-17 21:54

    苹果新App Store支付政策惹怒软件开发者

    近日,苹果公司的一项新政策引发了软件开发者们的不满和抗议。根据这项新政策,如果开发者在App Store上使用其他支付方式,就必须向苹果公司支付高达27%的佣金。这一举措被视为苹果在回避此前法院裁决的意图。
    的头像 发表于 01-19 16:13 331次阅读

    欢迎加入飞腾派开发者社区,感谢每一位开发者

    ://bbs.elecfans.com/group_1708 飞腾派开发者社区部分内容截图 回顾合作历程,从2023年开始,华秋 · 电子发烧友就与飞腾建立了密切的合作关系,双方团队共同努力,实现了许多
    发表于 12-11 16:11

    HarmonyOS/OpenHarmony原生应用开发-华为Serverless云端服务支持说明(一)

    。 同时提供丰富的Serverless模板,例如登录、抽奖、游戏排行榜等,开发者通过简单配置和少量代码,即可快速实现相关功能。 三、华为Serverless的优势 零运维成本您无需构建
    发表于 10-08 10:22

    中软国际受邀参加华为云HCDE开发者圆桌,共话盘古研发模型重塑软件开发

    近日,在华为全联接大会2023期间,华为云HCDE开发者圆桌会议成功举办。本次会议主要围绕华为云盘古研发
    的头像 发表于 09-27 21:05 356次阅读

    助力软件开发者—扩展FPGA应用开发

    电子发烧友网站提供《助力软件开发者—扩展FPGA应用开发.pdf》资料免费下载
    发表于 09-18 10:14 0次下载
    助力<b class='flag-5'>软件开发者</b>—扩展FPGA应用<b class='flag-5'>开发</b>

    Zynq UltraScale+ MPSoC:软件开发者指南

    电子发烧友网站提供《Zynq UltraScale+ MPSoC:软件开发者指南.pdf》资料免费下载
    发表于 09-14 10:03 10次下载
    Zynq UltraScale+ MPSoC:<b class='flag-5'>软件开发者</b>指南

    码中寻趣:低码专家与开发者的「神秘会议」

    高速发展的数字生态时代,新手们面临软件开发门槛高等挑战。低代码技术打开新手进入软件开发的大门,助力开发者用最短时间开发出工业级应用。 HDC
    的头像 发表于 09-05 18:01 182次阅读
    码中寻趣:低码专家与<b class='flag-5'>开发者</b>的「神秘会议」

    软件开发必读!华为软件开发生产线 CodeArts 深度体验指南

    7 月 7 日-9 日,随着华为开发者大会 2023 的到来,华为软件开发生产线 CodeArts 也走进了很多开发者的视野。
    的头像 发表于 08-25 13:43 782次阅读
    <b class='flag-5'>软件开发</b>必读!<b class='flag-5'>华为</b>云<b class='flag-5'>软件开发</b>生产线 CodeArts 深度体验指南

    华为开发者大会:软件开发小白的华为云云上初体验

    1 初级开发自述 初踏入职场,进入专业的软件公司,对于我这样一个没有接触过软件开发的新人来说,起步就是一个很大的难题。若直接做开发,则业务不熟练,
    的头像 发表于 07-13 22:20 254次阅读
    <b class='flag-5'>华为</b><b class='flag-5'>开发者</b>大会:<b class='flag-5'>软件开发</b>小白的<b class='flag-5'>华为</b>云云上初体验

    HDC.Cloud 2023 | AI“邂逅”一站式软件开发华为云CodeArts以10倍效能“绘”企业应用远景

    华为软件开发平台DevCloud全新升级为 “华为软件开发生产线CodeArts”  ,作为一站式、全流程、安全可信的软件开发生产线,C
    的头像 发表于 07-06 11:35 348次阅读

    开发者“铸剑”,一图揭秘华为云CodeArts IDE四大特性

    捷的云应用开发能力!   戳下方“阅读原文”,立即体验 ! 原文标题:为开发者“铸剑”,一图揭秘华为云CodeArts IDE四大特性 文章出处:【微信公众号:
    的头像 发表于 06-21 18:25 353次阅读

    AI大模型重塑软件开发,有哪些落地前景和痛点?

    AI First 和数据优先的思维方式,使得更多的需求能在软件内部自动产生,而不是事先规划。而在软件开发自动驾驶的方面,一个人配合一个 AI 团队,可以实现软件开发的全自动驾驶,这可能
    的头像 发表于 06-15 16:39 726次阅读

    deepin入驻飞腾软件开发者平台,深度为开发者使能

    软件开发者平台(专区入口:https://service.phytium.com.cn/developer/20/),双方将共建开发者友好的开源新生态,深度为开发者使能。   飞腾软件开发者
    的头像 发表于 05-01 01:34 1805次阅读
    deepin入驻飞腾<b class='flag-5'>软件开发者</b>平台,深度为<b class='flag-5'>开发者</b>使能