0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

被OpenAI带火的Agent如何解放人力?

深度学习自然语言处理 来源:PaperWeekly 2023-11-25 15:23 次阅读

近日,面壁智能联合清华自然语言处理实验室等机构的研究人员共同发布了新一代流程自动化范式 Agentic Process Automation,该范式不仅实现了工作流构建的自动化,更在工作流执行时引入了动态决策的自动化。这一创新将为未来自动化领域带来更高层次的效率和灵活性,将人类从繁重的劳动中解放出来。

在历史的长河中,自动化是人类技术发展的主要动力,帮助人类从复杂、危险、繁琐的劳动环境中解放出来。自早期农业时代的水车灌溉,到工业时代的蒸汽机,人类一直在不断寻求更加先进的自动化技术,从而解放自身于繁重的工作。

随着信息时代的到来,软件作为信息处理、存储和通信的基础成为了人类生产生活密不可分的一环,从而催成了机器人流程自动化(Robotic Process Automation, RPA)技术。其通过人工编制规则将多个软件协调成一个固化的工作流(Workflow),通过模拟人交互的方式来和软件交互实现高效执行。

ec4a1c0a-8ab4-11ee-939d-92fbcf53809c.png

▲图1. 机器人流程自动化 RPA 与智能体流程自动化 APA 对比

RPA 利用软件机器人或称为 “BOT” 来模拟和执行重复性、规则性的任务,从而解放人力资源,提高工作效率。RPA 的应用范围非常广泛。很多企业(包括银行、保险公司、制造业、零售业等各个行业)常利用 RPA 机器人来自动执行一些常规和繁琐的任务,例如:数据录入、数据提取、数据处理。通过自动化任务,RPA 可以大幅度减少错误率,并且能够在 24*7 不间断地执行任务,从而提高了业务的可靠性和响应能力。 根据市场研究,RPA 市场正在迅速增长并取得巨大成功。Gartner 预测,2023 年全球 RPA 市场收入将达到 33 亿美元,相比 2022 年增长 17.5%。这表明了企业对于 RPA 的强烈需求和认可。

但是,RPA 仅能替代简单、机械的人力工作,一些复杂的流程仍旧依赖人工:

1. 编写 RPA 工作流本身需要繁重的人类劳动,成本较高。

2. 复杂任务非常灵活,通常涉及动态决策,难以固化为规则进行表示。

ec6802b0-8ab4-11ee-939d-92fbcf53809c.png

▲图2. RPA 与 APA 的效率与智能对比

幸运的是,最近 AI 领域兴起的大模型智能体技术(Large Language Model based Agents, LLM-based Agents)也许给自动化技术创造了新的可能性。有没有可能将 Agent 技术的灵活性引入到 RPA 领域中,来进一步减少人的参与呢?

该团队的研究探讨了大模型智能体时代下新型自动化范式 “智能体流程自动化” Agentic Process Automation (APA)。和传统 RPA 相比,在 APA 范式中,Agent 可以根据人类的需求自主完成工作流构建,同时其可以识别人类需求中需要动态决策的部分,将自动编排进工作流中,并在工作流执行到该部分时主动接管工作流的执行完成相应复杂决策。

为了探索 APA 的可能性,该研究工作实现了一个自动化智能体 ProAgent,其可以接收人类指令,以生成代码的方式构建工作流,同在工作流中引入 DataAgent 和 ControlAgent 来在工作流中实现复杂数据处理与逻辑控制。ProAgent 的研究展现了 APA 在大模型智能体时代下的可行性,也揭示了 LLM 时代下,自动化技术的崭新可能性。

方法介绍

在 RPA 中,工作流是由一系列工具调用组成的图状结构:节点代表一个原子化的工具调用(如 Gmail、Twitter、Google Sheets),而边代表了执行的逻辑顺序(承接、分支、循环)。一个工作流往往包含了对于一个或一类任务的所有先验知识,其中包含解决问题的路径,遇到异常时的处理逻辑等等。因此人编写固化出来的工作流往往是非常稳定周全、非常高效的。

ec855bee-8ab4-11ee-939d-92fbcf53809c.png

▲图3. 智能体工作流描述语言示例

在 ProAgent 中,由于 LLM 本身在代码数据中进行预训练,学习到了较强代码能力,该研究便基于代码的智能体工作流描述语言 Agentic Workflow Description Language。该语言使用 JSON 实现对工作流中数据的组织与管理,选择 Python 语法实现对工作流的逻辑控制,将控制流中的跳转、循环等直接通过 Python 语法进行表征,同时将工作流中的工具调用封装为 Python Function。

于是对于 ProAgent,工作流构建任务便转化为代码生成任务。当接收到人类指令时,ProAgent 便编写相应的 Agentic Workflow Description Language,从而实现了工作流自动化构建。

ecb3d5e6-8ab4-11ee-939d-92fbcf53809c.png

▲图4. 结合 DataAgent 和 ControlAgent 的智能体工作流描述语言示例

复杂的现实任务中通常会涉及动态决策,单纯的 Python 式的逻辑控制规则以及 JSON 式的数据组织形式在面对灵活的需求时便无能为力,此时便需要引入 agent。因此,该研究工作进一步定义出了两种 Agent 操作:

1. DataAgent:对于一个复杂的数据处理需求,工作流构建时会使用自然语言来描述处理的任务,然后在执行时会初始化一个 DataAgent,其会基于该自然语言描述自主处理并完成该数据处理任务。

ecc76f52-8ab4-11ee-939d-92fbcf53809c.png

2. ControlAgent:对于难以用规则表示的逻辑控制规则,工作流构建时使用自然语言对控制逻辑进行描述,然后在运行时会初始化一个 ControlAgent,其会基于该自然语言描述自主选择工作流后续需要执行的分支。

ecd1be30-8ab4-11ee-939d-92fbcf53809c.png

ProAgent 使用 ReACT 模式逐步构建工作流,其共包含四个工作流构建步骤:

1. Action_Define:决定在工作流中添加什么工具。

2. Action Implement:将工具的输入 / 输出参数转化为 JSON 结构,同时将工具的调用封装为 Python 函数。

3. Workflow Implement:定义一个 mainWorkflow 函数,用以组织整个 workflow 的逻辑控制与数据处理。

4. Task Submit: 当 ProAgent 构建完 workflow 时以该操作标识构建过程结束。

ecdda1a0-8ab4-11ee-939d-92fbcf53809c.png

▲图5. ProAgent 工作流构建过程示例

另外,为了优化 ProAgent 的效果,又引入了几个优化技巧:

1. Testing-on-Constructing:在构建过程中,ProAgent 会在一次修改工作流之后对工作流进行测试,以保证工作流的正确性。

2. Function Calling:工作流构建的所有操作均封装为了 GPT-4 的 Function,从而提高对工作流构建过程的控制。

3. Chain-of-Thought:ProAgent 在编写工作流代码时,需要对于每个 function 都要给出注释 comment 和一个编写 plan,从而提高 ProAgent 工作流构建的性能。

工作流执行过程基于 Python interpreter。给定一个工作流,其对应的 mainWorkflow 函数用作为工作流执行的入口来开始整个执行过程。执行过程遵循 Python 代码执行规则,即按照顺序逐行执行。一旦 mainWorkflow 函数返回,工作流执行就成功完成了。

可行性验证

为了验证 Agentic Process Automation 的可行性,该研究使用 OpenAI GPT-4 作为基础模型,并以一个开源的 RPA 平台 n8n 作为载体,实现了上述的 ProAgent。同时设计了一个需要兼顾灵活与效率的任务:这是一个典型的商业场景,需要从 Google Sheets 中提取各种业务线的营利数据,同时根据业务是否属于 2B 或是 2C,决定后续的行为。

一旦确定业务线为 2C,就会向 Slack 频道发送一条消息。而对于 2B 的业务线,则会向相应的经理发送一封电子邮件,其中包括对业务线的评估和简要的盈利概况。

ed0a51be-8ab4-11ee-939d-92fbcf53809c.png

▲图6. 任务 Instruction 展示

对于该任务,首先它是一个重复性的任务,对于多条产品线,应该走相同的处理流程。其次,分辨一个业务线是 2C 还是 2B 很难通过规则判断,需要涉及 Agent 动态决策来判断后续的工作流执行操作。最后,根据撰写业务线的评估邮件需要一定的智能,所以需要 Agent 的介入。

在 ProAgent 生成中,对于该任务,编写出了一个包含四个原子操作,一个 DataAgent 和一个 ControlAgent 的工作流。总体过程大致如下图所示:

ed148e36-8ab4-11ee-939d-92fbcf53809c.png

▲图7. ProAgent 工作流构建过程展示

可以看到,ProAgent 通过自主编写代码的方式,自动完成了工作流的构建过程,其中无需涉及人工介入。在需要判断业务线是 2B 还是 2C 时,ProAgent 引入了 ControlAgent 来做判断,ControlAgent 的 Prompt 被设置为 “Decide Whether the business line is toC or toB”。

当业务线为 2B 时,ProAgent 还引入了一个 DataAgent,其任务设置为 “Write a email of the business line of profit, together with your suggestion”,从而利用 agent 的智能来根据不同业务线的实际情况来撰写邮件。

在工作流被编写、固化下来以后,工作流就会根据不同的数据自动分支到不同的逻辑进行高效地数据处理了。

ed29d23c-8ab4-11ee-939d-92fbcf53809c.png

▲图8. ProAgent 工作流执行过程展示

在处理 2C 业务线数据时,ControlAgent 可以根据业务线描述判断出当前业务线的类型,选择调用 Slack 工具。当遇到 2B 业务线数据时,DataAgent 可以撰写邮件发到相应经理的邮箱中。

总结

该研究提出了大模型时代下新的自动化范式 ——Agentic Process Automation,和传统 Robotic Process Automation 技术相比,其可以实现工作流构建的自动化,以及工作流执行时动态决策的自动化。该研究进一步实现了 ProAgent 并通过实验揭示了大模型智能体在自动化中的可行性与潜力。相信未来大模型智能体技术会帮助人类实现更高层次的自动化,将人类从各种繁重的劳动中解放出来。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27043

    浏览量

    201418
  • python
    +关注

    关注

    51

    文章

    4677

    浏览量

    83467
  • JSON
    +关注

    关注

    0

    文章

    111

    浏览量

    6819
  • OpenAI
    +关注

    关注

    8

    文章

    761

    浏览量

    5914
  • LLM
    LLM
    +关注

    关注

    0

    文章

    202

    浏览量

    233

原文标题:被OpenAI带火的Agent如何解放人力?清华NLP实验室发布流程自动化新范式

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    电源测试系统如何解决电源模块测试痛点?

    电源模块测试系统采取B/S结构,通过软件程控仪器,实现自动化测试,解放人力。自动化测试将测试程序简单化,无需频繁手动调整仪器,通过仪器指令便可程控。此外,系统采取无代码开发模式,拖拽指令便可15分钟快速搭建项目,测试效率大大提高。
    的头像 发表于 03-26 16:47 151次阅读
    电源测试系统如<b class='flag-5'>何解</b>决电源模块测试痛点?

    何解决蓝牙协议栈锁问题?

    何解决蓝牙协议栈锁问题
    发表于 03-21 08:21

    淡马锡考虑对OpenAI投资

    两名内部人透露,淡马锡管理层近期已多次与OpenAI首席执行官阿尔特曼会面。据悉,淡马锡最初于阿尔特曼的风险投资公司Hydrazine Capital处接触,而后转入OpenAI项目本身的谈判。
    的头像 发表于 03-07 09:56 135次阅读

    马斯克指责OpenAI背离初衷,OpenAI否认并予以回应

    身为多家知名企业如特斯拉、SpaceX以及社交网络平台X的创始人,马斯克早在2015年OpenAI创立之初便同萨姆·奥尔特曼联手合作。然而自2018年退出公司之后,马斯克开始对OpenAI予以强烈批评。
    的头像 发表于 03-07 09:43 218次阅读

    微软推出首个专为Windows定制的Agent

    随着人工智能技术的飞速发展,全球科技巨头纷纷在这一领域布局。OpenAI以其强大的技术实力在视频领域掀起了一场革命,而微软则悄然对传统用户界面发起了挑战。近日,微软最新发布了一款名为UFO(UI-Focused Agent)的Agent
    的头像 发表于 02-19 11:41 415次阅读

    OpenAI要约收购协议已完成 OpenAI估值超800亿美元

    OpenAI要约收购协议已完成 OpenAI估值超800亿美元 目前OpenAI要约收购协议已完成,公司估值高达800亿美元。AI的火爆使得OpenAI的估值在不到10 个月的时间内估
    的头像 发表于 02-18 18:19 913次阅读

    新火种AI|这家“中国OpenAI”,能赶超OpenAI吗?

    全面对标OpenAI,智谱AI能成为“中国的OpenAI”吗?
    的头像 发表于 01-18 17:56 337次阅读
    新火种AI|这家“中国<b class='flag-5'>OpenAI</b>”,能赶超<b class='flag-5'>OpenAI</b>吗?

    AI Agent爆发在即!深剖AI Agent技术原理及发展趋势

    电子发烧友网报道(文/李弯弯)AI Agent指人工智能代理,是一种能够感知环境、进行决策和执行动作的智能实体。AI Agent通常基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域
    的头像 发表于 01-12 01:01 2386次阅读

    微型5G网关如何满足智能巡检机器人应用

    随着物联网、5G、边缘计算等技术的广泛普及,能够替代人工的智能巡检机器人已经得到越来越多应用,有效解放人力资源,保障工况安全,提升厂区整体效能
    的头像 发表于 12-06 17:38 290次阅读
    微型5G网关如何满足智能巡检机器人应用

    为什么Agent落地这么难?AI最大赛道Agent机遇全解析

    “如果一篇论文提出了某种不同的训练方法,OpenAI内部会嗤之以鼻,认为都是我们玩剩下的。但是当新的AI Agent论文出来时,我们会十分认真且兴奋地讨论。普通人、创业者和极客在构建AI Agents方面相比OpenAI这样的公
    的头像 发表于 11-25 15:54 1359次阅读
    为什么<b class='flag-5'>Agent</b>落地这么难?AI最大赛道<b class='flag-5'>Agent</b>机遇全解析

    我们心中AI Agent的现在和未来

    在大模型技术上领先的 OpenAI 同样对 AI Agent 十分感兴趣,它们的首席科学家 Ilya Sutskever 不止一次表达过 OpenAI 对 AI Agent 技术的关注
    的头像 发表于 11-09 16:20 385次阅读

    基于Agent的智能控制系统的设计

    电子发烧友网站提供《基于Agent的智能控制系统的设计.pdf》资料免费下载
    发表于 10-18 10:57 0次下载
    基于<b class='flag-5'>Agent</b>的智能控制系统的设计

    Java Agent的作用及原理

    Java Agent是目前各种监测调试JVM的主要技术。Eclipse,IntelliJ,Visual VM ,JConsole 等都依赖于此技术。相信你们的Java 程序部署的时候肯定也会配置各种
    的头像 发表于 10-10 15:53 821次阅读
    Java <b class='flag-5'>Agent</b>的作用及原理

    OpenAI到底做对了什么?OpenAI发展的5大技术路线

    为什么AGI这样史诗级的革命,背后的核心推手竟然是OpenAI这样的创业公司?OpenAI到底做对了什么?
    发表于 07-24 10:50 1411次阅读
    <b class='flag-5'>OpenAI</b>到底做对了什么?<b class='flag-5'>OpenAI</b>发展的5大技术路线

    创建agent的步骤

    agent(如下图)实例化并使用TLM连接driver、monitor和sequencer。
    的头像 发表于 06-01 09:05 511次阅读
    创建<b class='flag-5'>agent</b>的步骤