0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PPTAgent: 大模型驱动的PPT自动生成

中科院软件所中文信息处理实验室 来源:中科院软件所中文信息处 2025-01-21 10:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论文题目

PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

论文链接

https://arxiv.org/abs/2501.03936

项目仓库

https://github.com/icip-cas/PPTAgent

演示视频

在数字化时代,演示文稿(PPT)作为信息传递的重要媒介,其自动化生成需求愈发迫切。然而,一份优秀的演示文稿不仅需要引人入胜的故事线,还需要抓人眼球的视觉效果和内容的有效组织,这对创作者提出了极高的要求。针对这一挑战,中国科学院软件研究所中文信息处理实验室提出了一种突破性的演示文稿自动生成框架 PPTAgent。

不同于传统的端到端生成方法,PPTAgent 借鉴了人类创作 PPT 的过程,采用基于编辑的工作流程。正如经验丰富的演讲者往往会参考优秀的演示文稿来优化自己的作品,PPTAgent 也通过分析和编辑参考演示文稿来生成新的内容。

PPTAgent 设计的框架包含两个关键阶段:首先是“演示文稿分析”阶段,系统会深入分析作为参考的演示文稿,提取每张幻灯片的语义信息。随后在“演示文稿生成”阶段,系统首先会基于文档内容生成详细的演示大纲,并为每张幻灯片分配合适的参考模板及相关文档段落。对于待生成的每张幻灯片,PPTAgent 能够根据输入内容自动调整幻灯片参考模板中的文本和视觉元素,通过生成的代码指令来完成元素的创建、编辑和删除等操作。通过这种方式,PPTAgent 不仅确保了生成内容的连贯性,还保持了视觉设计的美观度。

同时,我们还提出了首个全面的演示文稿评估框架 PPTEval,从内容、设计和结构连贯性三个维度评估演示文稿的质量,为自动化生成技术的改进提供了细粒度的反馈。实验结果表明,PPTAgent 能够生成高质量的演示文稿,在 PPTEval 的评估中取得了 3.67 的平均得分,并在来自不同领域的实验数据上展现出了 97.8%的任务成功率。

PPTAgent

ef57fafa-d63c-11ef-9310-92fbcf53809c.png

阶段一:演示文稿分析 在这个阶段,PPTAgent 首先对参考演示文稿进行全面分析以提取其中包含的语义信息。具体来说:

根据功能将幻灯片分为两大类:支持演示结构的幻灯片(如开场页)和传递具体内容的幻灯片(如要点页)。针对不同类型,PPTAgent 采用基于图片相似度或大语言模型的方法对参考演示文稿中的幻灯片进行聚类,并利用大语言模型的上下文感知能力对该页的功能进行描述。

考虑到现实世界中幻灯片内容的复杂性和碎片性,我们利用大语言模型进一步地提取幻灯片的内容模式(schema),包括幻灯片元素的类别、形式和具体内容。这些信息为后续的编辑过程提供了重要指导。

阶段二:演示文稿生成

在生成阶段,我们采用了基于编辑的生成范式,具体流程包括:

首先根据上一阶段分析得到的幻灯片语义信息和输入文档生成结构化大纲,为新演示文稿中的每张幻灯片指定参考模板和输入文档中的相关内容。

基于我们设计的 API 接口,生成可执行的代码指令来对幻灯片中的元素进行编辑修改。此外,我们还引入了实时的错误反馈机制,系统能够根据执行过程中的错误反馈进行自我纠正,显著提高了生成的稳定性。

PPTEval:基于 LLM-as-a-Judge 范式的幻灯片质量评估

此外,为了能够有效和全面地评估生成幻灯片的质量,我们还开发了 PPTEval 评估框架,利用大语言模型来从三个维度对演示文稿进行全面评估:

内容(Content):评估幻灯片中文本和图像的相关度、文本内容信息量和质量,确保传达的信息简洁、准确且具备实用性。

设计(Design):关注幻灯片的色彩搭配、视觉元素的使用和整体设计的专业性,确保视觉呈现和内容相辅相成。

连贯性(Coherence):评估幻灯片的逻辑结构和上下文信息的完整性,确保内容流畅且符合逻辑,观众易于理解。

ef81e6d0-d63c-11ef-9310-92fbcf53809c.png

实验

数据集

为了全面评估 PPTAgent 的性能,我们首先构建了一个包含 10,448 份多领域演示文稿的数据集 Zenodo10K,这也是目前已知最大的幻灯片数据集。在此基础上,我们在三个常用的大语言模型:GPT-4o、Qwen2.5-72B(Qwen2.5)和 Qwen2-VL-72B(Qwen2-VL)上进行了实验。

efa3476c-d63c-11ef-9310-92fbcf53809c.png

实验结果

超高的生成成功率:PPTAgent 展现出卓越的鲁棒性,使用 GPT-4o 或 Qwen2.5+Qwen2-VL 组合时,均实现了超过 95%的生成成功率。这一成绩远超此前模板编辑任务仅有 10%的成功率。

全方位的质量提升:与基线方法相比,PPTAgent 在幻灯片的各个维度都取得了显著进步:

设计维度得分提升 40%(3.24 vs 2.33)

连贯性维度提升 34%(4.39 vs 3.28)

内容质量提升 9%(3.25 vs 2.98)

开源模型的出色表现:值得一提的是,Qwen2.5 与 Qwen2-VL 的组合有效地克服了 Qwen2-VL 在语言处理方面的局限性,其整体表现也达到了与 GPT-4o 相当的水平,展现了开源大模型在专业领域的应用潜力。

efbb1cac-d63c-11ef-9310-92fbcf53809c.png

评估结果的可靠性验证:为确保评估结果的可靠性,我们将 PPTEval 的评估结果与人工评估进行了一致性分析。分析结果表明,PPTEval 在三个维度上的平均皮尔逊相关系数为 0.71,显示其能够有效地代替人类评估幻灯片的质量。

总结

通过这项研究,我们将演示文稿的自动生成重新定义为一个基于编辑的两阶段任务。PPTAgent 充分利用了大语言模型对代码的理解和生成能力,通过分析参考演示文稿的文本特征和布局模式,有效地组织和生成新的演示文稿。在多个领域的实验验证中,PPTAgent 都能够鲁棒地生成高质量幻灯片。同时,我们提出的 PPTEval 评估框架为演示文稿生成任务提供了可靠的评估手段,为该领域的未来发展奠定了重要基础。 这项技术有望开创一种全新的无监督演示文稿生成范式,为未来研究提供了新的思路。通过这项技术,我们期待能够帮助更多人高效地创作专业的演示文稿,让信息传递变得更加便捷。最后,通过开源的 PPTAgent、PPTEval 和大规模幻灯片数据集 Zenodo10K,我们希望能够推动整个领域的发展,激发更多创新性的研究成果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ppt
    ppt
    +关注

    关注

    1

    文章

    48

    浏览量

    18269
  • 大模型
    +关注

    关注

    2

    文章

    3753

    浏览量

    5268

原文标题:PPTAgent: 大模型驱动的PPT自动生成,解放打工人

文章出处:【微信号:gh_e5b9d8c5c1d4,微信公众号:中科院软件所中文信息处理实验室】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小鹏发布 X-World 世界模型:已全面应用第二代VLA

    第二代 VLA 自动驾驶系统的研发、仿真与验证,标志着自动驾驶从 路测驱动 迈入 世界模型驱动 的新阶段。 何为 X-World? X-Wo
    的头像 发表于 04-14 10:11 5814次阅读

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 — 预测” 一体化的开源具身原生世界模型,该
    的头像 发表于 03-14 16:54 1994次阅读
    大晓机器人开源实时<b class='flag-5'>生成</b>世界<b class='flag-5'>模型</b>Kairos 3.0-4B

    如何构建适合自动驾驶的世界模型

    [首发于智驾最前沿微信公众号]世界模型经历了系统动力学阶段(1960年~2000年)、认知科学阶段(2001年~2017年)、深度学习阶段(2018年至今),但将其应用到自动驾驶汽车上,还是近几年才
    的头像 发表于 02-18 08:14 1.1w次阅读
    如何构建适合<b class='flag-5'>自动</b>驾驶的世界<b class='flag-5'>模型</b>?

    模型支撑后勤保障方案生成系统软件平台

        北京五木恒润大模型支撑的后勤保障方案生成平台系统软件,依托人工智能大模型技术,融合后勤保障领域专业知识与实际需求,可自动生成高效、精
    的头像 发表于 12-17 16:51 593次阅读

    五大大模型支撑后勤保障方案生成系统软件的应用与未来发展

        在后勤保障领域,五大以大模型或智能技术为核心支撑的系统方案显著提升了保障的智能化与效率,包括:北京华盛恒辉与五木恒润的大模型驱动方案生成系统、英国HUMS健康与使用监控系统、以
    的头像 发表于 12-17 15:24 393次阅读

    世界模型是让自动驾驶汽车理解世界还是预测未来?

      [首发于智驾最前沿微信公众号]世界模型自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是让自动驾驶汽车得以理解世界,还是为其提供了预测未来的视角?
    的头像 发表于 12-16 09:27 1011次阅读
    世界<b class='flag-5'>模型</b>是让<b class='flag-5'>自动</b>驾驶汽车理解世界还是预测未来?

    pdf转换ppt怎么转换

    df转换ppt怎么转换   将 pdf 转为 ppt 是常见需求,选择合适工具可以省时省力,我会介绍在线服务、桌面软件和手动方法,目标是尽量保留文字图片和排版,生成可编辑的 ppt
    的头像 发表于 11-22 09:19 1016次阅读

    不只有AI协作编程(Vibe Coding):生成式系统级芯片(GenSoC)将如何把生成式设计推向硬件层面

    但是否能将这种生成式的、目标驱动的方法从软件层向下延伸呢?这一理念是否可以直接应用于硬件本身呢?通过GenSoC,开发者可用自然语言或高级模型描述系统行为,XMOS的工具链将自动
    的头像 发表于 11-07 14:04 646次阅读

    VLA和世界模型,谁才是自动驾驶的最优解?

    Model)路线,这两种路径都为自动驾驶快速落地提供了可能,那谁才是最优解? 什么是VLA模型? VLA模型,即视觉—语言—行动模型,是将视觉感知、语言理解和动作
    的头像 发表于 11-05 08:55 926次阅读
    VLA和世界<b class='flag-5'>模型</b>,谁才是<b class='flag-5'>自动</b>驾驶的最优解?

    真正免费的AI生成PPT工具盘点:告别收费陷阱

    "PPT做得好,升职加薪早",但每次打开某知名办公软件看到"VIP专属"的提示,是不是瞬间觉得钱包被掏空?别慌!今天我们就来扒一扒那些真正免费的AI生成PPT神器,其中AiPPT更是堪称"卷王中
    的头像 发表于 10-30 15:43 6898次阅读
    真正免费的AI<b class='flag-5'>生成</b><b class='flag-5'>PPT</b>工具盘点:告别收费陷阱

    如何让大模型生成你想要的测试用例?

    应用大模型生成测试用例,常见的知识库,测试大模型,微调,RAG等技术门槛都不低,甚至很难,因此对于应用者而言,最快的方式就是应用好提示词,调教属于个人风格的测试用例智能生成模块,让智能
    的头像 发表于 09-26 10:01 1118次阅读
    如何让大<b class='flag-5'>模型</b><b class='flag-5'>生成</b>你想要的测试用例?

    小红书:通过商品标签API自动生成内容标签,优化社区推荐算法

    ​  小红书作为领先的社交电商平台,用户生成内容(UGC)是其核心驱动力。随着商品数量和用户互动激增,传统推荐算法面临效率瓶颈。本文探讨小红书如何利用商品标签API自动生成内容标签,显
    的头像 发表于 09-10 16:46 1224次阅读
    小红书:通过商品标签API<b class='flag-5'>自动</b><b class='flag-5'>生成</b>内容标签,优化社区推荐算法

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景
    的头像 发表于 08-06 11:20 5365次阅读
    <b class='flag-5'>生成</b>式 AI 重塑<b class='flag-5'>自动</b>驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的突破与实践

    谷歌新一代生成式AI媒体模型登陆Vertex AI平台

    我们在 Vertex AI 上推出新一代生成式 AI 媒体模型: Imagen 4、Veo 3 和 Lyria 2。
    的头像 发表于 06-18 09:56 1290次阅读

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 1441次阅读