使用URL2Video可以将网页快速生成有创意的短视频-电子发烧友网

机器学习可以实现对网页内容的理解，并选取关键对象生成有趣的短视频。Google研究团队通过使用URL2Video可以将网页快速生成有创意的短视频。包括百度、快手、字节跳动等都有相关的短视频自动化生产工具，随着技术的成熟，将有大量的短视频出自自动化工具之手。在12月的LiveVideoStackCon 2020 SFO线上大会上，百度美国研究院资深研究员陈曦将会介绍“无人值守的大规模AI视频生产”。

在Google，我们正在积极探索在制作多媒体内容时，人们如何使用由机器学习和计算方法提供的创造性工具，从创作音乐、重新架构视频，到绘画等等都涉及到了这方面内容。尤其是视频制作这样一个颇具创意的过程，它可以很好地受益于这些工具，因为它需要做出一系列决策，确定哪些内容最适合目标受众，如何在视图中妥善排布现有资源，以及怎样进行时间安排能够带来最具吸引力的描述。但假如一个人能利用现有的资源，比如一个网站，来开启视频创作呢？大多数企业主办的网站都呈现了关于其产品或服务丰富的视图内容，所有这些内容都可以被重新应用到其他多媒体格式，比如视频，这可能使那些没有大量资源的人能够接触到更广泛的受众。 2020年UIST上发表的“网页端视频的自动化制作”里，我们介绍了一种基于内容所有者提供的时间和视图限制，将网页自动转换为短视频的研究原型——URL2Video。URL2Video从HTML源中提取资源（文本、图像或视频）及其设计风格（包括字体、颜色、图形布局和层次结构），并将这些可视资源组合成一系列的快照，同时保持与源页面相似的外观和感觉，然后根据用户指定的纵横比和持续时间，将这些材料重新利用，渲染成一个适合产品和服务广告的视频。

URL2Video概述

假设用户提供了一个阐述他们业务的网页URL，URL2Video会自动从页面中选择关键内容，并根据一组针对熟悉网页设计和视频广告制作的设计师的访谈研究得到的启发式算法，决定每个资源的时间和视图展示。这些如设计师般熟知的启发式算法捕获常见的视频编辑样式，包括内容层次结构，限制一个快照中的信息量及其持续时间，为品牌提供一致的颜色和样式等等。利用这些信息，URL2Video解析网页，分析内容，选择视觉突出的文本或图像，同时保留它们的设计风格，并根据用户提供的视频规范进行组合。

通过在输入的网页中提取结构内容和设计，URL2Video做出自动编辑决策，在视频中呈现关键信息。它考虑到用户定义的输出视频的时间限定（比如以秒为单位的持续时间）和空间限定（比如高宽比）。

网页分析

一个网页的URL，URL2Video会提取它的文档对象模型（DOM）信息和多媒体材料。出于研究模型的目的，我们将域限制在静态网上，这些页面包含HTML层次结构中保存的突出资源和标题，这些层次结构遵循最近的网页设计原则，鼓励使用重点的元素、更清晰的部分以及引导读者感知信息的视觉焦点顺序。URL2Video将这些视觉上可区分的元素标记到资源组的候选列表，每个元素可能包含一个标题、一个产品图象、详细描述和调用操作按钮，并捕获每个元素的原始素材（文本和多媒体文件）和详细的设计规范（HTML标签、CSS样式和呈现位置）。然后，通过根据每个资源组的视觉外观和注释，包括它们的HTML标签、呈现的尺寸还有显示在页面上的顺序对每个组进行排序。这样，在页面顶部占据较大区域的资源组将获得更高的分数。

限定型的资源选择

在制作视频时，我们考虑了两个目标：（1）每个镜头都应该提供简洁的视频信息；（2）视觉设计应该与源网页一致。基于这些目标和用户提供的视频限定条件，包括预期的视频持续时间（以秒为单位）和高宽比（通常为16:9、4:3、1:1等），URL2Video自动选择并命令资源组优化总体优先级分数。为了使内容简洁，它只显示页面中的主要元素，例如标题和一些多媒体资源。它限定了观众所感知内容的每个视觉元素的持续时间。这样，简短的视频强调了页面顶部最突出的信息，时间长一些的视频则包含了更多的商业活动或产品信息。

画面构图与视频渲染

根据基于DOM层次结构的有序资源列表，URL2Video并行依照从访谈研究中获得的设计启发，对时间和空间安排做出决策，将资源在单个镜头中展现出来。它将元素的图形布局转换为视频的纵横比，并应用了包括字体和颜色在内的样式选择。为了使视频更具动感和吸引力，它调整了资源的显示时间。最后，它将内容渲染为MPEG-4格式的视频。

用户控制

研究原型界面允许用户查看源网页提取的每个视频镜头中的设计属性，以及重新排版材料，更改细节设计，如颜色和字体，并更改限制条件来生成新的视频。

在URL2Video的创作界面（左）中，用户指定源页面输入的URL、目标页面视图的大小以及输出视频参数。URL2Video分析网页，并提取主要的视觉组件。由它组成了一系列的镜头，并将关键画面可视化为一个故事板。这些组件满足输入时间和空间限定后输出呈现为视频。用户可以播放视频，检查设计属性（右下角），并进行调整以做视频更改，例如重新排序镜头（右上）。

URL2Video用例

我们在现有的各种网页上演示了端到端的URL2Video的性能。下面我们特别展示一个实例结果，其中URL2Video将嵌入多个短视频剪接的页面转换为一个12秒的输出视频。请注意它如何在从源网页面捕获的视频中对字体和颜色选择、时间和内容排序作出自动编辑决定的。

URL2Video从我们的Google搜索介绍页面（顶部）识别关键内容，包括标题和视频资源。通过综合考虑显示流程、源设计和输出限定，URL2Video将它们转换为视频（12秒的横向视频；底部）下面的视频作了进一步的演示： https://www.youtube.com/watch？v=3yFYc-Wet8k&feature=youtu.be 为了评估自动生成的视频，我们与Google的设计师进行了一项用户研究。实验结果表明，URL2Video能够有效地从网页中提取设计元素，并通过引导视频创建的过程为设计师提供支持。

下一步

虽然目前的研究集中在视觉展示，但我们正在开发新的技术，以在视频编辑中支持音轨和画外音。总之，我们设想的未来是，创作者专注于做出高层决策，而机器学习模型配合其在多个平台上为最终视频的制作提供详细的时间和图形编辑建议。

致谢

我们非常感谢我们的论文合著者Zheng Sun（Research）和Katrina Panovich（YouTube）。我们还要感谢我们的同事，他们（按姓氏的字幕顺序）-JordanCanedy， Brian Curless， Nathan Frey， Madison Le， Alireza Mahdian， Justin Parra，Emily Ryan， Mogan Shieh， Sandor Szego和Weilong Yang-为URL2Video作出了贡献。我们感谢我们的领导人Tomas Izo， RahulSukthankar和Jay Yagnik的支持。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动化

自动化

+关注

关注
28

文章
5082

浏览量
77871
机器学习

机器学习

+关注

关注
66

文章
8166

浏览量
130849
短视频

短视频

+关注

关注
1

文章
121

浏览量
8385

原文标题：URL2Video：把网页自动创建为短视频

文章出处：【微信号：livevideostack，微信公众号：LiveVideoStack】欢迎添加关注！文章转载请注明出处。

微软网页版PPT新增语音识别及字幕生成功能

据报道，微软计划于今年六月份推出网页版PowerPoint全新语音识别功能。此项功能将能够监控PowerPoint视频中的声音，进而自动生成字幕。

发表于 05-16 14:36 •65次阅读

[技术干货] MoneyPrinterTurbo，利用 AI 大模型，一键生成高清短视频

开始使用步骤 1 访问该促销活动购买页面，按照如下配置完成 AI 生成短视频服务器的部署。步骤 2 登录弹性云服务器控制台。使用 Linux 连接工具登录服务器，或者在控制台单击“远程登录

发表于 04-07 15:11 •904次阅读

[技术干货] MoneyPrinterTurbo，利用 AI 大模型，一键<b class='flag-5'>生成</b>高清<b class='flag-5'>短视频</b>

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力，为视频制作领域带

发表于 03-22 10:30 •326次阅读

Stability AI推出Stable Video 3D模型，可制作多视角3D视频

SV3D_u是Stable Video 3D的一个版本，仅需单幅图片即可生成运动轨迹视频，无须进行相机调整。扩充版本的SV3D_p加入了轨道视图的特性，使其可以根据预设的相机路径创建3

发表于 03-21 14:57 •419次阅读

浅谈S-VIDEO接口静电浪涌防护

等。现在S-video接口广泛应用于电视、监视器、摄像机、录像机等视频设备中，提供了比传统的复合视频接口更好的视频质量。使用S-video

发表于 03-03 17:03 •259次阅读

【国产FPGA+OMAPL138开发板体验】（原创）7.硬件加速Sora文生视频源代码

Transformer模型，并且需要处理大量数据和计算。编写FPGA加速文本到视频生成模型Sora的代码是一个复杂的过程，因为文本到视频生成模型（如 Sora、DALL-E 2等）有大

发表于 02-22 09:49

openai发布首个视频生成模型sora

”了行业目前大概只有平均“4s”的视频生成长度。 Sora能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域具有应用前景，可以帮助用户

发表于 02-21 16:45 •752次阅读

鸿蒙ArkUI开发-Video组件的使用

以视频功能为例，在应用开发过程中，我们需要通过ArkUI提供的Video组件为应用增加基础的视频播放功能。借助Video组件，我们可以实现

发表于 01-23 16:59 •681次阅读

【飞凌OK113i-S开发板试用】基于飞凌嵌入式OK113i网页视频监控项目

，固定端口号为8080，建立HTTP长连接，实现网页视频监控。 3.功能实现 1.移植交叉编译器arm-linux-gnueabi-gcc。 2.移植矢量字库freetye。 3.初始化摄像头，通过

发表于 01-09 11:31

php生成动态网页内容的方法

PHP是一种广泛用于Web开发的脚本语言，可用于生成动态网页内容。在本文中，我们将介绍使用PHP生成动态网页内容的方法。什么是动态网页？

发表于 12-04 16:22 •392次阅读

人工智能生成技术的深度伪造技术的挑战

随着人工智能模型创作虚假视频的逼真程度不断提高，深度伪造技术日益被视为“巨大的社会威胁”。例如，一个名为ModelScope的新型创意人工智能系统现在已经可以根据文本提示制作短视频。

发表于 07-24 11:04 •328次阅读

EchoTik上新AI短视频创作工具，助力全球短视频电商业务发展

的短视频平台来出海。但是，短视频创作往往费时费力，批量化创作更是各大电商卖家普遍面临的挑战。基于ChatGPT，TikTok第三方数据分析平台EchoTik（https://echotik.live）上线AI工具箱，用最先进的人工智能技术，为用户遇到的难题提供了解决思路

发表于 06-30 17:29 •322次阅读

什么是URL?为什么要做URL静态化？

进行URL静态化的目的是对于搜索引擎和用户来说更为友好，虽然Google之前在官方博客发表了博文Google能够很好的抓取动态网页，并且也非常鼓励网站采取动态网页的形式来建站，但是我们所要做的网站

发表于 06-28 15:34 •1560次阅读

快手的短视频推荐算法（1）

在本文中，我们建议部署一个短视频推荐框架, 在移动设备上解决这些问题。具体来说，我们设计并部署一个微型设备排名模型以启用实时服务器端推荐结果的重新排序。我们改进其预测准确性通过利用用户的实时反馈观看视频和客户特定的实时功能。

发表于 06-19 14:51 •708次阅读

短视频制作结合元宇宙虚拟人能够带来哪些变化？

呢？首先，元宇宙虚拟人可以为短视频制作带来更加丰富的内容。传统的短视频制作通常需要摄制现实场景，并通过剪辑、配乐等方式进行编辑和制作。而元宇宙虚拟人则可以通过数字建模和动画技术，创造

发表于 06-02 15:25 •550次阅读

搜索历史

使用URL2Video可以将网页快速生成有创意的短视频

评论

微软网页版PPT新增语音识别及字幕生成功能

[技术干货] MoneyPrinterTurbo，利用 AI 大模型，一键生成高清短视频

Stability AI推出全新Stable Video 3D模型

Stability AI推出Stable Video 3D模型，可制作多视角3D视频

浅谈S-VIDEO接口静电浪涌防护

【国产FPGA+OMAPL138开发板体验】（原创）7.硬件加速Sora文生视频源代码

openai发布首个视频生成模型sora

鸿蒙ArkUI开发-Video组件的使用

【飞凌OK113i-S开发板试用】基于飞凌嵌入式OK113i网页视频监控项目

php生成动态网页内容的方法

人工智能生成技术的深度伪造技术的挑战

EchoTik上新AI短视频创作工具，助力全球短视频电商业务发展

什么是URL?为什么要做URL静态化？

快手的短视频推荐算法（1）

短视频制作结合元宇宙虚拟人能够带来哪些变化？