AI Deepfake再升级,以假乱真!安全性令人担忧-电子发烧友网

众所周知，利用 Deepfake 技术可以自动生成虚假图像，轻松达到以假乱真的结果。但这还不够，随着该技术的不断升级，它还有更多意想不到的应用正在被挖掘。现在，一个能更加方便快捷创建虚假视频和错误信息的方法出现了。

在最新的深度技术突破中，研究人员展示了一种新方法，该方法使用机器学习技术让用户编辑视频文本内容，来添加、删除或更改视频人物中的话语。

也就是说，如果你想对一段人物特写视频进行重新编辑，只需要对视频所对应的文本内容进行修改，随后人脸会根据修改的文本内容作出与之相配的动作表达。

研究人员在一段视频讲解中给出了一些例子，比如将电影《现代启示录》中的一段人物特写镜头中的台词“我喜欢早晨的汽油弹的气味”更改为“我喜欢早晨的法国土司的味道。”随着台词的变化，系统自动会重新合成人物的脸部发声动作，给出编辑后的视频。

这项研究由斯坦福大学、马克斯普朗克信息学研究所、普林斯顿大学和 Adobe 研究所的科学家共同合作完成，它表明人们能够更轻松地编辑视频人物所说的内容并制作逼真的虚假视频。

研究人员认为，他们的方法完全朝着基于文本编辑和合成一般视听内容的目标迈出了重要一步。

不过，该方法目前正处于研究阶段，普通用户还不能使用，但市面上已经有类似的软件。Adobe 就发布了一个叫 VoCo 原型软件，该方法允许用户像编辑图片一样轻松编辑语音内容。

但该系统给出的结果要更加精细。根据论文《基于文本的头部特写视频编辑》（https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf）介绍，该系统的输入包括讲话的头部特写视频、讲话的文本和指定的编辑操作，他们的工具支持三种类型的编辑操作:

增加新单词：编辑器在视频中的某一点添加一个或多个连续的单词。

重新排列现有的单词：编辑移动一个或多个存在于视频中的单词。

删除现有单词：编辑从视频中删除一个或多个单词。

为了做出虚假视频，研究者们主要分为五个阶段来处理视频。在音位排列阶段，他们将转录文本与视频进行比对，然后在跟踪重建阶段，用视频生成了一个三维参数头部模型。每个输入视频完成这样的预处理步骤，然后执行视位搜索（viseme search），在编辑器中找到音素的子序列和输入视频中音素的子序列之间的最佳视觉匹配。研究者们还提取了编辑位置周围的区域作为背景序列，从中提取背景像素和姿态数据。对于每个子序列他们混合三维头部模型的参数，然后加上背景像素，最终呈现一个真实的全画幅视频（full-frame video）。

（注：视觉音素 / 视素（visual phoneme/viseme）是嘴唇和面部的姿势或表达，其对应于特定的语音（音素），是具备可理解度的基本视觉单元。在计算机动画中，我们可以使用视觉音素来制作虚拟角色的动作，令它们看起来像是在说话。）

当有人编辑视频的文本内容时，系统会将所有这些收集的数据（音素、视位和 3D 脸部模型）组合在一起，以构建与文本输入相匹配的新素材，然后将其粘贴到源视频上以创建最终的结果。

研究人员还将他们的方法与其他对讲视频合成技术进行了比较。他们分别用 5% 、10%、50% 和 100% 的训练数据来测试结果。使用 100% 的数据量，每幅图像的平均 RMSE（标准误差）为 0.018，使用 50% 的数据量为 0.019，只使用 5%的数据量为 0.021 。

他们还用各种合成短语进行测试，发现短语长度与结果质量没有直接关系。而组成短语的视位和音素对齐质量等其他因素会影响最终结果。

他们还尝试将 MorphCut 应用于单词的加法问题。MorphCut 在两帧图像之间产生一个大的头部跳跃。

将检索到的viseme序列与MorphCut拼起来生成一个新单词

同时，他们与 Face2Face[Thiesetal.2016]方法进行了比较，他们的方法生成了高质量结果，而基于检索的 Face2Face 方法显示出鬼影现象，并且不稳定。

与 Face2Face 进行比较

为了定量评估基于文本的编辑系统生成的视频质量，研究人员发起了一项基于 web 的用户测试研究，参与者有 138 名。

在向 138 名志愿者进行虚假视频的测试时，大约 60％的参与者认为编辑过的视频是真实的，虽然这个数据听起来不怎么好，但另一数据显示，同一组内只有 80％的参与者认为原始未经编辑的镜头才是合理的。（研究人员指出，这可能是因为一些人在测试前被告知他们的答案会用于视频编辑研究，这意味着受试者已经准备好要找到虚假视频。）

以上评估表明，他们的方法展示了令人信服的结果，但该研究也存在一定的局限性，还有进一步优化的空间。

例如，新的合成方法需要重新计时（re-timed）的背景视频作为输入，但重新计时会改变动作的速度，因此眨眼和手势可能不再与讲话动作完全一致，为了减少这种影响，他们使用了比实际编辑更长的重新计时区间以修改更多原始视频片段。

这里的算法只能用于对特写风格的视频施加影响，并且这需要 40 分钟的输入数据。编辑过的语音似乎与源材料的差别不大，并且在最优质的虚假视频中，研究人员要求拍摄对象录制新的音频以匹配这种变化，然后用 AI 生成视频。

研究人员还指出，他们还不能改变人物说话声音的情绪或语调，因为这样做会产生“不可思议的结果”，例如，如果人物在说话时挥手对脸部进行遮挡会让算法完全失效。

在未来，研究人员指出，端到端学习可以用来学习一种从文本到视听内容的直接映射。

这些局限性始终存在于早期研究中，不过研究人员可以保证它们能够及时得到克服，这意味着任何人都可以在没有技术培训的情况下使用系统来编辑人们在视频中所说的内容。

这项技术的潜在危害非常令人担忧，该领域的研究人员经常因未能考虑可能滥用其研究而受到批评。但参与这一特定项目的科学家表示，他们已经考虑过这些问题。

在这篇论文附带的博客文章中，他们写道：“虽然图像和视频处理的方法与媒介本身一样久远，但当其应用于思想和意图等权威证据的交流方式时，滥用的风险会更高。“他们也承认，不法分子可能会使用此类技术伪造个人陈述并用于诽谤知名人士。

为了防止人们混淆原始视频和虚假视频，他们给出的解决方案是人工智能编辑的视频应该通过使用水印或通过上下文直接清楚地呈现（例如观众理解他们正在观看的是虚构电影）。

但显然，The Verge 指出，水印很容易被消除，而且网络媒体在传播会去掉上下文场景描述，虚假事物并不需要完美无瑕。很多虚假的新闻文章很容易被揭穿，但这并不能阻止它们的传播，尤其是对于那些想要相信这种符合他们先入之见的谎言的社区。

当然，这样的技术也有许多有益的用途，比如对电影和电视行业有很大的帮助，可以让他们在不重新录制镜头的情况下修复读错的台词，并帮助不同语言的演员进行无缝配音。不过，与潜在的滥用等威胁相比，这些益处好像并不足以使人们信任这项技术，反而，它在技术上的突破更大，人们会更加感到不安。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26434

浏览量
264036

原文标题：“篡改”视频脚本，让特朗普轻松“变脸”？AI Deepfake再升级

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

Rust效率领先C++两倍，内存安全成国家安全议题

这项发现由谷歌安卓平台工具及库的工程总监Lars Bergstrom在日前召开的Rust Nation英国峰会揭示。尽管此前业内对Rust的安全性和稳定性存在一定争议，特别是其‘unsafe’关键字的存在令人担忧。

发表于 04-01 15:37 •223次阅读

NanoEdge AI的技术原理、应用场景及优势

能耗并提高数据安全性。本文将对 NanoEdge AI 的技术原理、应用场景以及优势进行综述。 1、技术原理 NanoEdge AI 的核心技术包括边缘计算、神经网络压缩和低功耗硬件设计。边缘计算

发表于 03-12 08:09

求助，为什么说电气隔离安全性比较高？

为什么说电气隔离安全性比较高？

发表于 11-02 08:22

MCU是怎么为物联网端点设备提高安全性的？

MCU 是怎么为物联网端点设备提高安全性的？

发表于 10-17 08:53

中伟视界&amp;矿山安全生产：露天煤矿智慧矿山ai建设，AI能解决哪些安全隐患？

智慧矿山AI技术在露天煤矿中的应用能够有效解决多项安全隐患，从而提升矿山的安全性和生产效率。

发表于 09-26 18:34 •213次阅读

STM32H5 MCU系列提升性能与信息安全性

强大的Arm® Cortex®-M33 MCU运行频率高达250 MHz的Arm®Cortex®-M33内核32位MCU满足绝大多数工业应用的需求安全性可扩展，满足各类需求从基本的安全构建模块到经过

发表于 09-06 06:29

新唐工业计算机/服务器安全智联升级方案

升级方案，解决三大难题，对于安全性、系统整合与投资回报，提供安全智联升级解决方案。 安全性: 可扩充Secure Shell (SSH) 通

发表于 08-25 08:07

MCU应用安全性

MCU应用安全性

发表于 08-10 11:04 •405次阅读

ARMv8系统中的安全性

TrustZone体系结构为系统设计人员提供了一种帮助保护系统的方法TrustZone安全扩展和安全外设。低级程序员应该理解TrustZone架构对系统的设计要求;即使他们不使用安全功能。 ARM

发表于 08-02 18:10

芯片产业迎来转折点

2023年已经过半，在上半年，整个电子半导体产业表现低迷，更令人担忧的是，第二季度的供需行情不如预期，这给下半年的产业发展蒙上了一层阴影。

发表于 07-17 11:42 •575次阅读

可靠性与安全性

安全性促进可靠性设计：安全性要求通常会推动可靠性设计的实施。为了满足安全性要求，产品设计人员需要考虑风险评估、故障预防和容错设计等措施。这些措施有助于提高产品的可靠性，减少故障率，增加产品在不

发表于 07-12 10:44 •3345次阅读

RISC-V如何保证高权限模式程序及外设的安全性？

RISC-V有机器模式、监管模式和用户模块，但无论在哪个模式下当TRAP发生时都会转到机器模式，是不是也就意味着在用户模式下进入中断服务程序也会拥有机器模式的权限，那我们如何保证高权限模式程序及外设的安全性？

发表于 05-26 08:11

大数据安全有哪些挑战

大数据安全一直是一个令人担忧的问题，因为大数据是网络入侵者的重要目标。如果遭遇勒索软件攻击，可能使企业的大数据部署面临赎金要求。更糟糕的是，未经授权的用户可能会访问企业的大数据，以窃取和出售有价值

发表于 05-19 11:46 •1160次阅读

如何确保远程桌面的安全性

如何确保远程桌面的安全性？首先，挑选一款合适的远程桌面解决方案，替换掉RDP 和VPN；其次，检查是否已采用下文列出的几个安全性最佳实践。

发表于 05-16 15:44 •1152次阅读

电池xray检测如何确保电池安全性和稳定性？-智诚精展

电池xray检测(Battery X-ray Inspection)是一种能够确保电池安全性和稳定性的常用检测方法。它可以快速检测出电池内部的缺陷，以便及时进行维修、更换和升级，以确保电池的安全性

发表于 05-10 16:47 •1013次阅读

搜索历史

AI Deepfake再升级,以假乱真!安全性令人担忧

评论