0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

首例“AI声音侵权案”,声音AI化用于短视频

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-12-20 00:28 次阅读

电子发烧友网报道(文/李弯弯)AI技术的应用,给我们的生活带来了巨大改变。同时,它的不当使用也带来了侵权、诈骗等风险。近日,北京互联网法院首次组成五人合议庭,依法公开审理全国首例“AI声音侵权案”。

该案中,原告殷某某以配音为职业,曾录制多部有声作品。殷某某意外发现,自己的声音被AI化后,在一款名为“魔音工坊”的APP上以“魔小璇”的名义对外出售。因此,殷某某以被告行为侵害其声音权为由,将“魔音工坊”的运营主体北京小问智能科技有限公司等五被告起诉到北京互联网法院。

AI声音侵权案始末

目前,该案件仍在审理中,五被告均否认侵权。北京小问智能科技有限公司认为,其APP中的声音产品有合法来源,来自于微软(中国)有限公司。微软(中国)有限公司称其使用的声音来源于中广影音(北京)文化传媒有限公司。

中广影音(北京)文化传媒有限公司认为其与原告有过合作,约定经原告录制形成的作品著作权归属其所有。上海蓝云网络科技有限公司和北京信诺时代科技发展有限公司辩称,其分别为微软中国的平台运营商与涉案产品的经销商,不构成侵权。

原告则认为,他人利用原告声音的配音作品在抖音、直播吧等APP广泛流传,其中抖音用户“小禾侃剧”自2021年9月7日至今,共发布使用原告声音的作品119部。经声音筛选和溯源,发现上述声音作品中的声音来自于被告北京小问智能科技有限公司运营的“魔音工坊”APP。

被告中广影音(北京)文化传媒有限公司将原告为其录制的3本书的音频交给被告微软(中国)有限公司,被告微软(中国)有限公司将原告的声音进行AI化处理,并向被告上海蓝云网络科技有限公司和被告北京信诺时代科技发展有限公司授权对外出售。

但是,原告从未授权过任何第三人将其录制的声音进行AI化并对外销售,上述被告的行为已经严重侵犯了原告的声音权,应承担停止侵权、赔礼道歉及赔偿原告经济损失、精神损失的侵权责任。

北京小问智能科技有限公司是出门问问旗下公司,魔音工坊是出门问问面向AI配音场景推出的新一代AI配音产品。在大模型技术的加持下,“魔音工坊”是全球首款搭载了大模型AI写作功能的配音平台,覆盖了AI写作、AI配音和剪辑等多个场景。用户可以在它的辅助下轻松完成影视解说、有声书、在线教育、新闻播报等集文案与配音于一体的内容创作。

如今,短视频、有声书市场蓬勃发展,这也使得声音合成技术有了广泛的应用空间。在应用市场和深度学习技术的发展下,语音合成技术已经非常成熟。可以看到上述情况是,原告给某公司录过几本书,它的声音在没被授权的情况下通过AI化之后,进行出售。

这其实就是现在大家谈到的声音克隆,也称为语音合成定制,是一种深度学习算法。平台方可以通过各种渠道获得某人的声音之后,哪怕这个人只是说了几段话,通过AI技术都可以合成与原说话人非常相似的声音。

语音合成历史及应用趋势

语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

事实上,早在18到19世纪,语音合成技术就已经出现,当时是用机械装置来模拟人的发声,那时候科学家们会制作出一些精巧的气囊和风箱去搭建发声的系统,可以合成出一些元音和单音。20世纪初,出现了用电子合成器来模拟人发声的技术,最具代表性的就是贝尔实验室的Dudley,他在1939年推出了名为“VODER”的电子发声器,使用电子器件来模拟声音的谐振。

到了20世纪80年代,随着集成电路技术的发展,出现了比较复杂的组合型的电子发生器,比较代表性的KLATT在1980年发布的串/并联混合共振峰合成器。到了20世纪80、90年代随着PSOLA方法的提出和计算机能力的发展,单元挑选和波形拼接技术逐渐走向成熟,90年代末刘庆峰博士提出听感量化思想,首次将中文语音合成技术做到了实用化地步。

在20世纪末期,还有另外一种基于HMM的参数合成技术出现。而近些年,随着AI技术不断发展,基于深度学习的语音合成技术逐渐被人们所知道,DNN/CNN/RNN等各种神经网络构型都可以用来做语音合成系统的训练,深度学习的算法可以更好地模拟人声变化规律。语音合成技术应用也迎来了高速发展。

当下,AI声音合成技术的市场需求确实非常明显。直播、短视频、有声书的市场需求空间大,然而未接受过声音培训的普通人对于自己的声音满意度并不高。而通过AI技术让配音,或者美化自己的声音正在成为趋势。上文提到的魔音工坊正是通过技术手段为用户提供好听的声音。

小结

当前来说,AI技术侵权的问题仍然还未得到解决,就如之前使用图片所有权人的图片进行训练,生成的图片,这是否构成对图片所有权人的图片的侵权。声音训练也是如此,使用某人的声音训练出了跟这个人类似的声音,这个合成的声音所有权算谁的?这些还需要进一步探讨出相应的规范才行。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264044
收藏 人收藏

    评论

    相关推荐

    NanoEdge AI的技术原理、应用场景及优势

    NanoEdge AI 是一种基于边缘计算的人工智能技术,旨在将人工智能算法应用于物联网(IoT)设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身,从而减少数据传输延迟、降低
    发表于 03-12 08:09

    首例虚拟数字人侵权案判决!数字人面临的挑战及发展趋势

    网络平台上有超过5000万个虚拟数字人的主播账号,相关的市场规模已经达到一百余亿元,周边市场更是超过了千亿元的量级。   然而随着市场规模的不断发展扩大,相关的纠纷也随之而来。全国首例涉“虚拟数字人”侵权案近日二审宣判引
    的头像 发表于 01-15 00:01 1013次阅读

    让“聋人”看到声音 行空板 —“AI助听器”

    世界上有各种各样的残障人士,这些人或不能说话,或听不见声音。聋人,是听力因先天遗传或后天人为因素而受损的残疾人,也叫听力障碍者,简称听障人。根据最近的全国人口普查统计,全中国大约有2700
    的头像 发表于 01-12 13:12 161次阅读

    labview声音采集与处理

    LabVIEW是一种用于数据采集与处理的编程语言和开发环境。它具有强大的声音采集和处理功能,可以帮助用户实现声音信号的采集、分析和处理。本文将详细介绍LabVIEW在声音采集与处理方面
    的头像 发表于 01-04 10:48 729次阅读

    炬芯科技周正宇:焕新声音活力,AI驱动下的音频芯片创新

    人类高度依赖对声音的感知,从某些角度出发甚至高于对于视觉的依赖。海伦凯勒说:盲隔离人和物,聋隔离人和人。可以说声音是人与人交互最重要的手段。人对声音的高度依赖从生到死永不停息,耳朵是一生从不
    发表于 11-16 11:56 125次阅读
    炬芯科技周正宇:焕新<b class='flag-5'>声音</b>活力,<b class='flag-5'>AI</b>驱动下的音频芯片创新

    【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

    本文将介绍如何使用Vitis-AI加速YOLOX模型实现视频中的目标检测,并对相关源码进行解读。由于演示的示例程序源码是Vitis-AI开源项目提供的,本文演示之前会介绍所需要的准备工作。演示之后
    发表于 10-06 23:32

    AI智能呼叫中心

    随着科技的飞速发展,人工智能(AI)已经成为了各行各业的关键技术,其中,AI智能呼叫中心的出现,给传统的呼叫中心带来了巨大的改变与创新,本文将探讨AI智能呼叫中心的优势,包括自动化处理、个性化服务
    发表于 09-20 17:53

    PowerAI Vision:用于图像和视频的自动AI

    电子发烧友网站提供《PowerAI Vision:用于图像和视频的自动AI.pdf》资料免费下载
    发表于 09-13 10:43 0次下载
    PowerAI Vision:<b class='flag-5'>用于</b>图像和<b class='flag-5'>视频</b>的自动<b class='flag-5'>AI</b>

    AI可以根据声音进行信息解码

    根据杜伦大学、萨里大学和伦敦大学的研究人员最近发表的一篇论文显示,输入的信息可以通过手指敲击按键的声音来进行解码。
    的头像 发表于 09-04 16:33 706次阅读

    AI解锁声音的奥秘——启英泰伦新成果发布交流会

    声音,是由物体或介质的振动引起的,振动源的多样性、振动的频率和波形的差异、传播介质的差异等因素共同作用,使我们能够感知到丰富而多样化的声音世界。听得到、听得清、听得懂、辨得明,是AI语音技术的重要
    的头像 发表于 08-16 12:02 394次阅读
    用<b class='flag-5'>AI</b>解锁<b class='flag-5'>声音</b>的奥秘——启英泰伦新成果发布交流会

    聚焦语音 AI:在 AR 眼镜上可视化语音和声音

    的对话和非语音声音。通过将语音和声音 AI 相结合,可以将这些可视化效果叠加到 AR 眼镜上,从而使用户能够看到并理解他们无法听到的声音。 根据世界卫生组织的统计,约有 15 亿人(占
    的头像 发表于 07-26 19:30 449次阅读

    EchoTik上新AI短视频创作工具,助力全球短视频电商业务发展

    短视频平台来出海。但是,短视频创作往往费时费力,批量化创作更是各大电商卖家普遍面临的挑战。 基于ChatGPT,TikTok第三方数据分析平台EchoTik(https://echotik.live)上线AI工具箱,用最先进的
    的头像 发表于 06-30 17:29 273次阅读
    EchoTik上新<b class='flag-5'>AI</b><b class='flag-5'>短视频</b>创作工具,助力全球<b class='flag-5'>短视频</b>电商业务发展

    国产生成式AI,不能仅仅看向前方#生成式AI #信息无障碍

    AI
    脑极体
    发布于 :2023年06月15日 19:06:36

    AI视觉检测在工业领域的应用

    检测系统在哪些行业中应用? AI视觉检测系统已经广泛应用于电子、汽车、食品、医药等行业,以下为行业应用案例举例: 1.电子行业:在电子工厂的生产线上,工业AI视觉检测系统可以用于检测电
    发表于 06-15 16:21

    #物联网 如何用AI做一条视频#物联网 #电子技术 #人工智能 #AI技术

    AI
    轻生活科技语音模块
    发布于 :2023年05月26日 15:31:52