0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为何我们不把机器学习更广泛地应用在文件压缩方面呢?

MqC7_CAAI_1981 来源:未知 作者:李倩 2018-11-09 15:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

移动互联网时代,人类生产的新数据正以指数级别增长,数据中心越来越大,并消耗着地球上难以想象的巨大能耗,但人类依然可能面临着“数据无处存放”的境地。

因此,让文件变小一点,这绝对是个值得投资的点子。

神剧《硅谷》剧组就选中了这个点子。在剧中,几个主角的得以创业成功的核心算法——“魔笛”即是选中了“压缩”这一多数人都能理解但对技术要求颇高的领域:允许用户在线将图片压缩至一半的大小,并依然保持其清晰度。

“魔笛算法”也一度引发了不少跟风打造属于自己的“魔笛手”,此外,包括谷歌等人工智能巨头公司近年来也在这个领域频频发力。

2016年,谷歌相关团队推出了一款叫RAISR(Rapid and Accurate Image Super-ResoluTIon)的图像压缩技术。希望以人工智能技术作为压缩路径,将图片大小压缩到源文件的1/4, 但基本不会改变图片的清晰度。

尽管引来如此高的关注,但很多人还是不认可它会在未来的发展中取得压倒性的优势。谷歌的RAISR算法也被不好业内认识吐槽说“压缩一张图片耗时久”、“压缩后图片清晰度没有那么高”等等。

谷歌机器学习工程师、Jetpac创始人Pete Warden近期发布了一篇文章,认为在短期内压缩算法可能会成为机器学习应用最可能出现的杀手级应用的领域,他从“压缩”这一技术的起源开始,希望告诉大家问什么压缩技术的前景是如此的广阔。

大数据文摘对这篇文章进行了编译。

OSDI上的一篇文章“神经自适应型内容感知互联网视频传输”激发了我对这一领域的兴趣。

这篇文章告诉我们:通过神经网络,在带宽相同的条件下,用户体验将能提高43%,或者在带宽缩减17%的条件下可以保持体验的质量基本不变。还有其他同类的论文将类似方法运用在了生成压缩或自适应图像压缩等方面。他们都展示出了惊人的成果。那么,为何我们不把机器学习更广泛地应用在文件压缩方面呢?

我们尚未拥有性能配套的计算设备

上文所提到的所有方法都需要相对较大的神经网络,并且所需的计算量与像素数量成正比。这意味着大型图片文件或每秒帧数较高的视频文件可能需要比当前广泛使用的移动设备更强的计算能力。

现行的大多数CPU每秒仅能处理百亿级的运算,而在高清视频上用机器学习进行压缩很轻易便能达到十倍于此的计算量。

当然,好消息是目前我们已经有了一些硬件解决方案,比如Edge TPU等,可以让我们看到未来达到更多计算量的可能性。我期待这种压缩方法能够运用到各种类型文件的压缩转换上,从视频到图像,到音频,乃至更多充满想象力的方式。

自然语言是终极压缩目标

近来机器学习在自然语言处理中取得了大量有趣的成果。这是另一个让我觉得机器学习是较为优越的压缩转换途径的原因。

如果你稍稍观察,便会发现字幕其实是将声音压缩为图像的一种形式。我一直想做一个项目,试图创造出一种相机,每秒生成一帧字幕,并将所有字幕逐一按行输出至一个日志文件中。由此便可简单记录下基于相机的拍摄内容随时间的推移而发生的故事,这可以被定义为一个叙事类的传感器

我将这一技术归类到压缩方法中的原因是你可以通过生成性的神经网络将字幕还原为图像。尽管重新生成的图像不会跟原图像完全一致,但也能够从原图像继承一些信息。如果你希望结果与原图像尽可能接近,你也可以从风格化方面考虑,例如为每个场景生成简图。这些技术的共同特征在于他们提取出了输入文件中对于我们人类重要的部分,并省略了余下的部分。

不仅仅是图像

语言世界也有类似的趋势。语音识别正在迅速改进,合成语音的能力也在迅速提高。识别可以看作是将音频压缩为自然语言文本的过程,而合成则恰好相反。你可以想象将对话高度压缩为自然语言文字而非音频。诚然,我们不需要达到那种要求,但似乎通过扩展我们对于表达的认知类型,我们可以实现在低带宽情况下的更好的结果。

我甚至还发现一些有趣的将机器学习应用在文本本身上的可能性。Andrej Karpathy的CHAR-RNN(递归神经网络)展示了神经网络对某些模板进行模仿的优越性,而对于压缩技术来说,预测也是相同的道理。考虑到普通的HTML页面有不少冗余,这一情况下GZIP压缩方法似乎有很大机率能被机器学习改进,尽管我认为这没有机器学习对文本的处理那么容易。

对于压缩的研究已立项拨款

在我创业期间,营销失败的经历让我学到了一件事:如果已经有一笔预算要购买你所推销的产品,该产品的销售会容易得多。预算的存在意味着公司在是否应该花钱购买解决方案上已经赢得了艰难的斗争,现在唯一的问题是购买哪种解决方案。

这也是我认为机器学习可以在这个领域取得巨大突破的原因之一,因为制造商已经拥有专门用于视频和音频压缩的工程师、资金和芯片。如果我们能够证明将机器学习添加到现有解决方案中能够以一些可度量的方式(例如质量、速度或功耗)改进它们,那么它们将被快速采用。

带宽将会花费用户和运营商的大量的成本,质量和电池寿命将会成为产品的卖点,因此采用机器学习改进压缩的优势将比其他运用更为显而易见。

许多激动人心的研究表明这种方式将会非常高效,而且我乐观地认为还有许多应用尚未被发掘。我希望机器学习在压缩中的应用将发展成为一门核心技术。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110252
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106792
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136230

原文标题:被《硅谷》选中的“压缩算法”,为什么说下一个机器学习杀手应用将由此诞生

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MCUCW32A030C8T7都应用在哪些场景?

    车规级MCUCW32A030C8T7都应用在哪些场景?汽车主电机驱动上面?性能如何?
    发表于 11-14 06:02

    国产芯硬核实力!D2000飞腾主板赋能更广泛

    国产主板时至今日,已落地应用在多个场景上,比如:政务服务大厅,市民轻点自助终端就能完成社保查询;智能工厂,生产线数据实时流转无延迟;银行网点的自助柜员机24小时精准处理交易。
    的头像 发表于 11-10 13:58 73次阅读

    如何促进AI工艺优化与协同应用在不同行业的发展?

    促进 AI 工艺优化与协同应用在不同行业的发展,需要从政策支持、技术研发、人才培养、场景应用等多个方面入手。
    的头像 发表于 08-29 10:38 678次阅读
    如何促进AI工艺优化与协同<b class='flag-5'>应用在</b>不同行业的发展?

    利用NVIDIA推理模型构建AI智能体

    开放式推理模型能够更快、更广泛地进行思考,为客户服务、网络安全、制造、物流和机器人等领域的 AI 智能体生成更明智的结果。
    的头像 发表于 08-13 14:32 1291次阅读
    利用NVIDIA推理模型构建AI智能体

    大模型在半导体行业的应用可行性分析

    的应用,比如使用机器学习分析数据,提升良率。 这一些大模型是否真的有帮助 能够在解决工程师的知识断层问题 本人纯小白,不知道如何涉足这方面 应该问什么大模型比较好,或者是看什么视频能够涉足这个行业
    发表于 06-24 15:10

    CMOS的逻辑门如何应用在电路中

    CMOS的逻辑门如何应用在电路中 前言 在如今的电子电路中,CMOS逻辑门有着接近零静态功耗和超高集成度的特点,是数字电路不可或缺的存在。其独特之处在于PMOS与NMOS晶体管的互补设计:当输入
    的头像 发表于 06-19 16:07 1359次阅读
    CMOS的逻辑门如何<b class='flag-5'>应用在</b>电路中

    人脸识别终端应用在不同领域,有什么优势和注意事项?

    人脸识别技术已广泛应用在我们日常生活中的方方面面,有着便捷、高效、安全的特点。而且人脸识别可以摆脱一切截止需求,出门就算不带手机、证件或钥匙,都能畅通无阻。例如消费支付,以前可能要带钱包、银行卡或者
    的头像 发表于 04-15 10:24 665次阅读
    人脸识别终端<b class='flag-5'>应用在</b>不同领域,有什么优势和注意事项?

    DLP160CP DMD是否可以应用于机器视觉应用?

    关于DLP160CPDMD芯片有一个疑问, 请问该芯片是否可以应用在机器3D视觉(结构光)场景应用?我在TI TLP机器视觉,“3D扫描视觉机器
    发表于 02-20 07:39

    请问有什么外部LED驱动器可以应用在这个DLPC350驱动板上?

    DLPC350驱动板上的LED驱动部分有问题,请问有什么外部LED驱动器可以应用在这个驱动板上,适合这个光机系统的?
    发表于 02-20 06:43

    电路反馈应用在哪些方面

    在当今电子技术飞速发展的时代,电路反馈作为一项核心技术手段,如同精密仪器中的关键齿轮,驱动着各类电子设备高效、精准地运行。 电路反馈的主要应用领域如下: 放大器:负反馈可提高放大器的稳定性、线性度及带宽,减少失真和噪声,如音频功率放大器中,能使音频信号输出更平稳;正反馈可增加放大器的增益,如在一些特殊的高频放大器中可增强信号强度。 振荡器:正反馈是振荡器的关键,能使电路产生并维持稳定的振荡,输出周期性信
    的头像 发表于 02-04 14:42 939次阅读

    Norflash闪存芯片HT25Q20D广泛应用在汽车电子领域

    全球NOR Flash市场由四家主要制造商主导,除巨头之外,还有华芯邦等厂商在市场上也占有一席之地,主要为蓝牙、音频、WIFI等SoC主控芯片生产商供货,其产品广泛应用于各种消费电子品牌。例如HT25Q20D广泛应用在汽车电子领域中。
    的头像 发表于 01-13 15:20 1225次阅读
    Norflash闪存芯片HT25Q20D<b class='flag-5'>广泛应用在</b>汽车电子领域

    华芯邦Norflash闪存芯片HT25Q20D广泛应用在汽车电子领域,主要为蓝牙、音频、WIFI等SoC主控芯片生产商供货

    华芯邦Norflash闪存芯片HT25Q20D广泛应用在汽车电子领域,主要为蓝牙、音频、WIFI等SoC主控芯片生产商供货,其产品广泛应用于各种消费电子品牌。
    的头像 发表于 01-09 14:45 1034次阅读

    请问LDC1000芯片能否应用在高速的环境中?

    请问LDC1000芯片能否应用在高速的环境中,例如在10ms的时间中,我要采样1000个点,来得及吗?还是说只要单片机频率够高就可以啊?
    发表于 01-07 07:57

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多
    的头像 发表于 12-30 09:16 1978次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 698次阅读