0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于计算机视觉领域中所提出的图像字幕,能够输出趣味字幕的系统

nlfO_thejiangme 来源:未知 作者:李倩 2018-07-29 10:42 次阅读

可以毫不夸张地说,笑是一种特殊的高阶功能,且只有人类才拥有。那么,是什么引起人类的笑声表达呢?最近,日本东京电机大学(Tokyo Denki University)和日本国家先进工业科学和技术研究所(AIST)的科学家们提出了一种新方法,通过使用它就能够生成引人发笑的字幕。

想问大家一个问题:什么是能够引起人类笑声的有效表达?在本文中,为了从学术角度思考这个问题,我们用计算机生成了一个能够引人“大笑”的图像字幕(image caption)。我们构建了一个基于计算机视觉领域中所提出的图像字幕,能够输出趣味字幕的系统。此外,我们还提出了“趣味分数”(Funny Score),它能够根据一个评估数据库灵活地给出权重。滑稽分数能够更有效地带出“笑声”从而对模型进行优化。另外,我们构建了一个自收集的BoketeDB,其中包含一个主题(图像)和张贴在“Bokete”上的趣味字幕(文本),这是一个Image Ogiri网站。在实验中,我们通过比较使用所提出的方法获得的结果和使用MS COCO预先训练的CNN + LSTM(这是由人类创建的基线)获得的结果,从而验证所提出的方法的有效性。我们将所提出的方法称为神经玩笑机器(Neural Joking Machine,NJM),该方法使用BoketeDB预训练模型。

图1:NJM从图像输入中生成的有趣字幕样本

可以毫不夸张地说,笑是一种特殊的高阶功能,且只有人类才拥有。在对笑声的分析中,正如维基百科所言,“笑声被认为是构图(模式)的转变”,并且当接受者的构图发生变化时,笑声就会经常发生。然而,笑声的视角在很大的程度上取决于接受者的位置。因此,想要对笑声进行定量测量是非常困难的。最近出现了诸如“Bokete”等网络服务的Image Ogiri,其中,用户在主题图片上发布有趣的字幕,而字幕也会并在类似SNS的环境中进行评估。用户进行竞争以获得最多的“星星”。虽然对笑声进行量化被认为是一项非常困难的任务,但Bokete评估和图像之间的对应关系使得我们我们能够定量地处理笑声。图像字幕是计算机视觉中的一个活跃话题,而且我们认为可以实现幽默的图像字幕。本文的主要贡献如下:

我们基于最近在计算机视觉领域的图像字幕研究,提出了一个用于趣味字幕生成器的框架。

我们定义了趣味分数(Funny Score),这是一个基于数据库中现有滑稽字幕评估的权重系统。而这个趣味分数常用于损失函数。

我们收集了数据以从Web服务Bokete上创建BoketeDB。该数据库包含999,571张图像和字幕对。

BoketeDB

在实验部分,我们将所提出的基于趣味分数和BoketeDB预训练参数的方法与MS COCO 预训练的 CNN + LSTM所提供的基线进行了比较。我们还将NJM的结果与人类所提供的趣味字幕进行比较。在人类的评估中,该方法所提供的结果排名要低于人类所提供的结果(22.59%VS 67.99%),但排名要高于基线(9.41%)。最后,我们显示了若干张图像中所生成的趣味字幕。

图2:所提出的有趣字幕生成的CNN + LSTM体系结构

相关研究

凭借在深度神经网络(DNNs)所取得的重大研究进展,我们发现卷积神经网络和循环神经网络(CNN+RNN)的组合,是一种用于特征提取和序列处理的成功模型。尽管没有明确的划分,但CNN通常用于图像处理,而RNN通常用于文本处理。此外,这两个领域是相互统一的。一项成功的应用是使用CNN+LSTM(CNN+长短期记忆)生成图像字幕。该技术可以从图像输入中自动生成文本。然而,我们认为图像字幕需要人类的直觉和情感。在本文中,我们将帮助引导一个图像字幕进行有趣的表达。接下来,我们将介绍幽默图像字幕生成的相关研究。

Wang等人提出了一种自动“meme”生成技术。meme是一种有趣的图像,通常包含幽默文字。Wang等人通过统计分析meme和评论之间的相关性,从而对概率依赖关系(例如图像和文本的依赖关系)进行建模,并自动生成meme。

Chandrasekaran等人通过构造一个分析器来量化图像输入中的“视觉幽默”,从而对图像进行幽默增强。他们还构建了包含有趣的(3200张)和无趣的(3200张)人类标记图像在内的数据集来评估视觉幽默。可以通过定义5个阶段来训练一张图像的“趣味性”。

图3:输出结果的比较:“Human”行表示人类用户所提供的字幕,且在Bokete网站上排名最高。“NJM”行表示应用所提出的基于Funny Score和BoketeDB的模型生成的结果。“STAIR字幕”栏表示MS COCO的日语翻译结果。

所提出的方法

我们通过使用所提出的滑稽分数进行权重评估来对趣味字幕生成器进行有效的训练。我们采用CNN + LSTM作为基准,但我们一直在探索有效的评分函数和数据库构建。我们将所提出的方法称为神经玩笑机器(NJM),它是与BoketeDB预训练模型相结合的。

CNN + LSTM

所提出方法的流程如图2所示。基本上,我们采用了Show和Tell中使用的CNN + LSTM模型,但CNN被ResNet-152替代为图像特征提取方法。接下来,我们将详细描述如何使用滑稽分数计算损失函数。该函数能够适当地评估星星的数量和它的“趣味性”。

趣味分数(Funny Score)

Bokete Ogiri网站使用星星的数量来评估字幕的趣味程度。用户对已发布的字幕的“趣味性”进行评估,并为字幕指定一至三颗星。因此,有趣的标题往往会被分配更多的星星。因此,我们关注的是星星的数量,以提出一种有效的训练方法,其中,趣味分数使得我们能够评估字幕的趣味性。根据我们先前实验的结果,拥有100颗星星的趣味分数被视为阈值。换句话说,当星星的数量小于100时,趣味分数输出损失值L;相反,当星星的数量超过100时,趣味分数返回L -1.0。损失值L是用LSTM进行计算的,作为每个小批量的平均值。

图4.使用所提出的NJM获得的可视化结果

总而言之,在本文中,我们提出了一种方法,通过使用它能够生成引人发笑的字幕。我们构建了Bokete DB,其中包含在Bokete Ogiri网站上发布的一个主题(图像)和相应的有趣字幕。通过权重评估,我们有效地训练了一个带有趣味分数的趣味字幕生成器。虽然我们以CNN+LSTM为基准,但我们始终在探索一种有效的评分函数和数据库结构。本次研究的实验表明,NJM比基准STAIR字幕要有趣得多。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1062

    浏览量

    40016
  • 生成器
    +关注

    关注

    7

    文章

    301

    浏览量

    20114
  • 计算机视觉
    +关注

    关注

    8

    文章

    1576

    浏览量

    45557

原文标题:「正经字幕」太无聊?用「神经玩笑机」就可以生成逗你笑的趣味字幕

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器视觉计算机视觉的关系简述

    ,以控制相应的行为。因此,可以说,计算机视觉为机器视觉提供图像和景物分析的理论及算法基础,机器视觉计算
    发表于 05-13 14:57

    【我是电子发烧友】七步带你认识计算机视觉(Computer Vision)

    与Woods编写的《数字图像处理(Digital Image Processing)》一书,使用MATLAB来运行其中所提到的范例,相信一定会有所获。第三步——计算机视觉一旦学习完有关
    发表于 06-14 21:06

    图像处理与计算机视觉相关的书籍有哪些

    图像处理与计算机视觉相关的书籍
    发表于 05-20 13:58

    计算机视觉领域的关键技术/典型算法模型/通信工程领域的应用方案

    、优化和运维等领域累积了大量非结构化的图像数据;同时,图像处理器(Graphics Processing Unit,GPU)的便利应用也为开展高强度并行计算提供了算力基础。本文首先总结
    发表于 12-03 13:58

    用于计算机视觉训练的图像数据集介绍

    用于计算机视觉训练的图像数据集
    发表于 02-26 07:35

    深度学习在计算机视觉领域图像应用总结 精选资料下载

    突破的领域,真正让大家大吃一惊的颠覆传统方法的应用领域是语音识别,做出来的公司是微软,而不是当时如日中天的谷歌。计算机视觉应用深度学习堪称突破的成功点是2012年ImageNet比赛,
    发表于 07-28 08:22

    深度学习与传统计算机视觉简介

    文章目录1 简介1.1 深度学习与传统计算机视觉1.2 性能考量1.3 社区支持2 结论3 参考在计算机视觉领域中,不同的场景不同的应用程序
    发表于 12-23 06:17

    计算机视觉及其在焊接中的应用

    简要阐述了计算机视觉的基本原理、系统结构和计算机视觉的基本处理方法,并着重讲解了在焊接自动化领域
    发表于 07-18 10:19 9次下载

    计算机视觉是什么

    。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指Shann
    的头像 发表于 12-08 09:24 2w次阅读

    微软新AI项目为文档和电子邮件的图像添加字幕

    微软的一项新AI项目旨在自动为文档和电子邮件中的图像添加字幕,以便视觉障碍软件读取图像
    的头像 发表于 11-18 10:54 1523次阅读

    用于计算机视觉训练的图像数据集

      计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类
    的头像 发表于 12-31 09:33 2034次阅读

    用于计算机视觉训练的图像数据集

    计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类
    的头像 发表于 02-12 16:13 1138次阅读

    机器学习和计算机视觉的前20个图像数据集

    计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类
    发表于 01-28 07:40 5次下载
    机器学习和<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的前20个<b class='flag-5'>图像</b>数据集

    机器视觉计算机视觉的区别

    计算机视觉是一个研究领域,专注于使机器能够解释和分析来自周围世界的视觉数据。简单地说,它是机器像人类一样看到和理解
    发表于 02-22 09:34 785次阅读

    机器视觉计算机视觉的区别

    机器视觉计算机视觉的区别 机器视觉计算机视觉是两个相关但不同的概念。虽然许多人使用这两个术语
    的头像 发表于 08-09 16:51 1010次阅读