VizWiz数据集：用计算机视觉回答盲人的问题-电子发烧友网

计算机视觉的应用可以用来帮助盲人，无论是改善视力缺陷还是打破社交障碍。例如TapTapSee和CamFind等物体识别工具可以让人们拍摄图像，并识别目标物体是什么，以及哪里能买到。另外，Facebook和Twitter推出的新功能可以识别和标记图片中的好友，让人们与朋友保持联系。计算机视觉应用的下一个理想目标是让有视力障碍的人更自然地接收到关于周围世界的信息。这一目标的出现引起了人们对通用视觉问题解答（visual question answering）的兴趣，该问题旨在准确地回答任何有关图像的问题。

在过去三年里，计算机视觉领域已经涌现出了14种VQA数据集，但他们都是人工创建设置的，并且没有一个数据集的图片是来自盲人的或服务于盲人的。然而，可以这么说，盲人能够产生训练算法所需的大量数据。近十年来，盲人群体通过拍照询问他们拍的是什么，并且盲人通常是计算机视觉技术早期的使用者，这项技术将为他们的生活带来极大的便利。

中国科学技术大学和美国卡内基梅隆大学等高校的研究人员共同提出了第一个由盲人产生的视觉数据库“VizWiz”，他们通过数据库创建了一个手机程序，可以让盲人通过拍照和询问得到超过七万个问题的答案。数据集刚开始构建时严格对内容进行过滤，消除有可能侵犯个人隐私的视觉问题。之后通过众包获取图像的答案来训练和评估算法，接着通过实验对图像进行特征分类、问题回答，最终发现了VizWiz与其他现有VQA数据集不同的地方。

VizWiz介绍

该VQA数据集由盲人提出的视觉问题组成，在四年时间里积累了72205个问题。表一总结了VizWiz收集数据的过程与其他数据库的不同，其中明显的区别是VizWiz包含来自盲人摄影师的图像，并且提问方式是口头而非文字。

表一

这种图像质量带来了一般数据集中没有的挑战，例如会有大量的模糊、光线不足、图像内容缺失等。另外，因为“提问者”也是“拍摄者”，所以有时问题可能与图像无关，如图所示。

在对数据集的图像进行筛选时，研究人员将可能会泄露隐私的图片分成以下几类：

暴露个人信息，例如人脸、财务状况、药品处方。

某个地点，例如邮箱地址、商业地点。

不雅内容，例如裸体、亵渎。

可疑的复杂场景，审查人员怀疑其中可能包括个人信息，但没有找到明确的地方。

可疑的低质量图像，审查人员怀疑增强图像质量可能会暴露个人信息。

最终，研究人员通过IQ引擎、Facebook、Twitter或电子邮件公开接收图像的答案。

VizWiz数据库分析

接着，研究人员将对VizWiz中的问题和答案进行可视化，他们分析了自然语言问题的类型、图像都有哪几类、答案分为哪几类以及视觉问题无法回答的情况。

首先，问题的类别如下图所示：

表中统计了所有问题的前六个字母。最内环代表第一个字母，以此类推。可以看出，“这是什么？（What is this）”这个问题是最常见的。

然后，我们来分析数据库中的图像多样性。尤其值得关注的是，我们的数据集中高质量的图像可以显示单个标志性的对象，因为在收集时过滤掉了可疑图像。在之前工作的基础上，我们首先计算了VizWiz中所有图像的平均图像。如下图所示：

接着，我们来分析答案的多样性。我们首先用词汇地图将不同答案进行可视化，如下图所示：

文字越大，答案出现的频率就越高。

VizWiz评估结果

研究人员用现有算法测试了VizWiz数据集的难度。首先是用现代VQA算法预测VizWiz数据集中视觉问题的答案，结果如下表所示：

可以看出前两行的表现非常糟糕，而VizWiz的表现还是不错的。

接着他们测试了算法是够能区分某一问题是否可答的精确度，结果如下图所示：

结果可见，研究人员提出的方法比现有方法的精确度提高了至少25%。

结语

在这篇论文中，研究人员介绍了一种VQA数据集——VizWiz，与一般数据集不同的是，其中的内容都来自盲人拍摄的图片，并由盲人对内容进行提问。通过对数据集的分析，研究人员对计算机视觉以及自然语言处理又有了新的认识。更重要的一点是，VizWiz的出现能让更多人关注针对盲人的技术需求，为开发专门的技术提供了新机会。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6511

浏览量
87587
人工智能

人工智能

+关注

关注
1776

文章
43808

浏览量
230572

原文标题：VizWiz数据集：用计算机视觉回答盲人的问题

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

机器视觉与计算机视觉的关系简述

。计算机视觉是一门独立的学科，有着30年左右的历史，集图像处理、模式识别、人工智能技术为一体，着重服务于一幅或多幅图像的计算机分析。机器视觉

发表于 05-13 14:57

通用计算机总线仪器

1.通用计算机总线仪器的特点1．通用计算机总线仪器的特点对于独立的台式智能仪器，不仅包括数据采集，还包含专用的计算机系统完成信号的运算处理以及显示输出等，如示波器、万用表等，这种仪器

发表于 12-06 14:10

计算机视觉/深度学习领域常用数据集汇总

Convolutional Neural Networks》在计算机视觉领域带来了一场“革命”，此论文的工作正是基于Imagenet数据集。Imagenet

发表于 08-29 10:36

计算机视觉神经网络资料全集

CV之YOLOv3：深度学习之计算机视觉神经网络Yolov3-5clessses训练自己的数据集全程记录(第二次)——Jason niu

发表于 12-24 11:52

如何读取计算机的u***的数据？

公司要用计算机读取全站仪的数据，通过u***与计算机直接连接，怎么用c实现这个东西？

发表于 09-26 21:24

自动驾驶系统要完成哪些计算机视觉任务？

Geiger 的研究主要集中在用于自动驾驶系统的三维视觉理解、分割、重建、材质与动作估计等方面。他主导了自动驾驶领域著名数据集 KITTI 及多项自动驾驶计算机

发表于 07-30 06:49

用于计算机视觉训练的图像数据集介绍

用于计算机视觉训练的图像数据集

发表于 02-26 07:35

5. 电子计算机的应用,计算机应用基础(试卷版)5|计算机应用基础试卷精选资料分享

：通用计算机和专用计算机B：数字电子计算机和模拟电子计算机C：科学与过程计算计算机、工业控制计算机

发表于 09-13 09:08

计算机视觉讲义

计算机视觉讲义:机器视觉是研究用计算机来模拟生物外显或宏观视觉功能的科学和技术．机器视觉系统的首

发表于 03-19 08:08 •0次下载

计算机视觉与机器视觉区别

　“计算机视觉”，是指用计算机实现人的视觉功能，对客观世界的三维场景的感知、识别和理解。计算机视觉

发表于 12-08 09:27 •1.2w次阅读

使用计算机视觉和人工智能来识别X射线中的计算机模型

这些模型使用计算机视觉和人工智能（AI）分析胸部X射线图像。它可以对肉眼通常无法识别的信息进行分类，并有助于诊断。

发表于 05-29 11:07 •813次阅读

如何使用计算机视觉技术识别棋子及其在棋盘上的位置

本期我们将一起学习如何使用计算机视觉技术识别棋子及其在棋盘上的位置

发表于 03-21 13:16 •2476次阅读

使用计算机视觉为工业工人进行跌倒检测

电子发烧友网站提供《使用计算机视觉为工业工人进行跌倒检测.zip》资料免费下载

发表于 06-12 16:00 •0次下载

使用计算机视觉进行电梯乘客计数

电子发烧友网站提供《使用计算机视觉进行电梯乘客计数.zip》资料免费下载

发表于 06-12 15:35 •0次下载

工业计算机与商用计算机的区别

与商用计算机的区别。一、功能和设计工业计算机通常用于工业控制和自动化系统中，其主要功能是提供数据采集、实时控制和监测等功能。它们通常需要具备高可靠性、稳定性和冗余性，以适应恶劣的工业环境。工业

发表于 12-27 10:50 •272次阅读

搜索历史

VizWiz数据集：用计算机视觉回答盲人的问题

评论

机器视觉与计算机视觉的关系简述

通用计算机总线仪器

计算机视觉/深度学习领域常用数据集汇总

计算机视觉神经网络资料全集

如何读取计算机的u***的数据？

自动驾驶系统要完成哪些计算机视觉任务？

用于计算机视觉训练的图像数据集介绍

5. 电子计算机的应用,计算机应用基础(试卷版)5|计算机应用基础试卷精选资料分享

计算机视觉讲义

计算机视觉与机器视觉区别

使用计算机视觉和人工智能来识别X射线中的计算机模型

如何使用计算机视觉技术识别棋子及其在棋盘上的位置

使用计算机视觉为工业工人进行跌倒检测

使用计算机视觉进行电梯乘客计数

工业计算机与商用计算机的区别