0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IBM发布最新AI模型,帮视障者“看”到更多

DR2b_Aiobservat 来源:YXQ 2019-06-25 08:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明,图片的文字说明取得了“良好”的性能,未来可以为强大的新计算机视觉系统奠定了基础。

无论是报社、杂志社还是新媒体,编辑们最不愿意干得事情就是为图片搭配文字说明。事实上这项工作必要且重要但实际操作上又非常枯燥。

不过,一个振奋人心的消息是,AI可能很快就能处理大部分工作。6月18日在加州长滩举行的2019年计算机视觉和模式识别会议(CVPR)上,Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu发表了一篇论文《改进图像说明的对抗性语义对齐》,提出了一种能够自主制作多样化、创造性和符合人类语境的图片文字说明的模型。

在论文中,他们将图像说明作为一种有条件的GAN(生成式对抗网络)训练进行研究,提出了一种上下文感知的LSTM字幕器和共同注意鉴别器,它们加强了图像和字幕之间的语义对齐。

研究人员根据经验着重研究了SCST和ST两种训练方法的可行性。他们发现即使没有直接访问鉴别器梯度,SCST也比ST显示出更稳定的梯度行为和更好的结果。进而还解决了对这些模型进行自动评估的开放性问题,引入了一个新的语义评分,并证明了它与人类判断的强相关性。

作为评估范例,一个重要的标准是生成器能够概括出平常不会一起出现的对象之间的组合关系。为此研究人员引入了一个小标题能脱离上下文(OOC)测试集。OOC与常规语义评分相结合,为图片搭配说明文字得体系提出了新基准。当面向OOC和MS-COCO进行测试时,可以发现基于SCST的训练在语义评分和人类评估方面都有很强的表现,有望成为高效离散GAN训练的一种有价值的新方法。

目前,构建系统需要解决自动说明文字系统的一个主要缺点:顺序语言生成导致语法正确—但同质、非自然和语义不相关的结构。

研究者的方法是通过一个注意力文字说明模型来解决这个问题,模型使用它正在观察的照片中的场景片段来造句。在每一个生成步骤中,团队的AI都可以选择关注最后一步的视觉或文本提示。

为了确保生成的文字说明听起来不太机械化,研究团队在训练时使用了生成对抗网络(GANs)——由生成样本的生成器和试图区分生成样本和现实世界样本的鉴别器组成的两部分神经网络。共同注意鉴别器通过一个在像素级匹配场景和生成单词的模型对新句子的“自然度”进行评分,使文字说明者能够通过图像和句子成对来进行合成。

文字说明系统中的另一个常见问题是,如何避免训练数据集的偏差,即经常遭受过度拟合(特定数据集过于接近的分析)就需要构建诊断工具,否则并不适合推广到学习对象(“床和卧室”)出现在看不见的环境(“床和森林”)中的场景。为此,研究人员提出了一种标题图像的测试语料库,其设计方式使得不良模型性能表明过度拟合。

在实验中,Amazon's Mechanical Turk评估人员负责识别AI模型生成的文字说明,并判断每句话对相应图像的描述程度,给出几个真实的和合成的样本,研究人员表示,他们的文字说明总体上取得了“良好”的性能。他们相信他们的工作为强大的新计算机视觉系统奠定了基础,并打算在未来的工作中继续探索这些系统。另外,衔接语言和视觉语义的鸿沟表明需要将常识和推理融入场景理解中。

未来,图像文字说明的自动生成和场景理解的进步,使AI系统可以作为视觉障碍者的助理改善他们的日常生活。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1880

    浏览量

    77145
  • AI
    AI
    +关注

    关注

    91

    文章

    41391

    浏览量

    302753

原文标题:IBM发布最新AI模型,帮视障者“看”到更多

文章出处:【微信号:Aiobservation,微信公众号:人工智能观察】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型小龙虾-OpenClaw-0基础从入门实战

    在当今的 AI 浪潮中,“大模型”似乎成了一个专属于算法科学家和高级程序员的封闭游乐场。满屏的 Tensor、梯度消失、注意力机制数学推导,宛如一堵高耸的墙,将无数对 AI 充满热情的零基础爱好
    发表于 05-06 16:04

    HM博学谷狂野AI模型第四期

    在生成式 AI 浪潮席卷全球的今天,大语言模型(LLM)已成为技术圈的显学。然而,绝大多数开发仍停留在“调用”的层面——通过 API 发送 Prompt,接收文本回复。这种“黑盒”
    发表于 05-01 17:30

    [完结15章]Java转 AI高薪领域必备-从01打通生产级AI Agent开发

    开发无可替代的底座优势。 二、 拥抱新范式:从同步阻塞到流式与反应式架构 传统的Java Web开发多基于HTTP的同步请求-响应模型,但在与AI模型交互时,这种
    发表于 04-30 13:46

    Java转 AI高薪领域必备 从01打通生产级AI Agent开发 教程资料

    “价值创造” 为什么是AI Agent?因为Agent代表了软件工程范式的根本性转移。(讠果aixuetang。xyz) 传统的SaaS或CRUD系统是“确定性”的,机器只能按照预设的If-Else
    发表于 04-29 17:08

    AI辅助编程设计之道:从SpecCode工程实践

    大语言模型正在重塑软件开发的日常。从Copilot各种编程助手,AI生成代码的能力已经渗透许多开发的工作流中。但在实际应用中,一个现象
    发表于 03-16 13:33

    深兰科技发布AI法务大模型产品

    近日,深兰科技发布面向律所与企业法务部门的AI法务大模型产品——“深兰律师办公自动化系统(AI版)”。通过AI技术赋能法律服务行业,它能够显
    的头像 发表于 10-23 17:58 1255次阅读

    HarmonyOS 6正式发布,超能小艺一用就爱!

    景终端设备上带来真人感对话、小艺世界、小艺接、AI修图、小艺慧记等行业领先的AI智慧体验,深受消费喜爱。升级
    的头像 发表于 10-22 17:43 1758次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    重磅!腾科技新官网正式上线,AI算力与智能解决方案一键直达

    AI算力模组全栈智能解决方案,从技术研发到场景落地,腾科技始终以 “前沿技术落地” 为定位,助力产业智能化升级。新官网的上线,是我们与世界对话的新起点,未来,我们期待与
    的头像 发表于 10-11 10:57 1040次阅读
    重磅!腾<b class='flag-5'>视</b>科技新官网正式上线,<b class='flag-5'>AI</b>算力与智能解决方案一键直达

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片AGI芯片

    、现阶段更智能、更接近AGI的6中算法与模型 1、MoE模型 MoE模型作为Transfomer模型的后继,代表着
    发表于 09-18 15:31

    IBM联合NASA发布开源AI模型重要突破

    近日,IBM(纽交所代码:IBM)与美国国家航空航天局 (NASA) 联合发布了一款开创性的开源基础模型,可理解高分辨率的太阳观测数据,从而预测太阳活动对地球和太空技术的影响。该
    的头像 发表于 09-02 09:16 1056次阅读

    OpenAI开源模型登陆IBM watsonx.ai开发平台

    OpenAI 已向公众发布了两款 AI 模型,允许开发和企业可自由下载、运行并进行定制。其中一款模型现已部署在
    的头像 发表于 08-26 15:36 1170次阅读

    科技AI模型应用:提效、破局与落地,重塑智能新生态

    在这场数字化转型的浪潮中,腾科技AI模型凭借其强大的提效能力、破局的创新思维以及切实的落地实践,已然成为重塑智能新生态的重要力量。从企业办公中的高效决策支持,教育科研里的学术探索
    的头像 发表于 08-18 14:06 1871次阅读
    腾<b class='flag-5'>视</b>科技<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>应用:提效、破局与落地,重塑智能新生态

    Nordic收购 Neuton.AI 关于产品技术的分析

    与 Nordic 的 nRF54 系列超低功耗无线 SoC 结合,使得即使是资源极为有限的设备也能高效运行边缘 AI。Nordic 目前正在将 Neuton 深度集成自身开发生态中,未来会提供更多工具、固件
    发表于 06-28 14:18

    科技梧桐大模型赋能交通治理

    AI模型技术正驱动交通行业智能化升级。千方科技子公司宇科技于2023年发布“梧桐”AIoT(人工智能物联)行业大模型,采用“通用大
    的头像 发表于 05-16 17:23 1349次阅读