0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IBM发布最新AI模型,帮视障者“看”到更多

DR2b_Aiobservat 来源:YXQ 2019-06-25 08:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明,图片的文字说明取得了“良好”的性能,未来可以为强大的新计算机视觉系统奠定了基础。

无论是报社、杂志社还是新媒体,编辑们最不愿意干得事情就是为图片搭配文字说明。事实上这项工作必要且重要但实际操作上又非常枯燥。

不过,一个振奋人心的消息是,AI可能很快就能处理大部分工作。6月18日在加州长滩举行的2019年计算机视觉和模式识别会议(CVPR)上,Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu发表了一篇论文《改进图像说明的对抗性语义对齐》,提出了一种能够自主制作多样化、创造性和符合人类语境的图片文字说明的模型。

在论文中,他们将图像说明作为一种有条件的GAN(生成式对抗网络)训练进行研究,提出了一种上下文感知的LSTM字幕器和共同注意鉴别器,它们加强了图像和字幕之间的语义对齐。

研究人员根据经验着重研究了SCST和ST两种训练方法的可行性。他们发现即使没有直接访问鉴别器梯度,SCST也比ST显示出更稳定的梯度行为和更好的结果。进而还解决了对这些模型进行自动评估的开放性问题,引入了一个新的语义评分,并证明了它与人类判断的强相关性。

作为评估范例,一个重要的标准是生成器能够概括出平常不会一起出现的对象之间的组合关系。为此研究人员引入了一个小标题能脱离上下文(OOC)测试集。OOC与常规语义评分相结合,为图片搭配说明文字得体系提出了新基准。当面向OOC和MS-COCO进行测试时,可以发现基于SCST的训练在语义评分和人类评估方面都有很强的表现,有望成为高效离散GAN训练的一种有价值的新方法。

目前,构建系统需要解决自动说明文字系统的一个主要缺点:顺序语言生成导致语法正确—但同质、非自然和语义不相关的结构。

研究者的方法是通过一个注意力文字说明模型来解决这个问题,模型使用它正在观察的照片中的场景片段来造句。在每一个生成步骤中,团队的AI都可以选择关注最后一步的视觉或文本提示。

为了确保生成的文字说明听起来不太机械化,研究团队在训练时使用了生成对抗网络(GANs)——由生成样本的生成器和试图区分生成样本和现实世界样本的鉴别器组成的两部分神经网络。共同注意鉴别器通过一个在像素级匹配场景和生成单词的模型对新句子的“自然度”进行评分,使文字说明者能够通过图像和句子成对来进行合成。

文字说明系统中的另一个常见问题是,如何避免训练数据集的偏差,即经常遭受过度拟合(特定数据集过于接近的分析)就需要构建诊断工具,否则并不适合推广到学习对象(“床和卧室”)出现在看不见的环境(“床和森林”)中的场景。为此,研究人员提出了一种标题图像的测试语料库,其设计方式使得不良模型性能表明过度拟合。

在实验中,Amazon's Mechanical Turk评估人员负责识别AI模型生成的文字说明,并判断每句话对相应图像的描述程度,给出几个真实的和合成的样本,研究人员表示,他们的文字说明总体上取得了“良好”的性能。他们相信他们的工作为强大的新计算机视觉系统奠定了基础,并打算在未来的工作中继续探索这些系统。另外,衔接语言和视觉语义的鸿沟表明需要将常识和推理融入场景理解中。

未来,图像文字说明的自动生成和场景理解的进步,使AI系统可以作为视觉障碍者的助理改善他们的日常生活。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1853

    浏览量

    76779
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296511

原文标题:IBM发布最新AI模型,帮视障者“看”到更多

文章出处:【微信号:Aiobservation,微信公众号:人工智能观察】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    HarmonyOS 6正式发布,超能小艺一用就爱!

    景终端设备上带来真人感对话、小艺世界、小艺接、AI修图、小艺慧记等行业领先的AI智慧体验,深受消费喜爱。升级
    的头像 发表于 10-22 17:43 840次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片AGI芯片

    、现阶段更智能、更接近AGI的6中算法与模型 1、MoE模型 MoE模型作为Transfomer模型的后继,代表着
    发表于 09-18 15:31

    IBM联合NASA发布开源AI模型重要突破

    近日,IBM(纽交所代码:IBM)与美国国家航空航天局 (NASA) 联合发布了一款开创性的开源基础模型,可理解高分辨率的太阳观测数据,从而预测太阳活动对地球和太空技术的影响。该
    的头像 发表于 09-02 09:16 649次阅读

    OpenAI开源模型登陆IBM watsonx.ai开发平台

    OpenAI 已向公众发布了两款 AI 模型,允许开发和企业可自由下载、运行并进行定制。其中一款模型现已部署在
    的头像 发表于 08-26 15:36 765次阅读

    科技AI模型应用:提效、破局与落地,重塑智能新生态

    在这场数字化转型的浪潮中,腾科技AI模型凭借其强大的提效能力、破局的创新思维以及切实的落地实践,已然成为重塑智能新生态的重要力量。从企业办公中的高效决策支持,教育科研里的学术探索
    的头像 发表于 08-18 14:06 1502次阅读
    腾<b class='flag-5'>视</b>科技<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>应用:提效、破局与落地,重塑智能新生态

    海康威发布多模态大模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威推出新一代多模态大模型AI融合巡检超脑,全面升级人、车、行为、事件等算法,为行业带来全新的多模态大模型
    的头像 发表于 04-17 17:12 1331次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    生态和天玑AI生态的全面打通。这意味着,天玑开发将有机会获取更多NVIDIA TAO生态的AI开发资源,TAO生态开发可将开发成果轻松移
    发表于 04-13 19:52

    海康威发布模型一体化平台

    海康“观澜”大模型+DeepSeek“双模”协同,海康威发布“大模型一体化平台”,围绕“汇聚、融合、开放”助力大模型能力,在千行百业快速便
    的头像 发表于 03-20 17:34 1359次阅读

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025上新发布,为 AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发和企业用户对高性能、低功耗和灵活扩展的需求。 []() 领先的计算
    发表于 03-19 17:54

    RDK加持的导盲眼镜:人士的“眼睛外挂”

    我国有超1700万人士,如何让他们更安全、自主地出行?别担心,智能瞳行来啦!这是一款“自带外挂”的导航神器,集成了高精度视觉传感和YOLO算法,实时识别障碍物、行人、交通标志,并通过语音播报精准
    的头像 发表于 03-14 19:43 1098次阅读
    RDK加持的导盲眼镜:<b class='flag-5'>视</b><b class='flag-5'>障</b>人士的“眼睛外挂”

    IBM发布全新Granite 3.2 AI模型

    Granite 3.2 是小型的 AI 模型,通过对开发人员友好的授权条款,提供推理、视觉和护栏功能。
    的头像 发表于 03-06 16:47 905次阅读

    IBM在watsonx.ai平台推出DeepSeek R1蒸馏模型

    ,进一步增强企业在安全、治理以及规模化部署方面的能力。 DeepSeek R1是IBMAI领域的一项重要创新,它采用了蒸馏模型技术,能够在保持模型性能的同时,显著减小
    的头像 发表于 02-14 10:21 870次阅读

    DeepSeek最新AI模型现已登陆IBM watsonx.ai平台

    ,工程和科学计算提供裨益。 利用已部署的模型(如 IBM Granite,Llama,DeepSeek等)和以下解决方案能力,开发可以在 IBM watsonx.
    的头像 发表于 02-08 09:21 1038次阅读

    IBM携手欧莱雅开发首个可持续化妆品AI模型

    的关键洞察,帮助欧莱雅使用可持续的原材料,从而减少能源和材料浪费。双方将开发定制的AI 基础模型,以显著提高欧莱雅研发与创新团队的能力,助力公司在各类化妆品和全球范围内进一步提升业绩和消费满意度。这一基于化妆品配方的基础
    的头像 发表于 01-21 09:22 979次阅读