0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软发布视觉型AI新模型:Phi-3-vision

微云疏影 来源:综合整理 作者:综合整理 2024-05-27 15:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

5 月 26 日消息,微软近期推出其小语言 AI 模型新成员“Phi-3-vision”,以卓越的“视觉”处理能力著称,能够深度解析图文信息并在移动设备上稳定运行。

据悉,Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型,继承自 Phi-3-mini 的文本理解能力,兼具轻巧便携特性,适用于移动平台/嵌入式终端;模型参数规模达 42 亿,远超 Phi-3-mini(3.8B),略逊于 Phi-3-small(7B),上下文长度为 128k token,训练时间跨度为 2024 年 2 月至 4 月。

值得关注的是,Phi-3-vision 模型的核心优势在于其强大的“图文识别”功能,能够准确理解现实世界图像的内涵,迅速识别并提取图片中的文字信息。

微软强调,Phi-3-vision 尤其适用于办公场景,开发者针对图表和方块图(Block diagram)识别进行了专门优化,使其能够根据用户输入信息进行推理,并生成一系列决策建议,为企业提供战略参考,被誉为“媲美大型模型”的效果。

在模型训练环节,微软表示 Phi-3-vision 采用了“多元化图片与文字数据”进行训练,涵盖了一系列“精选的公共内容”,如“教科书级”教育素材、代码、图文标注数据、现实世界知识、图表图片、聊天记录等,以保证模型输入内容的丰富性。此外,微软承诺所用训练数据“可追溯”且不含任何个人信息,充分保障用户隐私。

在性能对比方面,微软提供了 Phi-3-vision 与字节跳动 Llama3-Llava-Next(8B)、微软研究院与威斯康星大学、哥伦比亚大学联合研发的 LlaVA-1.6(7B)以及阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品的对比图表,展示了 Phi-3-vision 在多项测试中的优秀表现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6754

    浏览量

    108103
  • AI
    AI
    +关注

    关注

    91

    文章

    41370

    浏览量

    302752
  • 模型
    +关注

    关注

    1

    文章

    3834

    浏览量

    52291
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华睿科技携全矩阵机器视觉与AMR协同方案亮相Vision China 2026

      3月25日,Vision China 2026在上海新国际博览中心正式启幕。华睿科技携全矩阵机器视觉与AMR协同方案亮相W5馆5405,从2D到3D,从读码器到智能相机,全方位展示
    的头像 发表于 04-08 16:54 483次阅读

    骏驰新程,视联智造,Vision China 2026(上海)机器视觉展圆满落幕

    2026年3月25日-27日,为期三天的中国(上海)机器视觉展暨机器视觉技术及工业应用研讨会【Vision China 2026(上海)】,在上海新国际博览中心落下帷幕。本次展会由机器
    的头像 发表于 03-30 11:51 597次阅读
    骏驰新程,视联智造,<b class='flag-5'>Vision</b> China 2026(上海)机器<b class='flag-5'>视觉</b>展圆满落幕

    NVIDIA 发布开放物理 AI 数据工厂 Blueprint,加速机器人、视觉 AI 智能体和智能汽车开发

    新闻摘要: 该蓝图支持大规模数据处理与整理、合成数据生成、强化学习以及物理 AI 模型的评估,适用于视觉 AI 智能体、机器人和智能汽车。 包括 Microsoft Azure 和 N
    的头像 发表于 03-17 11:03 357次阅读
    NVIDIA <b class='flag-5'>发布</b>开放物理 <b class='flag-5'>AI</b> 数据工厂 Blueprint,加速机器人、<b class='flag-5'>视觉</b> <b class='flag-5'>AI</b> 智能体和智能汽车开发

    3月赴沪!Vision China 2026(上海)邀你共探机器视觉AI、机器人的融合未来

    2026年3月25-27日,亚洲机器视觉领域风向标——Vision China 2026(上海)机器视觉展,即将于上海新国际博览中心W4&W5馆震撼启幕!本届展会以 “
    的头像 发表于 01-13 15:30 668次阅读
    <b class='flag-5'>3</b>月赴沪!<b class='flag-5'>Vision</b> China 2026(上海)邀你共探机器<b class='flag-5'>视觉</b>与<b class='flag-5'>AI</b>、机器人的融合未来

    更理想的AI视觉芯,RV1126B系列核心板发布

    AI视觉
    飞凌嵌入式
    发布于 :2026年01月09日 14:14:17

    瑞芯微SOC智能视觉AI处理器

    RK1126B的基础上,增加了H.264/H.265视频编码能力的“全能视觉AI处理器,实现编解码+AI分析一体化基础: 完全继承了RK1126B的所有特性,包括2TOPS NPU
    发表于 12-19 13:44

    紫光同创亮相Vision China 2025深圳机器视觉

    10月28日-30日,“2025深圳机器视觉展暨机器视觉技术及工业应用研讨会(Vision China 深圳)”在深圳国际会展中心盛大举办, 本次展会聚焦机器视觉技术在电子制造全产业链
    的头像 发表于 11-07 09:17 2752次阅读

    Vision China 2025(深圳)今日开幕,聚焦“VISION+AI 赋能电子制造升级”

    会展中心(宝安)9号馆隆重启幕。展会为期 3天 ,本届展会以 “VISION+AI赋能电子制造升级” 为主题,聚焦人工智能与机器视觉技术在电子制造全产业链中的融合与创新,预计将吸引超过 16.5万名 专业观众参与。 在人工智能加
    的头像 发表于 10-29 14:18 419次阅读

    深兰科技发布AI法务大模型产品

    近日,深兰科技发布面向律所与企业法务部门的AI法务大模型产品——“深兰律师办公自动化系统(AI版)”。通过AI技术赋能法律服务行业,它能够显
    的头像 发表于 10-23 17:58 1255次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    微软Visual Studio 2026 发布AI 深度融合、性能提升

    “  微软发布 Visual Studio 2026 预览版,新版本以深度融合的 AI Copilot 为核心,结合全新的 Fluent Design 界面与显著的性能提升,旨在打造前所未有的智能
    的头像 发表于 09-16 11:17 2387次阅读
    <b class='flag-5'>微软</b>Visual Studio 2026 <b class='flag-5'>发布</b>!<b class='flag-5'>AI</b> 深度融合、性能提升

    信捷视觉平台全新升级

    当机器视觉的精准遇上AI的智能,会碰撞出怎样的火花?信捷视觉平台全新升级——XINJE VISION STUDIO 3.7 + Vision
    的头像 发表于 07-28 15:56 1097次阅读
    信捷<b class='flag-5'>视觉</b>平台全新升级

    日本航空携手微软率先将AI应用引入客舱管理

    日本航空(JAL)携手微软,率先将AI应用引I入客舱管理。通过基于微软Phi-4小型语言模型(SLM)开发的JAL-
    的头像 发表于 07-18 11:12 1611次阅读

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音
    发表于 07-04 11:14