0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软发布视觉型AI新模型:Phi-3-vision

微云疏影 来源:综合整理 作者:综合整理 2024-05-27 15:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

5 月 26 日消息,微软近期推出其小语言 AI 模型新成员“Phi-3-vision”,以卓越的“视觉”处理能力著称,能够深度解析图文信息并在移动设备上稳定运行。

据悉,Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型,继承自 Phi-3-mini 的文本理解能力,兼具轻巧便携特性,适用于移动平台/嵌入式终端;模型参数规模达 42 亿,远超 Phi-3-mini(3.8B),略逊于 Phi-3-small(7B),上下文长度为 128k token,训练时间跨度为 2024 年 2 月至 4 月。

值得关注的是,Phi-3-vision 模型的核心优势在于其强大的“图文识别”功能,能够准确理解现实世界图像的内涵,迅速识别并提取图片中的文字信息。

微软强调,Phi-3-vision 尤其适用于办公场景,开发者针对图表和方块图(Block diagram)识别进行了专门优化,使其能够根据用户输入信息进行推理,并生成一系列决策建议,为企业提供战略参考,被誉为“媲美大型模型”的效果。

在模型训练环节,微软表示 Phi-3-vision 采用了“多元化图片与文字数据”进行训练,涵盖了一系列“精选的公共内容”,如“教科书级”教育素材、代码、图文标注数据、现实世界知识、图表图片、聊天记录等,以保证模型输入内容的丰富性。此外,微软承诺所用训练数据“可追溯”且不含任何个人信息,充分保障用户隐私。

在性能对比方面,微软提供了 Phi-3-vision 与字节跳动 Llama3-Llava-Next(8B)、微软研究院与威斯康星大学、哥伦比亚大学联合研发的 LlaVA-1.6(7B)以及阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品的对比图表,展示了 Phi-3-vision 在多项测试中的优秀表现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107319
  • AI
    AI
    +关注

    关注

    89

    文章

    38083

    浏览量

    296312
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51692
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Vision China 2025(深圳)今日开幕,聚焦“VISION+AI 赋能电子制造升级”

    会展中心(宝安)9号馆隆重启幕。展会为期 3天 ,本届展会以 “VISION+AI赋能电子制造升级” 为主题,聚焦人工智能与机器视觉技术在电子制造全产业链中的融合与创新,预计将吸引超过 16.5万名 专业观众参与。 在人工智能加
    的头像 发表于 10-29 14:18 138次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    日本航空携手微软率先将AI应用引入客舱管理

    日本航空(JAL)携手微软,率先将AI应用引I入客舱管理。通过基于微软Phi-4小型语言模型(SLM)开发的JAL-
    的头像 发表于 07-18 11:12 1114次阅读

    Banana Pi 发布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    []() 2025年3月19日——Banana Pi 今日正式发布 BPI-AI2N & BPI-AI2N Carrier,基于瑞萨电子(Renesas)同步
    发表于 03-19 17:54

    海康威视发布视觉模型周界摄像机

    上周,我们发布视觉模型系列摄像机,其中有大模型加持的周界系列摄像机,误报率下降90%以上。
    的头像 发表于 03-11 18:12 1594次阅读

    IBM发布全新Granite 3.2 AI模型

    Granite 3.2 是小型的 AI 模型,通过对开发人员友好的授权条款,提供推理、视觉和护栏功能。
    的头像 发表于 03-06 16:47 899次阅读

    字节跳动发布豆包大模型1.5 Pro

    3.5 Sonnet等模型。 该模型采用大规模稀疏MoE架构,使用较小的激活参数进行预训练,却能等效7倍激活参数的Dense模型性能,远超业内MoE架构约3倍杠杆的常规效率。 同时
    的头像 发表于 01-23 10:24 1113次阅读

    在算力魔方上本地部署Phi-4模型

    智能水平上的一大飞跃。它不仅达到了之前只有Llama 3.1 405B模型才具备的智能水平,而且还超越了11月发布的GPT-4o模型。 本文我们将分享微软刚刚
    的头像 发表于 01-15 11:05 779次阅读
    在算力魔方上本地部署<b class='flag-5'>Phi</b>-4<b class='flag-5'>模型</b>

    三星发布Vision AI,打造个性化AI屏幕体验

    近日,在2025年国际消费电子展(CES 2025)“First Look”活动上,三星震撼发布了其最新的科技成果——三星Vision AI。这一创新技术旨在通过个性化的AI屏幕体验,
    的头像 发表于 01-14 14:58 1118次阅读

    三星发布Vision AI等多项创新

    近日,三星在美国举办的2025 年国际消费电子展(CES 2025)“First Look”活动上,发布了三星Vision AI,旨在为用户的日常生活带来个性化的 AI屏幕体验。
    的头像 发表于 01-14 11:47 1127次阅读

    虹软AI视觉赋能雷鸟V3 AI拍摄眼镜发布

    近日,雷鸟创新正式发布全新一代AI拍摄眼镜——雷鸟V3。该产品搭载多项创新技术,包括融合虹软AI视觉算法的猎鹰影像系统、通义独家定制大
    的头像 发表于 01-08 10:58 2259次阅读

    三星发布Vision AI及Neo QLED旗舰电视

    近日,三星电子在1月6日正式对外发布了其备受瞩目的Samsung Vision AI技术。这一创新技术旨在为用户提供由先进人工智能驱动的个人屏幕体验,开启了智能家居与个性化交互的新篇章
    的头像 发表于 01-07 10:36 1055次阅读

    LabVIEW使用Vision视觉进行硬币分类计数

    LabVIEW使用Vision视觉进行硬币分类计数,有偿,带价加q:3430396759
    发表于 12-29 20:20

    微软寻求在365 Copilot中引入非OpenAI模型

    担心企业用户在使用365 Copilot时面临的成本和速度问题,因此正在寻求更多样化的技术来源。尽管微软与OpenAI之间有着紧密的合作关系,并允许微软定制OpenAI的模型,但微软
    的头像 发表于 12-25 10:41 832次阅读

    微软预览版Copilot Vision AI功能上线

    微软公司近日宣布,将面向美国地区的Copilot Pro用户推出预览版的Copilot Vision AI功能。这一创新功能旨在通过人工智能技术,进一步提升用户的网页浏览体验。 Copilot
    的头像 发表于 12-09 14:38 887次阅读