微软发布视觉型AI新模型：Phi-3-vision-电子发烧友网

5 月 26 日消息，微软近期推出其小语言 AI 模型新成员“Phi-3-vision”，以卓越的“视觉”处理能力著称，能够深度解析图文信息并在移动设备上稳定运行。

据悉，Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型，继承自 Phi-3-mini 的文本理解能力，兼具轻巧便携特性，适用于移动平台/嵌入式终端；模型参数规模达 42 亿，远超 Phi-3-mini（3.8B），略逊于 Phi-3-small（7B），上下文长度为 128k token，训练时间跨度为 2024 年 2 月至 4 月。

值得关注的是，Phi-3-vision 模型的核心优势在于其强大的“图文识别”功能，能够准确理解现实世界图像的内涵，迅速识别并提取图片中的文字信息。

微软强调，Phi-3-vision 尤其适用于办公场景，开发者针对图表和方块图（Block diagram）识别进行了专门优化，使其能够根据用户输入信息进行推理，并生成一系列决策建议，为企业提供战略参考，被誉为“媲美大型模型”的效果。

在模型训练环节，微软表示 Phi-3-vision 采用了“多元化图片与文字数据”进行训练，涵盖了一系列“精选的公共内容”，如“教科书级”教育素材、代码、图文标注数据、现实世界知识、图表图片、聊天记录等，以保证模型输入内容的丰富性。此外，微软承诺所用训练数据“可追溯”且不含任何个人信息，充分保障用户隐私。

在性能对比方面，微软提供了 Phi-3-vision 与字节跳动 Llama3-Llava-Next（8B）、微软研究院与威斯康星大学、哥伦比亚大学联合研发的 LlaVA-1.6（7B）以及阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品的对比图表，展示了 Phi-3-vision 在多项测试中的优秀表现。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6754

浏览量
108103
AI

AI

+关注

关注
91

文章
41370

浏览量
302752
模型

模型

+关注

关注
1

文章
3834

浏览量
52291

搜索历史

微软发布视觉型AI新模型：Phi-3-vision

评论