首页 > 科技 > > 正文
2024-05-25 10:30:52

微软发布小型Phi3 Vision多模态模型

导读 早在 4 月份,微软就发布了开源 Phi-3 家族下的第一款 AI 模型:Phi-3 Mini。而现在,时隔近一个月,这家雷德蒙德巨头又发布了一款

早在 4 月份,微软就发布了开源 Phi-3 家族下的第一款 AI 模型:Phi-3 Mini。而现在,时隔近一个月,这家雷德蒙德巨头又发布了一款名为 Phi-3 Vision 的小型多模态模型。在 Build 2024 大会上,微软还发布了另外两款 Phi-3 家族模型,包括 Phi-3 Small(7B)和 Phi-3 Medium(14B)。所有这些模型均在 MIT 许可下开源。

至于 Phi-3 Vision 模型,它基于 42 亿个参数进行训练。这意味着该模型相当轻量级。这是像微软这样的大型企业首次开源多模态模型。它的上下文长度为 128K,您还可以输入图像。谷歌确实发布了 PaliGemma 模型,但它并不适用于对话用途。

除此之外,微软表示,Phi-3 Vision 模型是在公开的高质量教育和代码数据上进行训练的。微软还为数学、推理、常识、图表、表格、图解和幻灯片生成了合成数据。

尽管规模很小,但 Phi-3 Vision 模型在许多多模态基准测试中的表现都优于Claude 3 Haiku、LlaVa 和 Gemini 1.0 Pro。它甚至非常接近 OpenAI 的 GPT-4V 模型。微软表示,开发人员可以使用 Phi-3 Vision 模型进行 OCR、图表和表格理解、一般图像理解等。