微软发布小型Phi3 Vision多模态模型

导读早在 4 月份，微软就发布了开源 Phi-3 家族下的第一款 AI 模型：Phi-3 Mini。而现在，时隔近一个月，这家雷德蒙德巨头又发布了一款

早在 4 月份，微软就发布了开源 Phi-3 家族下的第一款 AI 模型：Phi-3 Mini。而现在，时隔近一个月，这家雷德蒙德巨头又发布了一款名为 Phi-3 Vision 的小型多模态模型。在 Build 2024 大会上，微软还发布了另外两款 Phi-3 家族模型，包括 Phi-3 Small(7B)和 Phi-3 Medium(14B)。所有这些模型均在 MIT 许可下开源。

至于 Phi-3 Vision 模型，它基于 42 亿个参数进行训练。这意味着该模型相当轻量级。这是像微软这样的大型企业首次开源多模态模型。它的上下文长度为 128K，您还可以输入图像。谷歌确实发布了 PaliGemma 模型，但它并不适用于对话用途。

除此之外，微软表示，Phi-3 Vision 模型是在公开的高质量教育和代码数据上进行训练的。微软还为数学、推理、常识、图表、表格、图解和幻灯片生成了合成数据。

尽管规模很小，但 Phi-3 Vision 模型在许多多模态基准测试中的表现都优于Claude 3 Haiku、LlaVa 和 Gemini 1.0 Pro。它甚至非常接近 OpenAI 的 GPT-4V 模型。微软表示，开发人员可以使用 Phi-3 Vision 模型进行 OCR、图表和表格理解、一般图像理解等。

首页

财经

体育

生活

房产

手机

科技

汽车

精选百科

动态

综合精选

综合时讯

科技要闻

搜罗天下要闻

综合

综合简讯

资讯

综合时报

微软发布小型Phi3 Vision多模态模型

猜你喜欢

最新文章