在Build 2024 大会期间,微软宣布了该公司小型语言 AI 模型 Phi-3 的新版本,该模型能够分析图像并告诉用户其中的内容。
新版本 Phi-3-vision 是一个多模态模型。对于那些不知道的人来说,尤其是OpenAI 的 GPT-4o和谷歌对 Gemini 的更新,多模态模型意味着 AI 工具可以读取文本和图像。
Phi-3-vision 适用于移动设备,因为它具有 42 亿个参数模型。AI 模型的参数是了解模型复杂程度以及它理解多少训练的简写。微软一直在以前的版本上迭代 Phi 模型。例如,Phi-2 从 Phi-1 中学习并发展出新功能,而 Phi-3 与 Phi-2 类似,在 Phi-2 上进行训练并增加了功能。
Phi-3-vision 可以执行一般的视觉推理任务,例如分析图表和图像。与其他更知名的模型(如OpenAI的DALL-E)不同,Phi-3-vision 只能“读取”图像;它无法生成图像。
微软已经发布了几款小型 AI 模型。它们被设计为在本地运行,并且比谷歌的 Gemini甚至ChatGPT等大型模型在更广泛的设备上运行。无需互联网连接。它们还降低了运行某些任务(例如解决数学问题)所需的计算能力,就像微软的小型 Orca-Math 模型一样。
微软于 4 月发布了微型 Phi-3-mini ,Phi-3 的首个版本也随之发布。在基准测试中,它的表现与 Meta 的 Llama 2 等大型模型相比相当出色。微型模型只有 38 亿个参数。另有两个模型 Phi-3-small 和 Phi-3-medium,分别有 70 亿个参数和 140 亿个参数。
Phi-3-vision 现已提供预览版。其他三个 Phi-3 模型,Phi-3-mini、Phi-3-small 和 Phi-3-medium,可通过Azure 机器学习模型目录和集合访问。要使用它们,您需要一个付费的 Azure 帐户和 Azure AI Studio 中心。