微软的新微型语言模型可以读取图像

导读在Build 2024 大会期间，微软宣布了该公司小型语言 AI 模型 Phi-3 的新版本，该模型能够分析图像并告诉用户其中的内容。新版本

在Build 2024 大会期间，微软宣布了该公司小型语言 AI 模型 Phi-3 的新版本，该模型能够分析图像并告诉用户其中的内容。

新版本 Phi-3-vision 是一个多模态模型。对于那些不知道的人来说，尤其是OpenAI 的 GPT-4o和谷歌对 Gemini 的更新，多模态模型意味着 AI 工具可以读取文本和图像。

Phi-3-vision 适用于移动设备，因为它具有 42 亿个参数模型。AI 模型的参数是了解模型复杂程度以及它理解多少训练的简写。微软一直在以前的版本上迭代 Phi 模型。例如，Phi-2 从 Phi-1 中学习并发展出新功能，而 Phi-3 与 Phi-2 类似，在 Phi-2 上进行训练并增加了功能。

Phi-3-vision 可以执行一般的视觉推理任务，例如分析图表和图像。与其他更知名的模型(如OpenAI的DALL-E)不同，Phi-3-vision 只能“读取”图像;它无法生成图像。

微软已经发布了几款小型 AI 模型。它们被设计为在本地运行，并且比谷歌的 Gemini甚至ChatGPT等大型模型在更广泛的设备上运行。无需互联网连接。它们还降低了运行某些任务(例如解决数学问题)所需的计算能力，就像微软的小型 Orca-Math 模型一样。

微软于 4 月发布了微型 Phi-3-mini ，Phi-3 的首个版本也随之发布。在基准测试中，它的表现与 Meta 的 Llama 2 等大型模型相比相当出色。微型模型只有 38 亿个参数。另有两个模型 Phi-3-small 和 Phi-3-medium，分别有 70 亿个参数和 140 亿个参数。

Phi-3-vision 现已提供预览版。其他三个 Phi-3 模型，Phi-3-mini、Phi-3-small 和 Phi-3-medium，可通过Azure 机器学习模型目录和集合访问。要使用它们，您需要一个付费的 Azure 帐户和 Azure AI Studio 中心。

首页

热闻

金融

游戏

教育

旅游

科学

财经

文化

体育

房产

科技

生活

汽车

动态

科技数码科普

金融资讯

综合

网络互联问答

财经资讯

微软的新微型语言模型可以读取图像

猜你喜欢

最新文章