多模态模型

多模态模型-全球

Meta发布最新的开源人工智能模型Llama 4，包括两个主要版本：Scout和Maverick，均采用了创新的混合专家（MoE）架构，能够高效处理文本、图像、视频和音频等多种数据类型

Meta发布最新的开源人工智能模型Llama 4，包括两个主要版本：Scout和...

多模态模型-中国

Qwen2.5-Omni是阿里巴巴发布的端到端多模态人工智能模型，旨在实现全面的感知能力，能够处理文本、图像、音频和视频等多种输入形式

Qwen2.5-Omni是阿里巴巴发布的端到端多模态人工智能模型，旨在实现全面的...

多模态模型-全球视觉模型-全球

Gemini 2.5 Pro是谷歌推出的人工智能模型，被称为其“最智能的模型”，专为处理复杂任务而设计，在推理能力、编码性能和多模态输入方面表现出色

Gemini 2.5 Pro是谷歌推出的人工智能模型，被称为其“最智能的模型”，...

多模态模型-中国视觉模型-中国

Qwen2.5-VL-32B是阿里巴巴发布的一款多模态视觉语言模型，具有32亿参数，在图像理解、数学推理和文本生成等任务中表现出色

Qwen2.5-VL-32B是阿里巴巴发布的一款多模态视觉语言模型，具有32亿参...

多模态模型-全球

Reka Flash 3是一个新发布的多模态语言模型，具有21亿参数，专为高效推理和生成而设计

Reka Flash 3是一个新发布的多模态语言模型，具有21亿参数，专为高效推...

多模态模型-全球

Mistral Small 3.1 是由法国初创公司 Mistral AI 发布的一款开源多模态人工智能模型，具有240亿参数，支持文本和图像的处理

Mistral Small 3.1 是由法国初创公司 Mistral AI 发布...

多模态模型-中国

ERNIE 4.5是百度首个原生多模态大语言模型，能够处理和整合文本、图像、音频等多种数据类型

ERNIE 4.5是百度首个原生多模态大语言模型，能够处理和整合文本、图像、音频...

多模态模型-全球

Gemma 3是谷歌发布的最新开放语言模型，具有多模态能力，能够处理文本和图像，支持超过140种语言

Gemma 3是谷歌发布的最新开放语言模型，具有多模态能力，能够处理文本和图像，...

多模态模型-全球视觉模型-全球

Aya Vision是Cohere For AI推出的一系列先进视觉语言模型（VLMs），旨在解决多模态AI系统中的多语言性能挑战

Aya Vision是Cohere For AI推出的一系列先进视觉语言模型（V...

多模态模型-中国

Janus-Pro是DeepSeek团队最近发布的一款多模态AI模型，旨在实现统一的多模态理解与生成

Janus-Pro是DeepSeek团队最近发布的一款多模态AI模型，旨在实现统...

多模态模型-中国视觉模型-中国

Kimi K1.5是由月之暗面推出的一款新一代多模态推理模型，具备强大的推理和多模态处理能力

Kimi K1.5是由月之暗面推出的一款新一代多模态推理模型，具备强大的推理和多...

多模态模型-中国视觉模型-中国

MiniMax-01系列是Hailuo AI推出的一系列开源大型语言模型和视觉多模态模型

MiniMax-01系列是Hailuo AI推出的一系列开源大型语言模型和视觉多...