视觉模型

视觉模型-中国

QVQ-Max是阿里巴巴推出的视觉推理模型，基于Qwen2-VL-72B构建，旨在提升人工智能在视觉理解和复杂问题解决方面的能力

QVQ-Max是阿里巴巴推出的视觉推理模型，基于Qwen2-VL-72B构建，旨...

多模态模型-全球视觉模型-全球

Gemini 2.5 Pro是谷歌推出的人工智能模型，被称为其“最智能的模型”，专为处理复杂任务而设计，在推理能力、编码性能和多模态输入方面表现出色

Gemini 2.5 Pro是谷歌推出的人工智能模型，被称为其“最智能的模型”，...

多模态模型-中国视觉模型-中国

Qwen2.5-VL-32B是阿里巴巴发布的一款多模态视觉语言模型，具有32亿参数，在图像理解、数学推理和文本生成等任务中表现出色

Qwen2.5-VL-32B是阿里巴巴发布的一款多模态视觉语言模型，具有32亿参...

多模态模型-全球视觉模型-全球

Aya Vision是Cohere For AI推出的一系列先进视觉语言模型（VLMs），旨在解决多模态AI系统中的多语言性能挑战

Aya Vision是Cohere For AI推出的一系列先进视觉语言模型（V...

视觉模型-全球

PaliGemma 2 Mix是Google最近推出的一款多任务视觉-语言模型（VLM），旨在支持多种视觉和语言任务

PaliGemma 2 Mix是Google最近推出的一款多任务视觉-语言模型（...

视觉模型-中国

Qwen2.5-VL是阿里通义千问团队推出的最新旗舰视觉语言模型，具有显著的技术进步和多种应用能力

Qwen2.5-VL是阿里通义千问团队推出的最新旗舰视觉语言模型，具有显著的技术...

多模态模型-中国视觉模型-中国

Kimi K1.5是由月之暗面推出的一款新一代多模态推理模型，具备强大的推理和多模态处理能力

Kimi K1.5是由月之暗面推出的一款新一代多模态推理模型，具备强大的推理和多...

多模态模型-中国视觉模型-中国

MiniMax-01系列是Hailuo AI推出的一系列开源大型语言模型和视觉多模态模型

MiniMax-01系列是Hailuo AI推出的一系列开源大型语言模型和视觉多...

视觉模型-全球

Moondream是一款创新的开源视觉语言模型，旨在提供高效的图像处理和理解能力

Moondream是一款创新的开源视觉语言模型，旨在提供高效的图像处理和理解能力...

视觉模型-中国

QVQ-72B-Preview是由Qwen团队开发的一款实验性研究模型，旨在增强视觉推理能力

QVQ-72B-Preview是由Qwen团队开发的一款实验性研究模型，旨在增强...

多模态模型-中国视觉模型-中国

DeepSeek-VL2是一个新发布的开源视觉-语言模型系列，采用了先进的混合专家（Mixture-of-Experts, MoE）架构

DeepSeek-VL2是一个新发布的开源视觉-语言模型系列，采用了先进的混合专...