探索我们精心策划的AI文章集合,涵盖人工智能、机器学习、AI工具等多个领域
MedSAM3,深入探讨任何涉及医学概念的细分领域,支持多种医学影像模式(X 光、MRI、超声、CT、OCT、眼底、皮肤镜、组织病理学和视频)的提示概念分割(PCS)。
SteadyDancer,协调且连贯的人类图像动画,带第一帧保存,确保动画协调一致,同时具备强健的第一帧保存和精准的运动控制。
Z-Image 是阿里开源的 6B 参数图像生成模型,包含三个版本:Z-Image-Turbo 为精炼版,仅需 8 次功能评估即可媲美或超越竞品,具备亚秒级推理延迟,适配 16G 显存设备,在写实图像、双语文本渲染和指令遵循方面表现优异;Z-Image-Base 为基础模型,支持社区微调与定制开发;Z-Image-Edit 专为图像编辑优化,支持自然语言驱动的精准修改。
Dia2,开源的流式对话 TTS 模型,不需要完整文本来生成音频,输入前几个词即可开始生成。可以将输出条件反射为音频,实现实时自然对话。
FLUX.2 [dev],开源的文本指令生成、编辑和组合图像模型,生成的输出可用于个人、科学和商业目的。
HunyuanOCR,腾讯开源的端到端 OCR 专家 VLM,,采用Hunyuan原生多模态架构。
TiViBench,视频生成模型的视频思维推理基准测试,专门用于评估图像到视频(I2V)生成模型推理能力的分层方式基准。
MiMo-Embodied,小米开源的视觉语言模型,在自动驾驶和具身 AI 任务中展现出最先进的性能,是首个集成这两大关键领域的开源 VLM,显著提升了在动态物理环境中的理解与推理能力。