探索我们精心策划的AI文章集合,涵盖人工智能、机器学习、AI工具等多个领域
ActionMesh,带有时间 3D 扩散的动画 3D 网格生成,能够从输入视频(真实或合成)生成固定拓扑的动画 3D 网格。
COLIPRI,三维视觉-语言变换器模型,,训练用于编码胸部 CT 扫描和报告。COLIPRI 通过数万次胸部 CT 扫描和报告进行训练,且无任何注释,采用多重目标学习三维图像和文本的强关节表示。
PaddleOCR-VL-1.5,开源的文档解析模型,支持自动跨页表格合并和跨页段落标题识别 ,有效缓解长文档解析中的内容碎片问题。
Qwen3-ASR,Qwen开源的语音识别模型,利用大规模语音训练数据和其基础模型 Qwen3-Omni 的强大音频理解能力。
Innovator-VL,开源的科学多模态大型语言模型,推动跨越多个科学领域的多模态理解和推理。
HunyuanImage-3.0-Instruct,腾讯开源的原生多模态图像生成模型,智能提示增强和图像到图像生成的 Instruct(带推理),用于创意编辑。
Youtu-VL,腾讯开源的视觉语言模型,采用新颖的 VLUAS 范式,将视觉视为目标,而非仅仅输入——实现无任务特定模块的统一监督。
Kimi-K2.5,开源的原生多模态代理模型,通过在 Kimi-K2-Base 上约 15 万亿个混合视觉和文本令牌上持续预训练构建。它无缝将视觉和语言理解与先进的代理能力、即时和思考模式,以及会话和代理范式相结合。