探索我们精心策划的AI文章集合,涵盖人工智能、机器学习、AI工具等多个领域
UniVideo,开源的视频统一理解、生成与编辑,支持视频/图像理解,文本/图像→图像/视频生成,自由形式图像/视频编辑,参考驱动的图像/视频生成/编辑。
Qwen3-VL-Embedding,Qwen3-VL-Reranker,多模态嵌入和重新排序模型,支持文本、图片、截图、视频及混合模态输入,实现高级信息检索和跨模态理解。
NextFlow,统一顺序建模激活多模态理解与生成,训练于 6T 交错的文本-图像令牌上。它弥合了单一架构内理解与生成之间的鸿沟,重新定义了顺序建模。
DreamStyle,视频风格化的统一框架,支持文本引导,样式-图像-引导,首帧引导视频风格化。
MiroThinker v1.5,开源搜索代理,通过交互式扩展技术推进工具增强推理,将模型训练为处理更深层次、更频繁的代理-环境交互,作为性能提升的第三维度,超越模型规模和上下文长度。
LTX-2,开源的基于 DiT 的音视频基础模型,旨在在同一模型内生成同步的视频和音频,支持文生视频与图生视频。
AntAngelMed 是蚂蚁健康开源的医疗语言模型,在中国权威基准 MedAIBench 中排名第一,并在 OpenAI 的 HealthBench 上超越多数开源与专有模型。其通过三阶段训练流程——医学语料预训练、监督微调和基于 GRPO 的强化学习,具备扎实医学知识、复杂诊断推理能力及安全伦理规范。
DreamID-V,通过扩散变换器弥合图像与视频之间的高保真面部交换差距,实现了在多重难度场景下的高精度面部切换,包括头发遮挡、复杂光影、多元族群以及显著的面部形状变化。