探索我们精心策划的AI文章集合,涵盖人工智能、机器学习、AI工具等多个领域
ShotVerse,推动电影式摄像机控制,支持文本驱动的多镜头视频创作,一个“规划后控制”框架,将生成解耦为两个协作代理:基于 VLM(视觉语言模型)的 Planner,利用空间先验从文本中获得电影感、全局对齐的轨迹;以及 Controller,通过摄像机适配器将这些轨迹渲染成多镜头视频内容。
MA-EgoQA,多智能体第一人称视频问答,基于 EgoLife 数据集构建,该数据集中 6 个人连续 7 天佩戴第一人称摄像机共同生活,产生了 266 小时的多智能体视频。每个问题都需要跨越两个以上智能体的观察进行推理。
NVIDIA-Nemotron-3-Super,英伟达开源的语言模型,提供强大的代理、推理和会话能力。它针对协作代理和大批量工作负载(如 IT 工单自动化)进行了优化。
RL3DEdit,多视角一致 3D 场景编辑,在多种场景下实现高质量的 3D 编辑:动态编辑、主体替换, 风格转换、背景变化和富有挑战性的场景添加——全部在一次前传中完成。
InternVL-U,统一多模态模型,用于理解、推理、生成与编辑,4B 参数,将多模态理解、推理、图像生成和图像编辑整合到一个框架中。
Fish Audio S2 Pro,开源的文本转语音模型,在超过 1000 万+小时的音频数据、80+语言中进行训练。
CARE-Edit,上下文图像编辑,通过轻量级条件感知路由器将扩散令牌路由给四位专业专家(文本、遮罩、参考、基底) 。
WildActor,用于任意视角条件化人类视频生成的框架,无约束身份保护视频生成,在任何观看条件下的无限制人类视频生成。