探索我们精心策划的AI文章集合,涵盖人工智能、机器学习、AI工具等多个领域
Vector Prism,通过分层语义结构来动画化矢量图形,在任何分辨率下都能无限扩展 ,分辨率极高,比视频文件小 54×, 可用 CSS 和代码编辑,且可在任何设备上携带 。
MemFlow,流动自适应记忆,实现连贯高效的长视频叙事,用于交互式长视频生成,兼具长期一致性和高效性。
StereoPilot,高效、高保真的 3D 视频转换,直接综合目标视图,无需依赖显式深度图或迭代扩散采样。配备可学习的域切换器和周期一致性损失,StereoPilot 能够无缝适应不同的立体声格式,实现更优的一致性。
FlashPortrait,无限长度、高保真、保持身份认同的肖像动画,端到端视频扩散变换器,能够合成保持 ID 的无限长度视频,同时实现推理速度最高 6$\时间的加速。
Qwen-Image-Layered,Qwen开源的图像分层模型,能够将图像分解为多个 RGBA 层的模型。这种分层表示解锁了固有的可编辑性 :每一层都可以独立作而不会影响其他内容。与此同时,这种分层表示自然支持高保真的基本作 ——如调整大小、重新定位和重新着色。通过将语义或结构组件物理隔离到不同层次中,我们的方法实现了高保真和一致的编辑。
LongVie 2,多模态可控超长视频世界模型,能够自回归生成长达 3–5 分钟的视频。它由全球级指导驱动,整合了密集和稀疏的控制信号,训练时采用了退化感知策略以弥合训练与长期推断之间的差距,并通过历史-上下文建模增强以保持长期时间一致性。
MapAnything,通用前馈度量 3D 重建,简单的端到端训练变换器模型,直接回归场景的因式分解度规三维几何,给定各种输入(图像、校准、姿态或深度)。单一前馈模型支持超过 12 种不同的 3D 重建任务,包括多图像 SFM、多视角立体、单眼度量深度估计、配准、深度补全等。
IC-Effect,通过上下文学习实现精准高效的视频特效编辑,基于指令引导、基于 DiT 的框架,用于少镜头视频特效剪辑,能够综合复杂效果(如火焰、粒子和卡通角色),同时严格保持空间和时间的一致性。