探索我们精心策划的AI文章集合,涵盖人工智能、机器学习、AI工具等多个领域
MoGA,用于端到端长视频生成的混合组注意力,可以端到端地以 24 FPS 的速度生成分钟级的多镜头 480p 视频,上下文长度约为 580K.
HunyuanWorld-Mirror,用于综合 3D 几何预测的多功能前馈模型,集成了不同的几何先验( 相机姿势 、 校准的内部结构 、 深度图 ),并在一次前向传递中同时生成各种 3D 表示( 点云 、 多视图深度 、 相机参数 、 表面法线 、3D 高斯)。
Nano3D,无需培训的无掩码高效 3D 编辑方法,这是一个无需训练的框架,用于在没有掩码的情况下进行精确和连贯的 3D 对象编辑。
DeepSeek-OCR,用于视觉文本压缩和文档理解的突破性模型 ,突破了 OCR 与上下文的界限。
DeepAnalyze,用于自主数据科学的代理大型语言模型,可以自主完成各种以数据为中心的任务,无需人工干预。
InternSVG,使用多模态大语言模型实现统一的 SVG 任务,用于 SVG 理解、编辑和生成的统一多模态大型语言模型 (MLLM)。
ImagerySearch,超越语义依赖约束的视频生成的自适应测试时搜索,一种提示引导的自适应测试时间搜索策略,它根据提示中的语义关系动态调整推理搜索空间和奖励函数。这使得视频在具有挑战性的富有想象力的环境中更加连贯和视觉上合理。
WithAnyone,用于可控和 ID 一致的图像生成,通过保留不同姿势和表情的身份来解决“复制粘贴”伪影,而不仅仅是复制面孔!