探索我们精心策划的AI文章集合,涵盖人工智能、机器学习、AI工具等多个领域
P1-VL,开源视觉语言模型,专门用于物理推理,基于 Qwen3-VL-235B-A22B-Thinking 构建,并通过在精选的物理竞赛数据上进行多阶段强化学习进行优化。
MOSSAudioTokenizer,离散音频分词器,基于 Cat(Causal Audio Tokenizer with Transformer)架构。可扩展至 16 亿参数,作为统一的离散接口,既提供无损质量重建,也实现高级语义对齐。
MiniMax-M2.5,MiniMax开源的最新型号模型,在编码、代理工具使用与搜索、办公工作及其他一系列经济价值任务方面达到了 SOTA.
DeepGen 1.0,轻量级统一多模态模型,支持通用图像生成、通用图像编辑、推理图像生成、推理图像编辑和文本渲染。
Xiaomi-Robotics-0,小米开源的视觉-语言-行动模型,参数为 47 亿,专为高性能机器人推理和无缝实时执行而设计。
通过高精度非线性流蒸馏释放两步文本转图像生成,一种几步蒸馏框架,明确采用非线性流轨迹来近似预训练教师的轨迹。
Ming-flash-omni 2.0,开源的多模态模型,支持视觉百科知识、沉浸式语音合成以及高动态图像生成与编辑等。
UI-Venus 1.5,端到端 GUI 代理,专为强大的现实世界应用设计。该模型家族包括两种密集型(2B/8B)和一种 MoE 型(30B-A3B)变体,以满足各种下游场景。