<汇港通讯> 商汤(00020)今日发布及开源原生理解生成统一模型日日新 SenseNova U1系列。
该系列基於商汤於今年三月自主研发的 NEO-unify 架构,在单一模型架构上统一了多模态理解、推理与生成。SenseNova U1系列模型实现语言和视觉讯息的高效协同,让理解与生成能力同步增强,既保持语义丰富度,亦维持像素级视觉保真度,可用於生成复杂的讯息图(infographics),亦是业内首个实现连续性图文创作输出的模型。
在逻辑推理与空间智能等范畴,SenseNova U1 系列亦能深度理解物理世界的复杂布局与精细关系,未来可为机器人提供具身大脑,於单一模型闭环内完成环境感知、逻辑推演到精准任务执行的全流程,为技术与产业发展提供重要基础与关键引擎。
Neo-unify 架构突破此限制,舍弃了主流的拼接方式,去除了 VE 和变分自编码器(VAE),重新构建了统一的表徵空间。建基於 Neo-unify 的 SenseNova U1,犹如一个同时掌握多项技能的人,无需先看懂图像,再翻译成文字、交给另一个系统理解,而是在同一套「思考方式」中直接处理图像、文字等不同讯息; 图像和语言不再由两套系统「接力」,而是在同一个大脑中自然融合,可以减少讯息损耗,也能在相对精简的模型规模下,高效实现更强的多模态理解与生成能力。 (JJ)
新闻来源 (不包括新闻图片): 汇港资讯