了解最新公司动态及行业资讯
据新智元报道,近日,谢赛宁、李飞飞与 Yann LeCun 联合发布论文《Cambrian-S:迈向视频中的空间超感知》,提出全新 AI 范式,旨在突破现有大语言模型在感官建模上的局限。
三位学者指出,当前基于 LLM 的多模态模型虽具备强大文本与图像处理能力,但在空间认知与预测性世界建模方面仍存在显著缺陷。
他们强调「超感知」是迈向超级智能的关键环节,AI 必须具备对视频流进行三维空间理解与长期记忆的能力,才能在现实场景中实现可靠应用。
团队在 Cambrian-S 框架下构建了 VSI-590K 数据集,涵盖 59 万个带有 3D 标注的训练样本,并训练了从 5 亿到 70 亿参数规模的模型。实验结果显示,其空间推理性能较基座模型提升最高达 30%,即使小规模模型也表现突出。
此外,研究团队提出「预测性感知」原型,通过潜在帧预测模块引入「惊异度」机制,用于优化记忆管理与事件切分。该方法在 VSI-Super 基准测试中已超越 Gemini 模型,显示出在长视频理解与空间智能方面的潜力。
研究者强调,单纯依赖规模化与数据扩展无法解决感知问题,开放科学与跨学科研究才是推动 AGI 的必由之路。此次合作不仅在学术界引发广泛关注,也被视为对现有 AI 技术路线的深度挑战。