#具身智能
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
World Action Models 综述:给 WAM/VLA/世界模型『正名』,Dream Less, Act More
NUS 的综述试图终结社区对 World Action Models 的术语混乱:明确 WAM『不是带动作头的视频生成器』,提出『面向动作的未来』契约,给出两套分类(设计哲学视角:Render-and-Decode/Latent-Only/Video-Generation-Free;组件解剖视角:预测基底/动作耦合/骨干/部署四轴),并把每个 WAM 表达为统一 4 元组,讨论可交互性、因果性、持久性、物理合理性、泛化五种具身属性。
在具身智能 + 世界模型概念被各家厂商反复包装的当下,一篇把术语和边界讲清楚的综述很有必要。它点出的趋势——『生成更少的未来、只保留控制所需』——是对纯视频生成路线的纠偏:不必把整段未来渲染成像素,从潜空间/流/掩码直接解码动作可能更高效。对想入场具身的团队,这是一份难得的术语对齐与路线地图。
WorldLines:长程具身智能体的状态化记忆基准与 ObsMem 框架
WorldLines(arXiv 2606.18847,HKUST(GZ)/HKUST/Knowin)面向长程家庭具身助理,构造时间跨度长的家庭轨迹(对话、动作、反馈、状态变化),拆为记忆 QA 与具身任务规划两类样本;提出观察者锚定的记忆框架 ObsMem,用事件/状态/信念/承诺四类记忆轨道并区分『观察到』与『被告知』来源。在记忆 QA 上 Judge 0.713、完美率 69%,各维度领先 A-mem/Mem0。
WorldLines 把『智能体记忆』从纯文本 QA 拉进了部分可观测的物理环境——这才是家庭/服务机器人真正面对的难题:世界状态在变、信息有真假来源、旧记忆会过期。ObsMem 的『信念轨道』(fresh/stale/uncertain/contradicted)是个聪明设计,消融显示去掉信念跟踪后隐藏问题得分直接归零。它与 MemSlides、GateMem 同日上榜,坐实了『记忆』是当前 Agent 研究的最大公约数。