Topic Timeline

#embedding

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

研究论文 2026-06-24 · 周三 重要度 2/5

EvoEmbedding:会随上下文「进化」的向量表征,为长上下文检索与 agent 记忆而生

现有 embedding 模型本质是静态的——孤立编码文本片段,忽略上下文和时序。EvoEmbedding 在顺序处理输入时维护一个持续更新的隐式记忆,与原始内容联合生成『可进化表征』:同一个查询会随上下文演化而检索到不同目标,超越静态语义搜索。配套 EvoTrain-180K 数据集与防表征坍缩的记忆队列,在多个长上下文检索基准上超过 Qwen3-Embedding-8B、KaLM-Embedding-Gemma3-12B 等更大模型。

这触及了 RAG 与 agent 记忆一个被默认忽略的假设:检索的『相关性』其实是随状态变化的。同一句查询,在对话第 2 轮和第 20 轮该召回的东西可能完全不同——静态 embedding 做不到这点。EvoEmbedding 把『连续状态跟踪』塞进编码过程,让表征带上时序记忆,这对多轮 agent、个性化、长文档连续检索是结构性契合。值得注意的是它用更小的模型反超 8B/12B 专家模型,说明『动态性』这个维度的收益可能比单纯堆参数更大。caveat 是循环编码容易表征坍缩(论文专门用记忆队列防这点),工程稳定性和长序列下的漂移仍需更多验证。