Topic Timeline
#蛋白质
这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。
研究论文 2026-06-23 · 周二 重要度 2/5
BioMatrix:序列-结构-语言统一的生物基座,80 任务里 77 项 SOTA
上海 AI Lab 等提出 BioMatrix,称是首个在单一 decoder-only 架构内原生融合『序列、结构、语言』、同时覆盖分子与蛋白质的多模态生物基座。通过统一 tokenization 把 SMILES/SELFIES、分子结构、蛋白序列/结构与语言映射到共享离散 token 空间,统一 next-token 预测,无需外部编码器或模态专用输出头。基于 Qwen3(1.7B/4B)持续预训练 3044 亿 token,在 6 类 80 个任务上 77 项达 SOTA 或有竞争力。提交者于 6 月 23 日提交。
AI for Science 的一个值得记的方向:把生物多模态统一进一个『纯语言模型式』的 token 空间,省掉适配器和专用头,理论上能让分子与蛋白之间的跨模态生成更自然。77/80 SOTA 的说法很亮眼,但置信度需谨慎——生物基座的评测口径差异大、复现门槛高,且『SOTA 或有竞争力』的措辞把两类结果混在一起。建议等第三方在标准任务上独立复现后再下定论。