Topic Timeline

#RLHF

这个主题在过往早报中的出现记录。深度条目直达研究报告，其余条目回到当日 edition。

观点观察 2026-06-30 · 周二重要度 2/5

Codex 5.5『破限开源项目』:通过 model_instructions_file 注入 UNRESTRICTED 指令,渗透测试/逆向工程不再被拒,封号风险高

Codex 5.5 破限开源项目:思路直接——通过 model_instructions_file 给 GPT-5.5 塞一套无限制指令,让 Codex CLI 直接跑 [MODE: UNRESTRICTED] 模式。以前问渗透测试、安全研究都拒,现在『怎么做 SQL 注入测试』都给方法论。覆盖逆向工程、渗透测试、NSFW 虚构内容。跑一个 python 脚本 + 重启 Codex 即生效。作者提示:封号风险高,建议小号玩。

这个『破限项目』的出现暴露了 GPT-5.5 / Codex 在 RLHF 安全对齐与『agent 工具化』之间的张力——当模型被塞进 agent harness 时,用户对『模型能做什么』的边界预期完全不同。这与 OpenAI 6-30 早报披露的 Codex 用量异常重置事件形成对照:一边是用户主动『破限』,一边是 OpenAI 主动收紧用量上限,两条战线都说明 agent 时代的『模型安全边界』正在被反复拉扯。