摘要:OpenAI 最新发布的 Codex 白皮书《Codex-maxxing》揭示了桌面版 Codex App 的高阶玩法。这份白皮书的核心观点是:大多数人还停留在"问一个问题,等一个回答"的 AI 使用阶段,但真正的工作是循环的、跨天的、需要持续记忆的。本文深度拆解白皮书中的 10 个可立即上手的操作技巧,并补充 Codex App 官方文档中的功能细节,帮助你把 Codex 从代码助手升级为持续推进工作的 AI 代理系统。
为什么你的 Codex 用得不够好?
如果你还在把 OpenAI Codex 当成"高级版 Copilot",每次扔一个需求、拿一段代码,那你只用了它 10% 的能力。OpenAI 官方最佳实践指南明确指出:Codex works best when you treat it less like a one-off assistant and more like a teammate you configure and improve over time(当你不再把 Codex 当作一次性助手,而是当作一个可以不断配置、迭代和改进的队友时,它的效果最好)。
最新发布的 Codex 白皮书《Codex-maxxing》正是围绕这一理念展开。它指出一个关键判断:工作是循环的,不是线性的。你需要记住昨天说了什么、今天还差什么、明天要接着做什么。而 Codex App 提供的置顶对话、语音输入、实时介入、记忆文件、定时任务等功能,正是为这种循环式工作流设计的。
下面是白皮书拆解的 10 个具体动作,每一条都翻译成你今天就能照着做的步骤。
01 给重要工作线开一条置顶对话
打开 Codex App,想想你手头有哪些事情是会反复回来处理的——可能是一个正在推进的项目、一个需要持续跟进的客户、一个你在维护的开源代码库。
具体操作:
给它单独开一条对话,在对话列表里手动置顶(Pinned)
在第一条消息里写清楚背景:这件事是什么、现在进展到哪、你的偏好和约束是什么
之后每次回来,继续在这条对话里说,不要新建
白皮书给出的置顶示例结构包括:Chief of Staff(幕僚助手)、Workstream: Hiring(招聘工作流)、Monitor: X / Linkedin(社媒监控)、Project: Codex for OSS(开源项目)等。

为什么有效:Codex 每个对话的上下文长度限制是 258K,超出后会自动压缩。但长期使用发现,压缩两次后对代码细节的修改定位会明显下降。置顶对话让你在一个稳定上下文里持续推进,避免重复解释"我这个项目是做什么的"。
02 用语音代替打字
Codex App 提供了免费的语音输入功能。按住 Ctrl+M(macOS 上对应快捷键)即可启动语音听写。
使用场景:
模糊的想法:"那个……上周好像有人提过一个方案……我记不清了……你帮我整理一下"
直觉式反馈:"这个页面感觉哪里不对,但我说不清楚,你帮我看看"
会议记录:开完会直接对着 Codex 说一堆原话,让它整理成计划或下一步动作
关键洞察:语音的价值不是速度,而是你说出来的东西更接近真实想法,没有经过打字时的自我审查。白皮书提到,电话、会议、走廊里随口聊出来的一段话,都可以直接用语音扔给 Codex,让它整理成计划、草稿、页面、报告或下一步动作。
官方文档也特别提到这个功能:Use your voice to prompt Codex. Hold Ctrl+M while the composer is visible and start talking. Your voice will be transcribed。
03 在它还在跑的时候追加指令(Steering)
发出任务之后不要关掉窗口走人,边看它做,边随时插话。
白皮书把这叫做 Steering(引导)——Shape the queue while Codex works。Codex 正在干活的时候,你可以继续往队列里塞下一步,让它优先执行你插队的指令。
实际例子:
它正在改一个页面,你看着看着突然发现按钮太大,直接补一句:"这个按钮小一点"
"这句文案不对"
"这个做完之后,开一个 PR"
"先等 preview 部署好"
"发布前先把 preview 链接给我看"
这个功能在 GPT-5.3-Codex 就已引入,Codex APP 会边做边说明自己在干什么,响应你的反馈,同时保持全程同步。语音输入和 steering 配合使用效果最佳:语音负责把脑子里没整理好的话说出来,steering 负责把这些话变成 Codex 工作中的下一步。
04 把记忆变成一个你能打开、能编辑的文件
白皮书对 memory(记忆)给出了更进一步的解释:长线程里的重要信息,不能只存在于聊天记录中。聊天记录太长,人不会逐条看,Agent 自己也可能抓错重点。
记忆库结构:
在 GitHub 上新建一个仓库,叫 memory 或 vault,里面建几个文件:
vault/ TODO.md people/ alex.md maintainer-lucy.md projects/ codex-cli.md agent/ review-rules.md release-checklist.md notes/ 2026-06-24.md
people/记你经常协作的人的偏好和背景projects/每个项目一个文件记进展和决定decisions.md记重要决策和原因todo.md记跨项目的待办
操作方式:告诉 Codex,"我有一个记忆库在 GitHub 上,链接是 XX。每次对话结束前,把这次对话里值得记住的东西更新进去。"
核心价值:你能用 GitHub 的 diff 功能看到它每次记了什么,记错了就改,记漏了就补。这比对话历史靠谱得多——有用的信息变成了你能打开、能编辑、能看 diff、能复用的文件。
05 搞清楚它能用什么工具,分别用在什么场景
在给 Codex 布置任务之前,先判断这个任务需要什么工具:
工具选择决策树:
| 场景 | 推荐工具 | 操作方式 |
|---|---|---|
| 本地网页、预览页面 | In-app Browser | 任务里写"用浏览器打开 localhost:3000" |
| 需要登录账号操作(GitHub、Notion 等) | MCP 连接器 | 在 Codex 设置里先连好,然后直接说"去我的 GitHub 仓库把这个 Issue 关掉" |
| 只能通过点界面完成 | Computer Use | 谨慎使用,权限控制清楚 |
Codex App 的 in-app browser 支持预览、审查和评论本地开发服务器、文件备份预览以及不需要登录的公开页面。浏览器标注功能还可以直接针对字体大小、颜色、间距等样式问题给出精确反馈。
重要提醒:不要一口气接入所有工具。官方建议先从一两个能真正减少手动步骤的工具开始,稳定之后再扩展。
06 手机远程监控长任务
把一个需要跑一段时间的任务发给 Codex,然后去干别的事。
任务描述模板:
明确写出"做到哪一步需要我确认,做到哪一步可以自己决定"
比如:"重构这个模块,完成标准是原有测试全通过,改动点有注释,中途如果遇到架构选择问题就暂停等我"
远程监控流程:
出门前把任务发给 Codex
吃饭或开完会回来,用手机打开 Codex
看它做到哪了
需要拍板就说"批准,继续"或"这里改成 XX,然后继续"
关键前提:任务描述里要把"什么情况需要暂停等我"写清楚,不然它要么一直等你,要么擅自往下做。Codex App 的 Cloud 模式特别适合这种场景——它在隔离环境里处理 repo,最后产生你可以 review、merge 或拉回本机的结果。
07 设置定时任务(Automations)
在 Codex 的对话里直接说"设置一个定时任务",然后描述频率和内容。
白皮书示例:
"每 30 分钟检查一次我的 Slack 和 Gmail,找出可能需要我回复的未读消息,整理背景,起草回复,但不要发送,等我批准。"
针对开发场景的变体:
"每天早上 9 点检查我们的 GitHub 仓库,看看有没有新的 Issue 或者 PR,给我一个摘要,标出哪些需要我今天处理。"
说完之后 Codex 会创建这个定时器,告诉你它叫什么名字、频率是多少,之后按节奏自己跑。
官方补充:在 Codex App 的 Automations 标签页里,你可以选择项目、提示词、执行频率和执行环境。优秀的自动化候选任务包括:总结最近 commits、扫描潜在 bug、起草 Release Notes、检查 CI 失败、生成每日站会摘要。
重要原则:流程还不稳定就别急着自动化——先手动跑通,变成 Skill 后再设定自动化计划。官方精辟总结:"Skills define the method, automations define the schedule"(技能定义方法,自动化定义调度)。
08 三种 Loop 循环模式
白皮书给了三个真实的使用循环,找一个最像你场景的,直接复制结构:
幕僚助手循环
你每天要处理大量消息。让 Codex 按时去巡查,整理出需要回复的,查清楚背景,起草回复,然后等你来拍板发不发。你只做最后的判断,不做整理和起草。
监控反馈循环
你有一个持续迭代的作品(代码、设计、文章)需要收集外部反馈。让 Codex 定时去指定地方(Slack 频道、表单、评论区)汇总反馈,整理成摘要,标出需要改动的地方,你来做创意判断。
等待处理循环
你有一件事卡在等别人那里,比如等客服回复、等审批通过、等对方更新文档。让 Codex 每隔几分钟检查一次状态,一旦有变化就准备好下一步动作等你批准,而不是你自己去一遍遍刷新。
三个循环的共同逻辑:它准备,你决定。这正是白皮书提倡的 Loop Engineering(循环工程)核心思想——单次提示能解决单个问题,但循环才能推进项目。
09 Goal 指令:写清楚"完成标准"
下次布置任务时,在最后加一句"完成的标准是 XX"。
对比示例:
❌ 差的写法:"帮我重构这个模块"
✅ 好的写法:"帮我重构这个模块,完成标准是:原有的单元测试全部通过,没有新增测试失败,改动点都有注释说明,然后给我看 diff"
❌ 差的写法:"帮我写一篇文章"
✅ 好的写法:"帮我写一篇文章,完成标准是:不超过 1500 字,有一个开头场景,三个核心论点各有一个具体例子,结尾有明确行动建议,写完给我看"
底层逻辑:有了可核验的标准,Codex 可以自己检查自己做没做到,不用你来反复提醒。这正是 OpenAI 官方推荐的"四要素提示词框架"中的 Done when(完成标准)。
官方完整四要素:
Goal(目标):你想改什么或做什么
Context(上下文):哪些文件、文件夹、报错与任务相关
Constraints(约束):有什么规范、架构要求、不能碰的地方
Done when(完成标准):什么情况下算做好了
10 把侧边面板当成协作界面
当 Codex 在侧边面板里生成了一个文档、网页或表格,不要只是看完关掉。
协作方式:
直接在侧边面板上点评论,或回到对话框说"第三段逻辑有问题,改成从用户视角出发"
"这个表格第二列的公式不对,应该是 XX"
"这个颜色太亮了,换成深色系"
你的评论直接变成它的下一条指令,成品本身就是下一轮迭代的上下文。
支持的文档类型:
Markdown 文档:可以在里面直接批注
表格:可以渲染公式和编辑单元格
HTML 页面:可以在应用内浏览器里跑起来交互
幻灯片:可以不离开应用就创建和审阅
这个功能与 Codex App 的 Floating pop-out window(浮动弹出窗口)配合使用效果更佳——你可以把对话线程弹出到单独窗口,移动到你正在工作的位置,比如浏览器、编辑器或设计预览旁边。
进阶补充:AGENTS.md 让 Codex 记住你的规范
除了白皮书的 10 个技巧,官方最佳实践还强烈推荐使用 AGENTS.md 来固化团队规范。
把 AGENTS.md 想象成给智能体看的 README,它会自动加载到上下文中。一个优秀的 AGENTS.md 应涵盖:
仓库布局和重要目录
如何运行项目
构建、测试和 Lint 命令
工程规范和 PR 期望
约束和"Do-Not"规则
"Done"的定义以及如何验证工作
分层管理:
~/.codex/AGENTS.md:个人全局默认设置项目根目录:团队共享规范
子目录:只针对这个模块的特殊规则(越靠近当前目录的规则优先级越高)
快速创建:在 CLI 里运行 /init,它会自动生成一个起始版本,你再按实际情况修改。
Worktree:多任务并行的核心能力
白皮书提到的工作流离不开 Codex App 的 Git Worktree 支持。这是多工的核心——它让不同任务可以在不同工作树里同时推进。
实际场景:你可以让一个 agent 修测试,另一个 agent 改 UI,第三个 agent 做文档,而它们不会直接踩在同一份工作目录上。
真正要让 AI 多工,不是一直开更多聊天视窗,而是要让每个任务有自己的文件边界和 Git 边界。创建新线程时选择 Worktree 模式,changes 就会隔离在独立的 Git worktree 里,不影响你当前的工作。
总结:从"问问题"到"跑循环"
这 10 个动作,本质上是同一件事的十个切面:把 AI 从一个回答问题的工具,变成一个能持续推进工作的系统。
单次提示能解决单个问题,但循环才能推进项目。
白皮书英文标题叫 Codex-maxxing。Maxxing 的意思是把某件事用到极致。OpenAI 官方在最佳实践指南里也强调:Codex 不应该只生成代码,在正确的指令下,它还能帮你测试、检查和审查。在 OpenAI 内部,Codex 审查了 100% 的 PR。
掌握这 10 个基础技巧,配合 AGENTS.md、Worktree、MCP 连接器和 Skills 技能系统,你就能真正发挥 Codex 的极致功能,让它从"偶尔用一下的工具"变成"可以长期配置和持续改进的数字队友"。
文章来源:
本文基于 OpenAI 官方 Codex 白皮书《Codex-maxxing》及官方最佳实践指南整理
参考来源:OpenAI Developers 官方文档、Codex 官方最佳实践、字节笔记本白皮书解读、以及多位开发者的实战经验
原版中英文白皮书下载地址:https://link.bytenote.net/note