用 Codex 构建自我改进的税务智能体

Thrive Holdings 与 OpenAI 如何通过将从业者专业知识与 Codex 驱动的循环相结合，共同为 Crete 的会计师开发税务 AI

现实世界的系统在生产环境中的表现往往与实验室环境不同会以难以预料的方式出现问题。团队通常在发布后发现这些故障，然后花数周时间检查边缘案例、调整提示词，并将生产反馈转化为持久的产品改进。反馈循环是手动且缓慢的，只有在工程师推进时才会改进。但如今，凭借精心设计的评估基础设施、直接获取从业者和真实世界环境的访问权限，以及 Codex 的前沿智能体能力，你可以构建能够自我改进的智能体。

在这篇文章中，我们将深入解析我们如何使用 Codex 构建这类智能体。在过去的六个月里，OpenAI 前沿部署工程师和研究人员与 Thrive Holdings 的工程师合作，与 Crete⁠(opens in a new window) 的 30 多家会计事务所网络共同构建并为它们量身打造税务 AI，以帮助准备日益复杂的纳税申报表。该系统并非依赖工程师来发现并修复每个故障，而是使用 Codex 将生产使用转化为结构化信号，以驱动自主改进。

Crete 的从业者每个季度要准备数万份纳税申报表，这需要处理数百万份底层文件。对于中等到高复杂度的申报，仅数据录入每份申报就可能耗时 8 小时，通常涉及混乱的数据源、上一年度的文件以及手动提取和计算。他们指出，在税务季节最繁忙的时期，纳税申报准备工作是一个重大瓶颈。

为了解决这一问题，税务 AI 在本税务季节处理了 Crete 事务所参与的试点中的 7,000 份纳税申报表。该系统将 1040 和 1041 纳税申报表的准备工作中大量耗时的流程实现了自动化，但比效率提升更引人注目的是，该系统本身比三个月前首次部署时的版本有了显著提升。

在税务 AI 中，从业者上传源文件以及任何客户特定备注。税务 AI 随后创建一份税务引擎提交，准备供审核。它为从业者节省了约三分之一的纳税申报准备时间，生成的申报表准确率高达 97%，并将吞吐量提高了约 50%，为他们腾出更多时间与客户交流。

我们可以通过了解税务 AI 在无需后续更正的情况下完成申报的准确程度来量化这种改进。我们通过检查有多少比例的申报达到 75%、90% 或 100% 的正确字段完成率来衡量准确性。在上线时，只有四分之一的申报达到 75% 的正确字段完成率，但在六周内，86% 达到了该指标。该系统在 90% 和 100% 正确字段完成率水平上显示出更快的增长。这些阈值让我们能够实际了解不同申报仍需要多少从业者后续跟进。

早期，税务 AI 处理的是较为简单的工作，如 W-2 和 1099 表格。随着季节推移，它进入了更复杂的申报领域，涉及 K-1、附表和更难的边缘案例。每项新功能节省的时间都比上一项更多，因为它承担的任务人工完成更难、更耗时。我们今天继续看到持续进展。

接下来，我们将介绍我们的团队如何围绕三个关键支柱共同设计税务 AI 实现自我改进：1) 专家从业者反馈，2) 生产追踪（从输入到最终输出的结构化历史），以及 3) 基于定制评估的 Codex 驱动的迭代循环，以实现持续、更快的产品开发。我们希望我们的经验对于其他构建者有所帮助，特别是在从业者专业知识对整体系统质量和运行数据至关重要的领域。

随着税务 AI 扩展到更复杂的申报业务，达到 75%、90% 和完全完成的评分申报比例在整个税务季节持续上升。

当我们深入到纳税准备中更困难的部分（K-1、租赁房地产附表以及需要在多个源文件之间核对值的税务表单）时，很明显，真正的挑战是产品能否使复杂的生产故障变得可见、可理解且可操作。

在产品早期，大部分更正都是手动的。从业者可以更正系统错误，但产品没有捕获完整的上下文：申报前更改的值可能反映真正的提取失误、映射问题、缺失的产品支持或预期的流程噪音。梳理这些情况仍需要工程团队的跟进。工程师可以使用编码智能体，但系统尚未设计成在改进循环中有效利用 AI。我们没有信号来识别正确的攀登方向。

这促使我们围绕三个支柱设计系统：

贴近从业者： 做这项工作的人需要指导产品学习什么。他们的直觉和理解揭示了哪些错误重要，并帮助告知接下来值得关注的工作流程哪些部分。
让产品设计使得生产产生证据： 产品不仅需要捕获输入和输出；它需要捕获从源材料到提取字段和来源追溯，再到下游提交和专家更正的完整路径。
创建 Codex 驱动的改进循环： 一旦生产问题可见且结构化，它们就可以成为发现、定制评估和有范围的工程任务。然后 Codex 可以帮助调查、提出变更、根据有针对性的回归评估进行验证，并以比纯手动迭代周期更快的速度推动产品向前发展。

下面的租赁物业示例展示了该循环的实际运作方式，带你了解从业者更正如何成为结构化发现，然后成为评估目标，最后成为 Codex 范围的工程任务。

租赁物业收入在个人纳税申报表的 E 附表中报告。从工程角度来看，提取该信息的任务描述起来很简单，但做好却很难。系统必须读取混乱的源材料（手写笔记、电子邮件、电子表格和其他客户文件），提取系统能够自信映射到税务引擎的租赁物业字段，并保留足够的证据，让从业者能够批准或更正结果。下面的简化示例展示了这些源文件和提取输出可能的样子。

租赁物业源包在被映射到下游税务引擎概念之前被规范化为带引用的字段。

智能体预测值与已申报纳税表的实际值之间的差异可能反映真正的提取失误，但也可能是从业者偏好、税务引擎中从前一年度结转的值，或在申报工作流程中其他地方引入或更改的值。从业者帮助我们辨别这些情况，以便我们能够识别哪些操作需要从业者更正或阻止提交。

因为我们能够详细查看这些更正，我们将审查流程从终端的、事后故障步骤转变为持续的学习循环。我们设计了工作流程，将专家操作捕获为结构化数据。现在，每次干预都通过准确记录税务 AI 提出了什么、从业者修改了什么、最终什么被纳入已申报的申报表来为产品的改进循环提供输入。

对于像租赁物业这样的复杂工作流程，系统必须保留从源文件到已申报申报表之间发生的事情。在这条路径上，文档被组织、拆分和分类；租赁物业字段被提取并附上对源材料的引用；这些值被映射到税务引擎；在提交前从业者可能仍会更正它们。这些产品级别的追踪使得调查故障发生位置成为可能。为了将从业者更正转化为有用的评估目标，系统按三个步骤处理它们：

捕获差异： 将税务 AI 的输出与已申报纳税表进行比较，生成字段级别的审查行，捕获预期值、预测值以及差异是否可操作。
对相关故障进行分组： 将相似的审查行分组，以将重复出现的产品故障与预期的流程噪音区分开来。例如，重复的从业者更正可能表明税务 AI 经常遗漏公平租赁天数字段、错误处理“其他费用”，或在同一个源包中混淆多个租赁物业。
将重复模式转化为评估目标： 一旦经过审查和测量，重复的发现成为 Codex 改进的明确评估目标。

租赁物业审查行将重复出现的产品故障与预期的噪音分开，然后将可操作的情况转化为评估目标，为 Codex 提供攀登的方向。

第三个支柱是创建一个能够对这些新评估采取行动的工程循环。这正是 Codex 变得核心的地方。

假设我们的评估管道标记出税务 AI 一致地遗漏"公平租赁天数"字段，而从业者会可靠地填写它。因为这个发现已经被打包成一个有针对性的评估集，包含有代表性的源包和预期输出，Codex 可以直接在产品框架内调查根本原因。

Codex 并非仅与低于标准的最终输出一起工作。它同时检查追踪、评估、代码库和技能：

调查管道： 检查源包、提取模式、映射器行为和代码路径，确定问题是支持的字段、遗漏的提取模式、源选择问题、映射器差距还是评估器问题。
实施有针对性的修复： 扩展提取模式、为租赁物业文档改进源选择、更新税务引擎映射器，或者如果预期的流程噪音被计为故障，则改进评估器。
验证并提出建议： 重新运行有针对性的评估，运行更广泛的回归套件，并提出候选的拉取请求供工程审查。
关闭循环： 将重复出现的从业者更正转化为可衡量的工程任务。如果证据不明确或无法安全自动化，该案例会被退回给产品团队，而不是被强制通过循环。

端到端自我改进循环：生产追踪浮现重复的字段级更正，这些更正成为 Codex 可以与追踪、评估、代码库和技能一起检查的故障信号。可操作的模式成为有界限的评估和候选的产品变更；不明确的情况被退回给工程师审查。每个已交付的改进都会产生新的生产证据，为下一个循环提供支持。

租赁物业示例是更广泛的通用模式的典型：使用生产工件和追踪来改进智能体的能力。鉴于来自生产数据、源追踪、预期税务引擎输出、相关代码示例和评估命令的已审查发现作为一组输入，Codex 可以在数周和数月内实质性改进性能和准确性。这建立在我们关于驾驭工程和 Symphony的工作描述的原则之上，这些工作展示了如何使任务对 Codex 可理解、提供有范围的上下文和工具，并让验证和人工审查成为环境的一部分。

这些证据不会自动成为 Codex 任务。从业者更正可能反映提取失误、映射问题、不支持的产品行为、税务判断或预期的流程噪音。只有在重复出现的差异经过审查并分组为可操作的发现后，系统才会将它们转化为具有明确成功条件的有界任务。

我们将这种自动化应用于产品的一个有界限的层。该层执行提取并将源文档映射到税务工作流程。工程师负责架构、产品决策和交付。从业者通过他们已经在做的工作来指导改进循环：更正提取的值、审查申报表以及批准最终申报。

对于 Codex，结果不是模糊的警报，而是一个带有证据、可编辑的产品界面和明确验证关卡的范围工程任务。一个有代表性的租赁物业任务的上下文可以总结如下：

一个有界限的 Codex 任务环境将可写的工作树 [1] 与只读的生产上下文 [5] 分开。工作树包含 Codex 可以检查或修改的产品界面范围 [2]、定义成功的有针对性和回归评估 [3]，以及编码如何运行任务和尊重先前决策的可重用技能/文档 [4]。只读上下文提供生产追踪、源文档、税务 AI 预测、最终化的申报表和税务引擎字段文档，以便 Codex 可以在不改变底层证据的情况下调查故障。

相同的循环适用于租赁物业之外。租赁物业花了大约六周时间和大量的工程监督才达到 90% 的精确率和召回率，但这项工作产生了可重用的抽象、审查工件、评估约定和实现模式，使得支持类似复杂的附表（如 C 附表和 A 附表）变得更加容易。

税务 AI 证明了一条构建自我改进智能体的路径。从业者通过提供服务产生高价值的反馈信号。产品工作流程将这些信号保留为结构化证据。评估支持工程系统在改进到达生产环境前进行验证，而智能体驱动的循环使系统保持持续自我改进的流动。

Thrive Holdings 的结构使我们能够在特定行业复制这种环境。Holdings 既是所有者也是运营者，因此我们的综合工程团队能够与来自 Crete 等企业内部而非作为供应商而是作为合作伙伴的从业者和生产数据直接合作。这意味着技术、产品和服务都置于同一屋檐下，帮助我们更快行动并构建卓越的产品。

一位高级会计师去年在纳税申报准备上花费了 180 小时，今年只花了 15 小时。她将部分时间用于给每一位客户打电话，向他们讲解他们的申报表，这种高接触服务是一年前不可能实现的。剩下的时间她用来承接新客户并拓展新的服务项目。

我们的团队现在正在将税务 AI 的相同三部分设计作为蓝图，用于在 Thrive Holdings⁠(opens in a new window) 的其他领域构建工作流程；会计工作流程如簿记和审计，以及运营工作流程如 IT 服务台自动化。在不同领域和行业，自我改进智能体的更广泛承诺依然成立。最好的智能体由人引导着学习，在时间推移中变得更有能力、更受信任、更有价值。

要了解更多关于参与此项目的 OpenAI 团队的信息，请 联系我们.