大规模合成计算机用于长期生产力模拟

论文信息

标题: Synthetic Computers at Scale for Long-Horizon Productivity Simulation

作者: Tao Ge, Baolin Peng, Hao Cheng, et al.

发布日期: 2026-04-30

PDF链接: 下载PDF

论文背景与研究动机

在现实世界中，许多复杂的生产力任务具有极长的时间跨度——例如，一名知识工作者可能需要花费数周时间来完成一个包含多份专业文档、表格与演示材料的项目。这类任务高度依赖用户专属的计算机环境：文件系统的目录结构、存储在其中的丰富内容工件（如文档、电子表格、幻灯片）以及隐含的工作习惯，都构成了智能体理解与执行任务的上下文基础。然而，现有的人工智能智能体训练和评估方案大多运行在孤立、简短的基准测试中，难以反映这种长周期、环境依赖的生产力场景。

大规模构建真实用户的计算环境存在隐私、成本与多样性等多重障碍。即使能够采集少量真实数据，也难以覆盖数十亿用户所涉及的职业、角色、工作流与文化背景。因此，需要一种既能生成高度逼真计算机环境，又能在此之上进行长周期任务模拟的可扩展方法。这便是论文《Synthetic Computers at Scale for Long-Horizon Productivity Simulation》的核心出发点：通过规模化合成计算机环境，驱动智能体在长时间的交互中完成生产力目标，从而生成丰富的经验学习信号，支撑智能体的自改进与强化学习。

核心方法与技术细节

论文提出的方法论称为 Synthetic Computers at Scale，其核心流程分为两大阶段：合成计算机构建与长周期任务模拟。

合成计算机的生成

合成计算机不仅仅是一个虚拟的文件系统骨架，它需要具备逼真的目录层级和丰富的内容工件。生成过程由大型语言模型驱动，但并非简单地随机生成文件名。设计的关键在于：

结构化层级：模拟真实用户的文件组织方式，例如区分工作项目、个人文档、存档资料等顶层目录，并在内部创建多级子目录，反映真实的项目管理结构。
内容丰富的工件：不是生成空文件，而是填充内容真实的文档、电子表格和演示文稿。例如，一份营销计划文档会包含合理的大纲、段落和数据表格；一份财务表格会有具体的数字、公式和注释。这些内容既提供语义信息，也为后续智能体的信息检索和利用提供了真实的难度。
用户画像注入：每台合成计算机关联一个独特的用户画像（persona），该画像定义了用户的职业、角色、工作习惯和偏好。这种画像信息隐式地体现在目录命名风格、工件主题以及未完成工作的痕迹上，为环境赋予一致性。

这一生成过程本质上是一个条件生成问题，通过提示大型语言模型生成符合画像的目录树和文件内容。论文强调，由于用户画像可以轻松扩展到十亿级别，合成计算机的创建在理论上具备极强的可扩展性。

长周期任务模拟框架

在每一台合成计算机之上，论文设计了一个双智能体、长时间跨度的模拟循环：

目标创建智能体：它访问整个合成计算机（包括文件系统和用户画像），据此生成一组生产力目标。这些目标具有显著的特点：
- 个性化：紧密贴合该计算机所代表的特定用户，而非通用任务。
- 多交付物：需要产生多种专业制品，如报告、模型、演示，模拟真实工作中跨文档的协同产出。
- 长跨度：设计成大约需要一个月的人类工作量，从而强制后续智能体进行长期规划和持续行动。
用户智能体：它扮演该计算机的用户，通过一系列操作逐步完成前述目标。其行为空间包括但不限于：
- 在文件系统中导航以寻找背景信息；
- 与模拟协作者进行沟通协调；
- 创作、编辑、整合各类文档和表格；
- 跟踪进度并调整计划。

这一模拟过程持续进行，直至所有生产力目标被完成。每台计算机上的单次运行平均超过 2000 个轮次，消耗超过 8 小时的智能体计算时间。如此长的轨迹生成了高质量的状态-行动-奖励序列，这些序列记录了智能体如何根据环境状态（当前视图中看到的文件系统片段、文档内容）采取行动，并获得任务进展的反馈。

从技术实现角度看，该模拟系统需要高效的状态管理和上下文切换机制，避免因历史过长导致模型上下文溢出。论文虽未详细展开工程细节，但可以推测采用了阶段性压缩、外部记忆或层级化规划等常见长周期智能体架构的增强手段。

创新点与学术贡献

这项工作有三项突出贡献，构成了从数据、环境到学习范式的系统性创新。

第一，可扩展的合成环境生成方法论。 传统智能体训练依赖固定的人造数据集或有限现实样本，而本工作展示了如何用生成模型批量创造带有真实计算上下文的环境。有趣之处在于，它并非孤立地生成任务，而是先生成“世界”（计算机环境），再由此萌生任务，使得环境的复杂性与任务的自然性得到耦合。这种方法打通了从用户画像到环境、再到长周期目标的完整链条，理论上支持百万甚至十亿级别的多样性扩张。

第二，长周期智能体模拟与经验信号提取。 大量现有工作聚焦在几步即可完成的短程任务。本文刻意拉长了模拟时间跨度至“一个月的人类工作量”，迫使智能体进行持续的文件管理、跨文档信息整合和进度追踪。这一过程中产生的轮次级交互，天然形成了强化学习所需的长视界轨迹。该经验被验证同时提升了域内和域外生产力评估的性能，说明长周期模拟能够磨炼出可迁移的生产力工作能力，而非简单的任务过拟合。

第三，为智能体自改进奠定基础。 论文明确提出，合成计算机和大规模模拟可以成为智能体强化学习的基础设施。在数十亿用户世界的覆盖下，智能体有机会在海量差异化作业环境中持续自我对弈、收集经验、更新策略，进而催生出具备强泛化性的通用生产力智能体。

实验结果与分析

论文在初步实验中构建了 1000 台合成计算机，并在每一台上运行完整的长周期模拟。定量指标方面，每台计算机的智能体运行时超过 8 小时，平均交互轮次达到 2000 以上，表明生成的任务确实需要密集且持续的劳动。更关键的是，这些模拟产生的经验被用于训练或微调智能体后，智能体在一组生产力评估基准上的表现获得了显著提升。值得关注的是，这种提升同时出现在与训练环境相似的域内测试和未见过的域外测试中，暗示长周期模拟可能帮助智能体学会了更通用的问题分解、信息检索与工件生成能力。

虽然论文没有给出具体的百分比如表格式对比，但其定性结论具有很强的启发性：让智能体在长时间的合成实践中“自行摸索”，能够有效弥补短程监督信号难以覆盖的隐式技能，例如在复杂目录结构中快速定位所需文件、依据历史文档风格保持产出一致性、以及管理长期任务中的认知负荷。

实践应用与领域启示

尽管论文以通用生产力模拟为直接目标，其方法论对人工智能领域的实践者具有重要的借鉴意义，尤其对于希望构建强自主性智能体的研究者和工程师群体。

在人工智能智能体开发中， 可借鉴合成环境的思想进行智能体的大规模强化学习训练。例如，在构建智能办公助手、编程助手或研究辅助智能体时，与其依赖昂贵的人工标注交互轨迹，不如先生成包含完整项目文件、历史记录和伪协作者信息的合成工作区，然后让智能体在其中完成中长周期的复杂任务。这样不仅可以低成本扩增训练数据，还能确保任务难度与上下文深度相匹配。

在量化交易领域， 类似思路可以直接映射到交易环境的合成生成。通过生成包含历史市场数据、研究报告、订单流的合成交易工作站，并使任务转换为“在一个季度内执行特定投资策略并生成业绩报告”，可以实现交易智能体的长视界强化学习。合成市场的多样性也有助于避免过拟合历史行情。

在通用人工智能评估方面， 合成计算机提供了一种动态、开放式的评测平台。评估不再局限于答对几道题，而是看智能体在完全陌生的合成工作环境中，能否像一位专业员工那样，理清现状、制定计划并交付多模块的专业成果。这种生态化评估更能暴露智能体的实用性短板。

未来发展方向与挑战

论文的设想极具雄心，但在迈向百万甚至十亿级合成世界的道路上，仍面临若干关键挑战。

环境真实性的上限问题。 当前合成计算机的内容由语言模型生成，其真实度受限于模型对现实世界文件组织的理解。如何避免生成“模板化”或“同质化”的环境，引入更符合特定行业、企业文化的细节，需要更复杂的画像推理和领域知识注入。同时，内容的逻辑一致性（如财务表格的数字相互勾稽）需要更好的约束机制。

长周期模拟的效率。 单台计算机 8 小时的智能体运行时长若要进行十亿级实验，所需算力惊人。必须研究更高效的模拟策略，例如时间跳跃、仅模拟关键决策点，或者利用层次化强化学习在更抽象的层次上积累经验。

安全与隐私。 虽然生成的是合成数据，但如果将来混入真实用户特征，必须建立严格的匿名化与脱敏框架。另外，经过此类模拟训练的智能体若处理真实用户计算机，其行为是否可能泄露用户环境信息，也是一个重要的研究议题。

学习信号的精细化。 目前模拟的奖励信号来自任务完成情况，较为稀疏。未来可引入更细粒度的过程奖励，例如文档质量评估、信息检索效率评分，以加速智能体的学习收敛。

总结与展望

《Synthetic Computers at Scale for Long-Horizon Productivity Simulation》为人工智能智能体的长周期生产力训练开辟了一条极具潜力的新路径。它让智能体不再仅仅在孤立的问答或短程任务中“应试”，而是沉浸在一个个鲜活而复杂的合成工作世界里，像人类一样进行跨周、跨月的专业产出。这种范式将环境生成、任务定义和学习过程深度融合，实现了可扩展性、多样性与深度时间跨度的三重突破。

从长远看，如果合成计算机的创建和模拟能够进一步贴近真实组织的运转逻辑，并结合规模化强化学习基础设施，我们有可能培养出真正理解文件系统、懂得协同工作、能处理模糊长期目标的通用数字工作者。这不仅会推动智能体技术的跨越式发展，也有望重塑生产力工具的设计和评估方式。论文所描绘的数十亿个合成用户世界，或许就是通向下一代自主智能体的关键训练场。