AI 驱动的软件开发栈：万亿美元市场的崛起

生成式 AI（Generative AI）正在深刻改变软件开发的方式，而软件开发领域也成为了 AI 商业化最先获得成功的市场之一。这看似出人意料，因为传统上开发工具并不是软件市场中规模最大的品类。然而，深入分析后会发现这一趋势背后有着充分的必然性：一方面，开发者往往率先为自己构建工具；另一方面，这个市场的潜在规模异常庞大。

万亿美元的市场规模

全球约有 3000 万软件开发者，这个数字根据不同统计机构的估算在 2700 万到 4700 万之间波动。假设每位开发者每年创造 10 万美元的经济价值（这对美国市场而言可能偏保守，但对全球平均水平略高），那么软件开发行业的总经济贡献高达 3 万亿美元，相当于法国的 GDP 总量。

根据过去一年中与众多企业和软件公司的深入交流，当前的 AI 编码辅助工具已经能够将开发者的生产力提升约 20%。而这仅仅是开始。最佳实践的 AI 部署方案至少能够将开发者生产力翻倍，这意味着每年可以额外创造 3 万亿美元的 GDP 贡献。几家硅谷和其他地区的初创公司开发的技术，其对全球 GDP 的影响将超过世界第七大经济体所有居民的生产力总和。

这种巨大的价值创造推动了初创公司收入和估值的爆发式增长。Cursor 在 15 个月内就达到了 5 亿美元的年度经常性收入（ARR）和近 100 亿美元的估值；谷歌斥资 24 亿美元收购 Windsurf，击败了 OpenAI；Anthropic 推出 Claude Code，与其主要分销渠道——AI 开发工具——展开竞争；OpenAI 的 GPT-5 发布会则完全聚焦于编码能力。面对如此巨大的市场机遇，我们已经进入了 AI 软件开发的”战国时代”。

AI 驱动的软件开发流程

最初，AI 编码看起来是一个单一的品类，但如今它已经演变成一个完整的生态系统，有潜力支撑数十家估值十亿美元的公司，甚至孕育出万亿美元级别的巨头。软件一直是过去几十年人类进步和经济增长的主要驱动力，如今软件本身正在被颠覆。AI 加速开发周期与模型成为软件新基础构建块的双重推动，很可能导致软件市场在质量和数量上的大规模扩张。

基本循环：规划 → 编码 → 审查

在 18 个月前，早期的 AI 编码还停留在从大语言模型（LLM）请求特定代码片段，然后将生成的代码粘贴到源代码中的阶段——这种流程在今天看来已经十分原始。如今的工作流程通常被称为”规划 → 编码 → 审查”（Plan → Code → Review）。整个过程从一开始就引入了 LLM：首先开发详细的功能描述，随后识别必要的决策点或信息需求。代码生成通常由智能体循环（Agentic Loop）完成，并可能涉及测试环节。最后，开发者审查 AI 的工作并根据需要进行调整。

规划阶段的演进

在规划阶段，AI 不仅仅是生成代码片段的工具，而是真正的协作伙伴。系统会被要求起草高层次的规范说明，更重要的是，它会返回一份详尽的信息清单，列出完成任务所需的额外信息。这份清单可能长达数页，涵盖需求澄清、架构决策、API 密钥请求，以及访问必要工具和系统的权限。

生成的规范具有双重作用：首先，它指导代码生成，确保意图与实现的一致性；其次，这些规范对于确保人类开发者或 LLM 持续理解大型代码库中特定文件或模块的功能至关重要。人机协作是迭代式的：当开发者编辑某段代码后，他们通常会指示语言模型修订项目规范，从而确保最新的代码变更得到准确反映。最终的结果是文档完善的代码，这对人类开发者和语言模型都有益处。

除了项目特定的需求外，大多数 AI 编码系统现在都整合了全面的架构和编码指南（如 .cursor/rules）。这些指南可能包含公司级别、项目级别甚至模块级别的规则。我们看到在线出现了针对特定用例的 AI 优化编码最佳实践集合，这些集合纯粹面向 LLM 而非人类。我们正在见证第一批专为 AI 而非人类设计的自然语言知识库的诞生。

在这种新范式下，AI 超越了其作为响应提示的代码生成器的旧角色。LLM 现在作为真正的协作伙伴，帮助开发者导航设计和实现阶段，做出架构决策，并识别潜在风险或约束。这些系统配备了对公司政策、项目特定指令、第三方最佳实践和全面技术文档的丰富上下文理解。

规划工具仍处于早期阶段。一些老牌企业和初创公司已经构建了应用程序，可以从论坛、Slack、电子邮件或 Salesforce、Hubspot 等 CRM 系统中聚合客户反馈（例如 Nexoro）。另一类公司（如 Delty 或 Traycer）构建网站或 VS Code 插件，帮助将规范分解为详细的用户故事，并协助票务流程（如 Linear）。展望未来，显然当前的记录系统（如 wiki 和故事跟踪器）将需要进行重大转型或完全替换。

代码生成与审查

有了扎实的规划之后，我们进入一个迭代循环，其中 AI 编码助手生成代码，开发者进行审查。最佳的用户界面和集成点主要取决于任务长度以及是否应该异步运行。

1. 自动补全与编辑（Tab Completion & Editing）

无缝集成到现代编辑器或 IDE 中，如 Cursor、Windsurf、Sourcegraph Amp 以及数十个 VS Code 插件。此功能可自主完成当前行或执行局部编辑，无需显式提示，因为 AI 可以从周围上下文中直观推断必要的操作。此功能依赖于紧凑、高效的模型，这些模型针对此特定目的进行了精细调优，确保快速准确的性能。

2. 基于对话的文件编辑（Chat-based File Editing）

允许用户通过聊天提供提示并为 AI 提供必要的上下文。这种方法利用具有大上下文窗口的更大推理模型，跨整个代码库工作，并经常使用基本工具创建文件或添加包。系统可以集成在 IDE 中或通过 Web 界面访问，为用户提供每个操作的实时反馈。

3. 后台智能体（Background Agents）

以不同方式运行，在较长时间内工作而无需直接用户交互。它们通常采用自动化测试来确保解决方案的准确性，这在没有即时用户反馈的情况下至关重要。结果是修改后的代码树或提交到代码仓库的拉取请求。示例包括 Devin、Anthropic Code 和 Cursor Background Agents。

4. AI 应用构建器和原型工具

例如 Lovable、Bolt/Stackblitz、Vercel v0 和 Replit，代表了一个快速扩展的类别。这些平台从自然语言提示、线框图或视觉示例生成功能齐全的应用程序，而不仅仅是 UI。如今，它们在构建简单应用程序的”氛围编码者”（Vibe Coders）以及原型化功能齐全应用程序的专业人士中很受欢迎。尽管到目前为止，很少有 AI 生成的 UI 进入生产代码库，但这可能仅仅反映了这些工具当前的不成熟状态。

5. AI 智能体的版本控制

随着 AI 智能体处理更多实现工作，开发者关心的重点从代码如何变化转向为什么变化以及是否有效。当整个文件一次性生成时，传统的 diff 就失去了意义。像 Gitbutler 这样的工具正在围绕意图而非文本重新构想版本控制——捕获提示历史、测试结果和智能体来源。在这个世界中，Git 成为后端分类账，而真正的行动发生在跟踪目标、决策和结果的语义层。

6. 源代码管理系统集成

使 AI 能够审查问题和拉取请求并参与讨论。这种集成利用了源代码控制管理的协作特性，其中围绕问题或拉取请求的讨论为 AI 提供了有价值的实现上下文。此外，AI 协助审查开发者的拉取请求，重点关注正确性、安全性和合规性。示例包括 Graphite 和 CodeRabbit 的解决方案。

当今编码助手的主循环通常是智能体式的（即 LLM 决定下一步操作并使用工具）。如今，简单的任务（如文本更改、库更新或添加非常简单的功能）通常可以完全自主工作。我们经历过一些神奇的时刻，当 GitHub 群组讨论功能时，只需简短的”请实现 @aihelper”评论，就能产生完美的、可合并的拉取请求。但对于更复杂的请求，这还不是常态。

7. 遗留代码迁移

始终是最成功的 AI 编码用例之一。常见用例包括从 Fortran 或 COBOL 迁移到 Java，从 Perl 到 Python，或替换古老的 Java 库。一种常见策略是首先从遗留代码生成功能规范，一旦正确，使用它来生成新实现，仅将旧代码库作为参考来解决歧义。我们看到在这个领域创建的公司，而且市场巨大。

质量保证与文档

代码编写完成后，需要集成测试和文档。这个阶段催生了自己的专业工具集。

面向开发者和 LLM 的文档

LLM 现在不仅能够生成面向用户的文档，还能生成在运行时被 LLM 利用的文档。像 Context7 这样的工具可以在正确的时间自动引入正确的上下文——检索相关代码、注释和示例——因此生成的文档与实际实现保持一致。除了静态页面，Mintlify 等产品创建动态文档站点，开发者可以直接与问答助手交互，甚至提供智能体，让用户通过简单的提示按需更新或重新生成部分内容。最后，AI 可以生成专门用于安全性和合规性的文档，这在大型企业中很重要。我们也看到在这个领域出现专门的工具（例如 Delve 用于合规）。

AI 质量保证

开发者现在可以依靠 AI 智能体在 UI、API 和后端层生成、运行和评估测试用例，而不是手动编写测试用例。这些系统的行为类似于自主的 QA 工程师，爬取流程，断言预期行为，并生成带有建议修复的错误报告。随着软件越来越多地由 AI 生成，AI QA 关闭了开发循环：不再是代码 → 审查 → 测试 → 提交——在极端情况下，代码变得不透明，开发者唯一关心的是正确性、性能和预期行为。

智能体工具

除了上述面向人类开发者的工具外，还出现了一个单独的工具类别，这些工具明确为智能体使用而构建。

代码搜索与索引

在大型代码仓库（数百万或数十亿行代码）上操作时，不再可能（更不用说经济实惠）为每次推理操作向 LLM 提供整个代码库。相反，最佳方法为 LLM 配备搜索工具以查找相关代码片段。对于小型代码库，简单的 RAG 或 grep 搜索可能就足够了。对于大型代码库，需要具有解析代码和创建调用图能力的专用软件，以确保可以找到所有引用。这个新兴类别包括 Sourcegraph 等公司，它提供了用于分析大型代码库的工具，以及 Relace 等公司的专用模型，帮助识别和排名相关文件。

Web 与文档搜索

Mintlify 和 Context7 等工具擅长生成和维护代码感知文档，从实时代码库中引入最相关的片段、注释和使用示例，以保持文档的准确性和最新性。相比之下，Exa、Brave 和 Tavily 等 Web 搜索工具针对临时检索进行了优化——帮助智能体快速浮现外部引用和按需长尾知识。

代码沙箱

测试代码和运行简单的命令行工具进行分析和调试是智能体的重要工具。然而，由于幻觉或潜在的恶意上下文，在本地开发系统上执行代码存在风险。在其他情况下，开发环境可能很复杂，而自动化环境具有确保测试可重复性的优势。E2B、Daytona、Morph、Runloop 和 Together 的 Code Sandbox 等执行沙箱供应商满足了这一需求，并已成为 AI 开发栈中的关键组件。

软件开发正在发生怎样的变化？

AI 软件开发的技术已经到来，现在组织必须将其付诸实践。成本确实可能很高：假设你的代码库填满整个 10 万 token 的上下文窗口，我们使用推理模式下的 Claude Opus 4.1，生成 1 万个输出和思考 token。以每百万 token 15 美元/75 美元的输入/输出价格，这使我们每次查询花费 2.50 美元。将其扩展到每小时 3 次查询、每天 7 小时、每年 200 天，年成本约为 10,000 美元。在许多地区，这超过了初级开发者的成本。

最终，我们认为成本不会减缓 AI 开发工具的采用。许多平台（如 Cursor）通过同一接口支持多个模型，并擅长选择合适的模型来优化成本。即使是最便宜的模型也能带来巨大的好处。但对话已经从谁拥有最好的模型转向谁能以合适的价格点提供价值。几十年来，软件开发成本几乎纯粹是人员成本，但现在 LLM 增加了大量的运营支出组成部分。这是否意味着向低成本国家进行 IT 外包的终结？也许不是，但它确实改变了商业案例。

这对全球 3000 万软件开发者意味着什么？AI 在可预见的将来会取代软件开发者吗？当然不会。这种无稽之谈的叙述是由媒体耸人听闻和试图将软件定价不是按每个席位而是作为人力成本替代品的激进营销相结合而触发的。历史告诉我们，虽然替代定价在早期市场有效，但最终商品的成本会收敛到其边际成本，定价也是如此。到目前为止，我们拥有的有限实际数据点表明，最精通 AI 的企业增加了开发者的招聘，因为他们看到了一系列具有短期正 ROI 的用例。

然而，软件开发者的工作本身已经发生了变化，培训也必须改变。今天的大学课程将发生巨大变化；不幸的是，没有人（包括我们）真正了解如何变化。算法、架构和人机交互仍然相关，甚至编码仍然很重要，因为你经常不得不把 LLM 从它给自己挖的洞里拖出来。但大学的典型软件开发课程最好被视为不同时代的遗迹，对当今的软件行业几乎没有实际相关性。

更长远来看，AI 编码栈允许软件扩展自身。例如，Gumloop 允许用户描述他们希望在产品中看到的额外功能，应用程序将使用 AI 编写实现此功能的代码。这会走多远？我们能否通过让 LLM 基于人类语言 API 规范进行后期绑定来实现应用程序集成？普通桌面应用程序会有”氛围编码附加功能”菜单按钮吗？长期来看，应用程序作为不可变代码发布而没有任何扩展能力似乎不太可能。

我们能否最终完全消除代码，而是让 LLM 直接执行我们的高层意图（正如 Andrej Karpathy 在其演讲中建议的那样）？在最简单的场景中，这已经是事实：ChatGPT 会乐意执行简单的算法。对于更复杂的任务，编写代码仍然更优越，主要是由于其效率。使用优化代码在现代 GPU 上添加两个 16 位整数大约需要 10^-14 秒。LLM 生成输出 token 至少需要 10^-3 秒。快 1000 亿倍的速度差距足以形成护城河，我们预计代码将存在很长时间。

构建的最佳时机

从历史上看，技术超级周期一直是创办公司的最佳时机，这次也不例外。AI 需要新工具，同时又加速了开发周期，这极大地有利于初创公司。以编码助手为例：微软的 GitHub Copilot 似乎不可阻挡，首先进入市场，拥有 OpenAI 合作伙伴关系、排名第一的 IDE（VS Code）、排名第一的 SCM（GitHub）和排名第一的企业销售团队。然而多家初创公司有效地竞争。在超级周期中做为老牌企业是很困难的。

我们正处于软件开发诞生以来可能是最大变革的早期阶段。软件工程师正在获得工具，这些工具将使他们比以往任何时候都更高效和强大。最终用户可以期待更多更好的软件。最后，历史上从未有过比现在更好的时机在软件开发领域创办公司。

关键工具与生态系统

当前的 AI 软件开发生态系统已经形成了一个完整的技术栈，涵盖从规划到部署的各个环节：

规划工具：Nexoro（客户反馈聚合）、Delty 和 Traycer（需求分解和票务）

代码生成与编辑：Cursor、Windsurf、Sourcegraph Amp、VS Code AI 插件

原型与应用构建：Lovable、Bolt/Stackblitz、Vercel v0、Replit

版本控制：Gitbutler（基于意图的版本控制）

代码审查：Graphite、CodeRabbit

文档生成：Context7、Mintlify、Delve（合规文档）

代码搜索：Sourcegraph、Relace

测试沙箱：E2B、Daytona、Morph、Runloop、Together Code Sandbox

Web 搜索：Exa、Brave、Tavily

这个生态系统还在快速演进，新的工具和平台不断涌现，每个细分领域都有可能孕育出独角兽公司。

结语

AI 驱动的软件开发栈代表了软件工程领域的一次根本性转变。从提升 20% 的生产力到未来可能翻倍的效率提升，这不仅仅是工具的升级，更是开发范式的革命。万亿美元的市场规模、快速崛起的独角兽企业、以及从规划到部署的全流程 AI 化，都在昭示着一个新时代的到来。

对于开发者而言，这并非威胁，而是机遇。AI 不会取代软件工程师，而是会让他们变得更加强大。那些能够熟练运用 AI 工具、理解 AI 协作模式、并在这个新范式下快速学习和适应的开发者，将在未来的软件开发中占据主导地位。

对于企业和创业者而言，现在正是进入这个领域的最佳时机。技术超级周期历来都是初创公司挑战巨头的良机，而 AI 软件开发栈正处于这样一个超级周期的中心。无论是专注于某个细分工具的创新，还是构建下一代开发平台，都有着广阔的空间和巨大的潜力。

软件正在”吃掉”世界，而现在 AI 正在重塑软件本身。这场变革才刚刚开始。