自慰女孩 AI Coding 最全图谱：Agent 将怎么颠覆软件

发布日期：2024-12-13 06:55 点击次数：113

Coding 领域的投资在两个中枢变化的趋势下，底层推理引擎的抓续突出和商场空间的变化，因此格外值得咱们良善。LLM 作为推理引擎，coding 是最佳的期骗场景：代码的逻辑比当然话语更清澈，引申的驱散能由 AI 自动化考证。因此咱们看到从 Sonnet 3.5 到 o1 pro，每一次模子才略的提高都会反应在 coding 才略的提高上自慰女孩，这一领域的期骗突出就尤其显贵。

才略的抓续突出让咱们期待软件出产历程中有专科开导者除外的更多用户参与进来。本次盘问对 AI coding 领域的标的和公司进行全览，盘问框架中除了面向 professional（专科，包括企业和孤立）开导者的居品，还有 citizen（小白，泛常识使命者）开导者标的的公司，他们的居品要点有所各异。

面向 professional developer，咱们期待的是 coding 能比其他垂直标的更快地从 copilot 进化到 agent，况且两者共存。现阶段Cursor、Windsurf 等居品体验颠倒优秀的 copilot 对孤立开导者的使命体验和出产力还是带来了巨大提高。而企业中有弘大的 codebase、复杂的 engineering context，以及严格的安全合规要求，这些短期之内很难快速贬责。因此 agent 会在 testing、review、migration 等具体 use case 上落地，同期通用的 copilot IDE 仍能进展价值成为 coding agent 的使命环境。

关于 citizen developer，咱们期待软件出产神色有颠覆性的变革，出现新一代居品方法 task engine。AI coding 能使更多常识使命者的长尾需求被终了，生成出 disposable app：随用随抛的下一代软件，每一个 app 不需要得志无数 DAU，而是针对不同用户有我方个性化的体验，其中的内容以致可以及时生成。UI/UX 交互层面的翻新是必要的，交互门槛更低的居品能允许更多用户抒发个性化需求，形成 coding agent 层面的新一代 OS。类比 PC 历史，当前的居品还在号召行期间，咱们期待 AI coding 标的的“GUI 时刻“。

01 Investment Thesis

Coding 领域的投资主要靠近着两个大变化，底层推理引擎的抓续突出和商场空间的变化：

1）Coding 才略是 LLM + RL 范式下才略进化最快的标的，会是从 copilot 渐进到 agent 的第一个领域。

RL 范式下，自动化考证的环境、明确的reward model 是推理才略提高的遑急前提。coding 即是最妥当合适这个要求的场景，很可能是 LLM 从 copilot 走向 agent 的第一个场景。o1 pro 的发布再次考证了这一 thesis。

2）Task engine 会把商场从 5000 万开导者拓展到 5 亿常识使命者，从 professional citizen developers。

专科开导者惟一 5000万，天下上有 99%的东说念主不会写代码。但其实有许多东说念主有个性化的任务需求，妥当由软件来进行法度化。之前软件行业的试错资本太高，而 AI 生成式的 task engine 能带来这么的许多软件。

想像下一代的互联网，用户在浏览器网址框输入的不再是网址，而是当然话语 prompt，需要的内容就会及时生成渲染出来；下一代的操作系统每次怒放，都会笔据用户近期行为和期间环境得到最妥当的内容。这里可能滋长着 AI 期间 Google 的契机，成为赛博天下的新进口。

以上是咱们看好 AI coding 领域投资契机的根蒂原因，接下来先容对 AI coding landscape 中兴起几类居品的分类坐标系：

• Y 轴界说圭臬：居品多猛进程地需要 human in the loop，上方居品更能端到端完成任务，下方更专注于 empower developer；

• X 轴界说圭臬：居品的主张用户的开导才略有多强。左侧居品偏向于奇迹专科开导者，右侧偏向于奇迹莫得编程基础的用户。

3）Copilot for pro & Agent for citizen 是当前模子才略与居品需求相匹配的领域。

• 左下象限，Copilot for pro dev：

最近口碑优秀的居品 Cursor、Codeium Windsurf 等基本都在这个象限。他们能在 early adopter 开导者圈子获取了优秀的口碑，对用户需求的深远阐发和 Claude Sonnet 3.5 出色的意图阐发才略在这里不可偏废。

他们要保抓的增长的要道问题是，优秀的居品体验能得到 indie developer 的赏玩，但这关于 enterprise GTM 仅仅必要条件，而不是充分条件。从居品到企业信任，还有 privacy/compliance 等许多复杂需求。同期最近醒悟启动加快迭代的 Github Copilot 对他们的商场空间也会压缩。

• 右上象限，Agent for citizen dev：

给等闲东说念主的 coding agent 居品方法还莫得固定：几个 coding 领域的前端deployment 和 web IDE 独角兽推出了我方的居品，Vercel V0， bolt.new 能智能地生成前端 web app，Replit agent 可以跟用户多轮交互生成基础的软件；而早期的创业公司则有更翻新的居品方法，websim 在模拟及时生成的 chrome，wordware 用访佛 notion 的交互使用户在其居品中创作软件。

但这个象限的契机可能才刚刚启动，因为当前的居品还稚拙于之前的想路。可以类比施乐执行室翻新 GUI 之前的号召行期间，对巨匠用户的使用门槛很高，停留在 early adopter 圈子。

• 左上象限，Agent for pro dev：

要终了这一愿景，当前的模子才略还要络续提高。泰西有>5家融资鸿沟上亿好意思金的公司在这个领域攻坚，因为 code token 的浪掷量级很大，要贬责的工程问题也许多。其中最要道的问题是企业 codebase context 的问题：

一方面，怎么从巨大的 codebase 中作念精确的 retrieval 是个难题，在科技大厂中也常常有老工程师辞职之后之前的代码技俩难以阐发的问题，AI 表面上能有更长的 context window 但当前阐发并搜索的精确度还不够；另一方面，enterprise codebase 中包括了无数公司里面的业务逻辑，需要稀薄数据微调、以致 on-prem deployment。MS Stanley/Coca Cola 这么的大型企业 developer 数目是不比 Google、Meta 少的，而他们对 compliance 和 privacy 的要求高于本领自己。

• 右下上限，copilot for citizen dev：

这一个领域还是有相比老练的贬责决策，因而后文的公司 mapping 中不会出现这一象限。之前几代 low-code/RPA 有不少告捷的居品，也有 UIPath 等上市公司和 Retool 等独角兽公司。但他们都停留在 copilot 阶段，其轮廓神色只可援助一部分用户固定的使命流。

反而 excel 成为了最佳的 no-code 居品，匡助大部分常识使命者终线路许多科学推断和统计任务。这是一个预料的历史启示，这一代 AI Coding 居品面对的 "Excel" 是 ChatGPT 这个 5 亿 MAU 的居品，怎么绕过他们的 user base 和最强模子是创业团队们要想考和保抓迭代的问题。

02 State of AI coding landscape

据以上 thesis，咱们对通盘 AI 编程图景下的创业公司进行了 mapping：

• Copilot for pro：笔据开导使命流可以分为 Coding、Testing、Code review 和 Code search。其中中枢价值照旧网络在进口级的 coding 部分。

• Agent for pro：这个领域有两类公司，Coding agent 和 coding model 公司。他们之间最大的各异是是否从新开导模子。前者是基于顶尖 LLM 之上去教授使命流和 agent，而 coding model 类公司则我方从新启动考试 coding-specific 模子。其中并不看好后一类，因为在 LLM 公司的主航说念上。

• Agent for citizen：这个领域的公司当前还莫得光显的接续自慰女孩，咱们可以分为三类。第一类是 task engine，为用户完成任求终了 Prototype 的 Task engine 类公司；第二类是前端网页生成；第三类是 low-code 类使用“乐高”式组件搭建期骗的居品。最终群众的主张可能都是 task engine，仅仅当前群众遴选了不同的道路 bet on。

• Coding 代表公司：Anysphere(Cursor)， Codeium， Augment

Product

专注在编程体验的居品可以分为两类：IDE 和 VSCode extension。两者有各自的上风：我方作念 IDE 能有无缺的居品解放度和用户数据积聚，作念 VSCode Extension 则愈加敏捷、用户迁徙资本相比低。

Cursor 团队在这里的遴选很聪惠，通过 fork VSCode 获取了两个遴选各自的上风。Codeium 也在通过 Windsurf 也都在往 IDE 的标的切入，因为 IDE 照旧更好的进口级居品，能我方积聚数据、有更多 feature 修改的空间，这关于居品构建我方的壁垒至关遑急。

Cursor 在用户体验上花了许多元气心灵，作念到“快”和 next action prediction。这么用户的开导历程即是接续按 Tab，参预很快得到反馈的正轮回中（快=fun，参预心流）。上个月他们收购 Supermaven，即是把居品体验中的“快”作念到极致；这意味着短期内的重点还在东说念主与 AI 的同步相助，o1 这么的异步交互暂时还不在居品干线上。

而 Codeium 团队从 VSCode extension 启动到 IDE，体现出了和 cursor 团队想路的离别。Cursor 更强调编程体验和对用户下一步意图的识别，Codeium 的新址品 Windsurf 更强调高自动化。他们的 Chat 功能比 Cursor 作念得愈加完善，许多用户毋庸 hands-on code 也能完成基础的开导。

同期，他们的居品还体现出了更强的对企业级需求更强的阐发，支柱 on-prem 稀薄模子和多样compliance公约。这里就要提到他们在 GTM 计谋上的巨大各异。

Market

笔据 Sacra 最新敷陈 Cursor 居品 ARR 还是达到 $65M，也即是节略30万付用度户。由于 Cursor 的居品莫得对企业级codebase的心疼，他们的中枢用户照旧硅谷 indie hacker。那他们将来的要道 bet 是 indie hacker 是否能在扫数开导者比例中变高：如果 AI 居品的开导范式下孤立开导者数目达到500万，也就等至今天扫数开导者的 10%，cursor 的商场空间智力达到十亿好意思金。

而企业侧 BD 和开导者商场的增长神色不一样，Codeium 在企业 GTM 缔结单上的才略很强。因为企业数据 compliance 需求不是最顺畅的居品体验，而是在安全、合规等企业留心的标的有。在 Latent Space 的一篇专访中 Anshul 忽视了 enterprise infra native 的意见，强调了要作念金钱500强用户，需要蹧蹋硅谷开导者圈子的mindset：

• 安全：需要支柱多种部署选项，比如 self-host 或羼杂部署；容器化部署（Docker、Kubernetes）是要道，需确保客户环境的数据窒碍。

• 合规：企业对 LLM 使用的考试数据有高度敏锐性，需解说未使用受版权保护或未经许可的数据；数据计帐和数据起原跟踪，确保合规性。

• 个性化：数据质地平直决定个性化后果，需要对数据的时效性和有关性进行评估。，匡助企业通过 fine-tuning/RAG 写出更高质地的代码。数据预处理和基于脚色的走访驱散（RBAC）是要道，幸免因信息整合导致数据表现。

• ROI 分析：生成式 AI 的 ROI 难以量化，通过提供分团队的使用数据，匡助客户优化使用后果、解说价值。

• 鸿沟：企业环境复杂且鸿沟弘大（如数万代码库、数万开导者），需贬责大鸿沟索引和蔓延治理的问题。系统筹算需在高用户量、高数据量的情况下保抓高效平稳。

企业侧的契机可能是更明确的低落果实，仅仅他们面对的竞争是 Github Copilot 极强的分发渠说念。面对竞争时，用 research 去贬责 Github 可能作念不好的方位是至关遑急的。

Research

这些 coding 公司不成只算作期骗层居品公司，而是 research 和居品一体的公司。Cursor 官网称我方为 applied resarch lab，Codeium 官网博客中写了无数对微调/RAG 本领决策的想考，Augment 也在 Retrieval、RL 等方朝上作念了无数探索。

Augment 和 Codeium 更在乎的是企业级本领决策，尤其是 Github Copilot 当前贬责不好的问题。举例 Augment 在贬责的事在数万个企业codebase 中何如精确地作念好 retrieval 和交互阐发。和企业文档 RAG 遭遇的难题访佛，codebase retrieval 需要再行考试专用的 embedding model，对话、补全、跨文献生成需要的embedding 都不一样。Codeium 还想考许多在企业 on-prem/VPC 上部署专用 coding 模子的问题，来达到安全性和智能进程的均衡。

而关于 Cursor，强 reasoning 才略下的异步协同是盘问的中枢标的，对应到里面技俩 shadow workspace。shadow workspace 是 Cursor 为后台 coding agent 筹算的开导空间，这个空间需要能看到 agent 修改激发的 lint 领导信息，况且和 IDE 背后的LSP公约进行充分交互，但不去修改用户本来的文献。AI 和用户会一王人笔据 shadow workspace 下的 Lint 反馈来决定是否进行下一步的迭代。这个历程和 o1 inference time compute 访佛。

Shadow Workspace 早期架构图

• Testing 代表公司：QA Wolf， Momentic， Gru AI

Coding testing 是扫数开导者必经的使命流，来保证代码的准确性。其中有两个常见常见：其一是 unit test，在犬牙交错的系统中，代码被更新之后需要 unit test 来考证其可用性，减少其激发巧合崩溃的概率；其二是前端或期骗开导中，需要对 UI 每一个功能进行交互测试。

测试任务和 codegen 的适配度也很高，因为：其写的历程是高重叠性高，且有规矩可循的；而且这是东说念主类工程师不太安详使命的任务，大部分团队的 unit test 的遮掩率相比低，能侧面施展这少许。

同期 Cursor 团队在访谈中提到过 debug 对 LLM 底座颇有难度，LLM 的考试神色不是去发现失误，要让 LLM 阐发一个看起来不大失误的后续要紧影响是相比难的。因此这里能有孤立创业公司的契机。

这个领域的代表公司中：QA Wolf 是 LLM 出现之前就有的公司，以 Rule-based 的顺序就能终了许多 test case；Momentic 是最近 YC 和 AI Grant 中涌现的技俩，更偏向东说念主和 AI 相助对视觉居品 UI 进行测试；Gru AI 则是为 Unit Test 场景筹算专用的 agent 来端到端企业中的测试需求。

Momentic feature from homepage

• Code Review & Refactor 代表公司：CodeRabbit

Code Review & Refactor 是开导者使命中相比遑急的质地保险使命，非论是企业照旧孤立开导者都需要花期间 review 组织表里部的 PR request。笔据 Techcrunch，50% 的 enterprise developer 每周要花5个小时进行 code review有关使命。

这里的代表公司 CodeRabbit 不到一年的期间内就终线路 $100M+ ARR，是GitHub 和 GitLab 上装配次数最多的 AI app，还是review PR 300万条以上，施展 LLM-native 居品在这个领域还是能提供可以的奇迹。

同期还有更大型的 CI/CD 任务可以被归类为 code refactoring，对代码技俩进行优化和重构，来贬责组织中之前留传的本领债，以致可能对本领架构需要进行重构和迁徙，那即是 Code Migration。这么的需求亦然曲常艰辛、东说念主类工程师不太安详完成的。因此，这成了咱们接下来先容的 Coding agent 公司最早得到 PMF 的场景。

Agent for pro

• Coding agent 代表公司：Cognition (Devin)， Factory

Coding agent 公司的平均融资鸿沟是最大的，因为这些公司的主张是终了 end-to-end 替代东说念主类开导者，终了这个历程的工程量大、浪掷 code tokens 数目大。这个领域的近况可能有两个要贬责的问题：

1) 本领上模子底层推理才略不够。在企业大 codebase 中去无缺的处理问题需要很强的推理才略，去阐发用户和codebase 两头的 context，然后将任务拆解为多个贬责门径。这么的 long-context + long-horizon reasoning 才略智力信得过贬责企业侧复杂的工程问题。

2) 居品上，UI/UX 层需要与东说念主类相助神色的翻新。既然模子的才略还没达到王人备可用，怎么去 involve human in the loop 到相助中即是一个相比难的问题：模子遭遇难的问题时是遴选 inference-time compute 作念搜索照旧友给用户去介入给更多的指点和context？如果这个问题贬责得不好，呈现出的后果可能是，AI 我方使命了 12 个小时之后发现安坐待毙，交给用户也很难在AI 的基础上进行修正。

由于以上问题，咱们推测当前本色能有 PMF 的场景会是 code migration，code refactoring 和 PR commit 等任务。这些任务关于开导者来说通常是 toil 也即是不肯意作念的事情，开导者专注在这些任务上以后可以把元气心灵网络在别的更有创造力的领域。因此当前 coding agent 现阶段作念得更多是从 1 到 100 的事情，还莫得到从 0到 1 的任务上。咱们看好 coding agent 在将来 2 年内会大致承担更多的包袱，不外那需要底层模子的才略和表层 agent 框架的共同突出。

订价问题也很值得想考：传统 dev tool 的订价一般是按使用者数目 seat-based 付费，关于coding agent 而言 consumption-based 付费可能是更合理的订价，优秀的、完成无数任务的 coding agent 价钱可能值得和 junior developer 在吞并个数目级。

• Coding Model 代表公司：Poolside、Magic

Coding 领域对模子才略的要求是不王人备一致的，比如 code tokenizer 对代码中的变量、标记、函数名都要作念专门的切分，以及主流 LLM 的考试所以文本生成为主要主张函数，代码才略看起来是其智能的副居品。因此 Coding model 领域启动出现一些孤立公司：

• Magic 强调颠倒长的 context window，能把企业中复杂的 codebase 无缺读进来贬抑止题，尽量幸免 retrieval；

• Poolside 强调 RL from machine feedback，能把 Git history 中复杂的工程链条无缺贬责。

不外这一领域的公司在 OpenAI、Anthropic 的主航说念上，推敲到 Coding 才略是模子推理才略最佳的proxy，这两家公司的模子一定会在 LLM + RL 的范式下在 coding 才略上抓续突出。

Autopilot for citizen

• Task engine 代表居品：Replit、Websim、Wordware

Task engine 对应的是 search engine，用户得到的不再是基于搜索要道词的网页，而是基于用户需求生成的软件。咱们界说为 task engine 是但愿弱化软件和 code 这些词带来的高门槛意味，coding 才略带来的 killer app 应该是巨匠用户都挑升愿和才略去使用的。

Anthropic Artifact 和 OpenAI Canvas 在一定层面上亦然但愿能终了这个主张，但其居品方法并不是很易用，加上用户对主居品的预期照旧 chatbot。因此当前的 task engine 还在号召行期间，需要一个 GUI 级别的居品翻新来让更多用户能阐发使用。

当前这类居品的方法其实还有很大不合：

• Replit agent: cloud IDE for coding agent。居品使用 chat 多轮对话交互，每一次引申 action 都是渐进式的，遭遇问题会向用户发问来补足context、厘清需求，对话历程访佛开导者和居品司理对需求的历程。这种居品筹算想路用 alignment 贬责了模子多步引申时的可靠性问题，但也要求用户对我方的需求想得相比线路。

• Wordware: Notion for LLM app。居品完成度高，使用体验相比像创作内容，通过 Twitter 嘲讽 bot 找到了很好的viral 增长第一枪。用 Twitter 作为增长源流的神色让东说念主想起了客岁的 Perplexity。成为增长最快的 ProductHunt 居品之后，流量启动快速下跌，高度依赖头部流量居品是 Wordware 当前的挑战。

• Websim: 用访佛 Google Chrome 的粗拙 UI，打造了一个用户能同期创作和消费 web app 的居品。这个居品的联想空间很大，用户可以在上头基于用户的 template 络续生成和修改，有点像 Canva 的模板化想路。而且用户在 Websim 上打造的网站每一个超连续可以络续点击并深远生成新的网站。不外他们的居品筹算细节还欠打磨，有点访佛 C.ai 有一个很好的框架但在居品上不够极致。

• 前端生成代表公司：Vercel (V0)、Stackblitz (Bolt.new)

这一领域的公司之前就在前端框架和部署领域有相比深的积聚。举例 Vercel 是 Next.js 框架的发明者，主要业务是前端网站的部署，ARR 也还是达到 1 亿好意思金以上，咱们之前有过详备的盘问。他们的 Vercel V0 居品一直在突出，非论是审好意思立场照旧对话修改上的体验都比刚发布时优秀许多。另一个很火的居品是 bolt.new，也能通过一句话把居品需求变成可以的 web app 居品。其突出速率更快，相似的prompt 每一两周都能看到其生成质地的突出。

这类居品的后果还是接近可用了，不外本色抓续使用的时候会遭遇一些问题。web app 生成出来的 demo 十分优秀，但由于其本领栈相比杂，生成的居品信得过启动有鸿沟之后很难看重和治理。因此前端生成的将来 use case 很可能是 desposable application，这个网页的生成即是为了奇迹某个临时、长尾的需求，并毋庸为更大的群体、更长的期间去看重。

前端是开导中相对好上手的领域，因此之前每一代 Low-code/No-code 都会讲前端民主化的故事，降生了 Wordpress、Wix、Spacesquare 以致 Shopify 这么的公司。通盘商场很大，但需求相比龙套，商场头部网络度不高。AI 前端生成当前看起来很有远景，但他们是否能收拢无数增量需求，以致代替以前的存量需求呢？这平直决定了其商场鸿沟的上限。

03 Open Discussion

1）Coding 才略的民主化？不，是软件工程的民主化。

本阐发带来一个领域的民主化，这是许多领域都发生过的故事，举例 Canva 成为了筹算师民主化的一站式模版和筹算平台。而开导领域是否会有这么的民主化故事呢？

咱们觉得 Coding 才略不会发生民主化，但软件工程会。这意味着软件的制酿资本会跟着 AI coding 带来大幅下跌，但用户不一定需要阐发 code 编程是怎么操作并引申的，只需要领会 high level 的运行逻辑即刻。也即是说，用户们不需若是开导者，但需若是我方需求的居品司理。

2）UI/UX：同步与异步，GUI 时刻的到来。

将来的开导体验可能由同步和异步组成：同步的部分，开导者一边写代码，AI 一边在后台同步作念 code testing/review/optimization；异步的部分，o1范式下的 inference-time compute 能把 coding 任务拆解为多个子任务，推理出最合适的贬责决策并我方考证。

而将来更广义的 AI coding 亦然如斯，许多软件都是及时笔据 context 来及时生成，而信得过复杂的任务则不需要交互，AI 能异步的完成并通过邮件等神色向用户同步。

当前的居品交互使用门槛还偏高，访佛 GUI 到来前的号召行时刻。恭候新友互到来时，AI 期骗的空间会被怒放，coding 领域可能是起初考证和感知到的。

本文作家：Cage自慰女孩，起原：外洋独角兽，原文标题：《AI Coding 最全图谱：Agent 将怎么颠覆软件》

风险领导及免责条目商场有风险，投资需严慎。本文不组成个东说念主投资建议，也未推敲到个别用户特殊的投资主张、财务情状或需要。用户应试虑本文中的任何意见、不雅点或论断是否合适其特定情状。据此投资，包袱自夸。

自慰女孩 AI Coding 最全图谱：Agent 将怎么颠覆软件

上一篇：汤芳艳图华纳药厂中药立异药乾清颗粒顺利完成Ⅱ期临床磨练

下一篇：パナソニック分電盤大形リミッタースペースなし露出・半埋込両用形 “未批先建”，县政府一度成失信东说念主，包袱谁担？

热点资讯

相关资讯

自慰 女孩 AI Coding 最全图谱：Agent 将怎么颠覆软件

上一篇：汤芳艳图 华纳药厂中药立异药乾清颗粒顺利完成Ⅱ期临床磨练 下一篇：パナソニック 分電盤 大形リミッタースペースなし 露出・半埋込両用形 “未批先建”，县政府一度成失信东说念主，包袱谁担？

热点资讯

相关资讯

自慰女孩 AI Coding 最全图谱：Agent 将怎么颠覆软件

上一篇：汤芳艳图华纳药厂中药立异药乾清颗粒顺利完成Ⅱ期临床磨练

下一篇：パナソニック分電盤大形リミッタースペースなし露出・半埋込両用形 “未批先建”，县政府一度成失信东说念主，包袱谁担？