先回顾LLM从2022年到2025年这四年间走过十个阶段。阶段与阶段之间在时间上有overlap。
阶段一:2021年,GPT-3被发明,但是还没被大众看见。Jasper率先看到生成的力量,做出了AI Marketing的软件。2022年11月,ChatGPT 3.5横空出世,Jasper被碾过。ChatGPT 3.5让人看到RLHF的力量,大力出奇迹,算法+算力+数据=上帝。Take away是,通用大模型会吃掉所有垂类应用。
阶段二:2023年2月,Llama出现,大家都觉得可以练自己的通用大模型,砸钱练模型,百模大战出现。套壳这个词已经出现并且带有贬义,有人批评李开复的零一万物是套壳,也有很多人批评各种AI集合工具是套壳。不过前者虽然说模型套壳,但是数据和后训练算力还是得砸钱的,人们普遍认为还是有技术含量和壁垒的。
阶段三:随后很多模型大规模消失。这些模型存在的问题在于,没人用,没收入,没前景。仅靠微调和后训练模型,并不能带来差异化和竞争力。不少C端用户最终又会流到ChatGPT,因为往往体验更好、成本更低。同样的,ToB企业做了POC,或者做成政绩工程,但是难以广泛部署,客户留存率低。事实上证明,全世界并不需要100个不同的模型,可能只需要10来个模型(OpenAI, Anthropic, Gemini, Grok, Llama, DeepSeek, Qwen, Kimi……)。2023年底,八成拿到融资的大模型公司面临困境或者转型。换句话说,通用大模型是有头部效应的。
阶段四:2023年到2024年初,AI应用兴起。AI硬件是比较失败的,比如2024年初的Rabit R1、Humane Pin和Rewind,宣称能直接帮你执行任务(点外卖、订机票、发消息)而非仅对话,发布当天预售 10 万台,首批发货后被集体吐槽完全无法执行操作。本质是ChatGPT的套壳,而GPT模型能力还不够,还只能对话,准确性、可控性都比较差。也有成功的AI应用,比如Character.AI成为现象级产品,启发了不少模仿者,比如Glow、豆包、Talkie等。AI搜索Perplexity月活超过千万。Cursor借着一个IDE的壳子做了coding AI。这些是好的例子。这个阶段,大家认为训练通用大模型太费钱,但是已有的通用大模型又不够好,所以垂直场景下Post-train和finetune模型,是很有用的。
阶段五:Character.AI还是消失在了2024年,被谷歌收购。这个产品的问题在于,高留存低变现,收入cover不了算力投入,更别说模型训练了。而且GPT-4、Claude 3、Gemini 1.5等通用模型的上下文理解、人格一致性、语音合成等能力全面超越c.ai的定制小模型。Perplexity也没有对Google搜索带来致命打击,直接在ChatGPT里面用Prompt Engineering提示词工程的效果也很好。出现了用提示词在ChatGPT玩的mud AI游戏产品。胡修涵的捏TA迎来了Pre-A轮、沈洽金的造梦次元凭借豆包token消耗量获得A轮融资,陈冕的liblib熬过了账上最低只有10万人民币余额的日子。训练垂直模型有用,但不一定划算,关键是场景和积累用户。
阶段六:2024年9月,OpenAI发布第一个推理模型o1。随后,OpenAI定义的人工智能发展的5个阶段。L1是Chatbot,L2是推理,L3是Agent,L4是创新者,L5是组织者。宣告当前进入L2。推理让回答的质量大大提升,成为SOTA模型的标配,2025年春节爆火的DeepSeek也是R1推理模型(V3虽然发布得早,但没R1那么火)。还得搞通用大模型,“强化学习的胜利”——戴宇森。
阶段七:“推理能力提升带来Agent机会”(戴宇森,2025年3月小宇宙),2025年被预言为Agent元年。2024年12月全球首个AI Agent程序员Devin上线,月费500美元。实际上这些Agent产品为什么成立,是因为Anthropic推出了最强的coding模型Claude 3 Sonnet。Cursor的大规模应用,不是在2023年推出的时候。此时,有一个说法,AI应用不该过早优化大模型肯定会做的事情,而应该预判模型能力接下来怎么进化,先做好其他事情,然后等着模型进化。我印象这句话是Monica的肖弘在小宇宙里说的。
阶段八:Agent究竟是什么,怎么做,有好多定义。模型厂商和应用厂商分别往中间的应用地带进军。Google讲的是记忆、Tool Use、计划、行动,这些应该是end-to-end强化训练的模型能力;Kimi的杨植麟认为,Agent应用就得大模型自己做,因为大模型训练的团队才知道,这个模型的agent能力怎么发挥出来;而应用厂商可以干Orchestration编排和Scaffolding脚手架。此时的Agent应用,不是写报告,就是写小网站。
阶段九:在end-to-end训练的大模型能力以外,应用厂商还可以创新怎么用好模型的其他方式。在2025年7月的Blog文章中,把Prompt Engineer的名词又被捡起来,但是升级为Context Engineering。“Manus将押注于上下文工程,这使我们能够在几小时而非几周内交付改进,并使我们的产品与底层模型保持正交。”包括围绕KV-cache缓存进行设计;动态mask;使用to-do.md文件系统作为上下文;通过复述操控注意力等。这些内容,既不是在训练模型,但也不是定死的workflow,那应该算啥呢?
阶段十:AI创作的内容量开始出现超过人类创作数量的迹象,但是AI内容的浏览量和带来的收入仍然非常低。可以说,在2024年以前,AI写的东西属于还不错,但很多人都看得出是AI,还不能完完全全看进去里面的内容。如果来量化AI渗透率的话,应该是在个位数百分比。2025年春节,有两篇文章爆火,分别是《临安城下的数字长城:83小时击退2.3亿次/秒的赛博匈奴》,以及知乎上自称是梁文峰的账号在知乎发文,回应冯骥盛赞deepseek是国运级别一事。这两篇文章,都是AI写的,但是大部分人根本看不出来,大量转发和点赞。可以说,这一周,这是AI文的iPhone时刻,是有划时代的意义。
从那时开始,AI文字的渗透率快速到提升。这个比例国外有Graphite统计已经超过50%,国内微信公众号长文体感上已经大部分是AI创作的了。只有超过双位数的渗透率,AI文字内容才真正进入人类宏观社会活动。但到达这个程度,又不只是看单个内容的质量的绝对水平是否比之前的高了,而是宏观价值规律开始发挥作用。对消费者而言,如果一个平台都是AI写的文章,为什么我要花时间去看呢;平台为了维护真人创作者的利益,会打压AI内容,供给量很大,消费量被控制在一个很小的比例,而且能分享的收入更低;AI内容与AI内容之间竞争加剧,导致单篇AI文字内容的消费量和收入远低于平均水平。
我相信还没完,后面还有阶段十一、十二、十三……
不同阶段在大模型厂商和应用团队之间来回震荡,兴兴衰衰。
贝索斯提醒我们,要问什么会不变。
1、对模型厂商而言,反复证明了技术是有头部效应的。大模型的厂商们的每一次的兴起都是找到某个scaling law的新的范式;而每一次往应用端移动,都是因为垂类模型被更新的通用模型吃掉。模型厂商只能做头部的几个,没有一个中小厂商能穿越周期。
之所以垂类模型会被头部通用模型吃掉,说明了AI还是遵循规模定律scaling law而不是边际效益递减规律law of diminishing marginal return. AI还在快速增长期,留给垂类模型变现的时间窗口越来越短,投入的模型研发的ROI是很难打正的,市场买单价格也涨不上去,没法bootstrapping。
这跟新药研发不一样。新药研发虽然成本也很高,但是一旦研发出来后,通过专利保护可以享受8-12年商业独占期,而且新药价格能卖很高,单个成功药物的生命周期累计利润通常可达10–50亿美元。所以新药研发的ROI是可以循环打正的。没有一个垂类大模型,能享有上亿美金的利润——能有千万美金的收入就不错了。
2、成功的应用公司需要一直推出新产品,但上一代产品的用户积累和技术积累,在新一代产品中并没啥用。比如liblib积累的创作者,等到推出lovart产品时还得重新获客;Monica的客户,也不能直接迁移到Manus。积累的技术栈,也没有太大的关系。看起来,应用层做上一代产品的意义,就是让创始团队能保持技术敏锐和市场敏锐,泡在水里与气候同频。这就导致了应用层的新陈代谢更残酷。很多增长的用户DAU,甚至创作者群体数量,实际上并不能真正积累下来。
3、技术能力和应用渗透率提高到一定水平,人类作为集体社会性动物的特点就要开始呈现了。需要借鉴人类历史、社会和宏观价值规律。
技术和权力并不总是直线发展的,而是有反复的。技术进步了,掌握技术者的力量就增强了。但是社会里还有其他力量来制衡,比如占据流量分配权力的平台、占据现实世界社会规则制定权力的社会阶层、使用技术的人、消费技术的用户等都是stakeholders。
世界上的每一个人都希望找到自己的定位,怎么从技术的发展中获益。要么是使用技术的人先建立比较优势,要么消费技术的用户先享受世界。如果只有极少数人能在一项技术中获益,那么这项技术一定会面临来自四面八方的攻击,无法团结一切可以团结的力量。
假设核武器掌握在希特勒手里,希特勒利用这个力量还控制了整个纳粹德国成体系的力量,那不是天下无敌?这些人的力量就会极大增强,但也会因此怀璧其罪。届时,反对他的人不只是纳粹德国的敌人,可能纳粹德国的中层也会有一大批人反对他。技术虽厉害,没法保证这个技术的benefit就归属于开发这项技术的人。
而现实世界制定社会规则的人,拥有国家暴力、民众基础的人,在产出的分配上有更强的话语权。流量平台实际上就是制定线上规则的人,今天中国互联网创作者有上亿,是不是大部分收入都被平台拿走了。
过去是学者名人跟国家成建制的体系合谋,今天是创作者和平台合谋。是否每个社会都想要让技术的benefit归属于开发这个技术的人?不一定的。对技术突破有期待的社会才有动力解决这个问题,可以通过专利制度、知识产权保护制度来给发明人分配利益进行保护,并依靠司法机关的力量打击侵权。这就叫做通过成建制的体系和学者合谋。过去的媒体也是金字塔式的,CCTV是最大DAU的媒体,学者从地方台一路走到CCTV金字塔顶端,成为官方认证的名人,就跟科举似的。这个合谋的过程,技术给社会提供什么价值?是让社会总体价值增加的还是耗散的,是让社会熵增的还是促进社会熵减的?这个问题不需要由技术开发人来回答,但是技术开发人应当对社会其他人会怎么回答这个问题有所感知。
视频模型,现在大概走到第二到三阶段之间。阶段一从2023年animateDiff开始,到2024年SORA和可灵出来;阶段二是大家都各自练模型(可灵、即梦、爱诗、PIKA、VIDU、Sand.AI);阶段三是一些中型模型厂商开始掉队,厉害的还是得是大厂(Sora2, Veo3)。如果是阶段二到三,还只相当于LLM的2023年,下一步就是进入“应用兴起”的阶段四,很多人觉得已经可以用了开始执行复杂应用任务了,就开始开发各种应用。经过一段时间后会发现好像模型能力还不行,还得再调一调、训一训,但是最终被构建了场景并等待更强大的基模出现的产品超过(阶段五)。

发表回复