6月30日,Anthropic发布了Claude Sonnet 5。

这是一款中端模型,Sonnect系列里"最能干活"的。代理能力测试SWE-bench Pro上跑出63.2分——离旗舰Opus 4.8的69.2分只差6分。另一个维度上,研究生级推理测试GPQA-AAA v2上,Sonnet 5反倒压了Opus 4.8一头。

定价更关键。优惠期内每百万输入token收2美元,输出10美元。Opus 4.8对应的价格是5美元和25美元——Sonnet 5用四到六成的价格,跑出了旗舰九成以上的能力。

这条新闻可以有两种读法。

第一种:AI又变便宜了。成本下降利好所有人,Chatbot战争继续,模型厂商卷生卷死。

第二种——也是市场正在定价的——模型越便宜,算力和存储反而越贵。

Claude Sonnet 5发布当天,美国半导体指数涨近4%。过去三年的AI叙事里有一条明线:推理效率会干掉芯片需求。但这个判断在每一个数据节点上都错了。

降价:三年降了一千倍

先看降价这条线。

2022年,GPT-4级别API调用成本约每千token 0.03美元。到2025年,同等性能级别模型的价格——按斯坦福AI Index Report的口径——降了约280倍。加上开源和效率提升的综合效应,业界公认的降幅是 1000倍。

降了不只一种模型,是每一家都在降。

Anthropic这次Sonnet 5对标Opus 4.8的能力密度,定价只有四到六成。Google的Gemini Omni Flash视频生成每秒0.10美元,Nano Banana 2 Lite图像模型4秒出图、每千张只要0.034美元——是前代的一半。DeepSeek-V4-Pro把百万token输入打到了0.035美元的水平。

降价不止发生在定价表上。

6月24日,The Information报道OpenAI在内部找到了一项纯软件优化技术——某个运算环节的GPU需求被砍掉了一半不止,专用GPU池子从几千台骤降到几百台。同月,Meta提出了Vistara方案:把退役服务器拆下来的DDR4内存通过自研CXL芯片重新接上,和DDR5按3:1搭配,推理服务器成本压降25%。

到了6月30日,阶跃开源了推测解码技术JetSpec——大模型推理速度可以提升近10倍。换算下来,同样的token输出量,需要的GPU数可以陡降一个数量级。

如果AI是一个传统的成本-需求函数,这些信号应该指向一件事:未来需要的芯片变少了。

华尔街是这么恐惧的。

1月DeepSeek发布R1的那个周末,AI基础设施股经历了近年最猛烈的抛售。AI云公司Nebius股价暴跌40%。故事线很简单:中国开源模型用0.1美元卖token,美国公司花2美元,算力需求必然坍缩。

爆炸:总支出反涨320%

但实际发生的事情完全相反。

Nebius联合创始人Roman Chernin后来回忆:DeepSeek引发恐慌的那个星期,"可能是我们销售最好的一周"。公司采购部门看到成本骤降后的第一反应不是砍预算,而是终于可以大规模跑推理了。

2024年,全球企业的生成式AI总支出约115亿美元。2025年,这个数字飙升到了370亿美元——一年涨了 320%。按Menlo Ventures的企业调研,中位企业在2025年运行着"数十个"AI应用,而2023年这个数字是1到2个。

各个维度的数据都在同一条曲线上:

Uber在2026年4月就已经烧完了全年的AI预算。AT&T目前日处理270亿token——18个月前,这个数字是8亿。一家美国大型医保公司,月token消耗从300万一口气冲到了1.5亿以上。

拆开看,增长来自三个方向的叠加。

第一是应用扩散。每家企业的营销部用了3个AI工具,销售部4个,客服部2个,加上法务、HR、财务——从2个到几十个,这是数量级的跳跃。

第二是单应用深度。以客服AI为例:2023年日交互量约500次,每次约800个token,做完对话就结束。到2025年,日交互15000次,每次约4500个token,每次交互还要再触发3到5次后续推理——情感分析、升级预测、质量评分——全部叠加在同一个入口上。

第三是模型本身的复杂度升级。从7B参数的单轮模型,升级到70B以上的多步推理代理,每一轮内部推理所消耗的token是线性交互的几十倍到上百倍。

换句话说,token成本降到了千分之一,市场用掉的token数涨了数万倍。乘起来的净效应只有一个方向:支出爆炸。

Token消耗量每两个月翻一倍——多条独立线索拼出了同一个数字。把这条指数曲线画到2027年,企业AI年支出破千亿美元是算术问题,不是预测问题。

传导:存储涨了六倍,芯片基建指向7.6万亿

降价刺激出的需求没有停留在软件层。

存储器价格的涨幅,是AI需求从模型层向硬件层传导最直接的信号。

2025年三季度起,DRAM和NAND Flash现货价格累计涨幅均超过300%。DDR5颗粒在单月内涨幅一度突破90%。进入2026年,涨价不但没停,反而加速了。

一季度DRAM合约价涨幅从预期的55%-60%被上修到90%-95%;NAND从33%-38%上修到55%-60%。二季度TrendForce的预测是DRAM再涨58%-63%,NAND再涨70%-75%。

以消费级产品为锚:宏碁掠夺者32G DDR5 6000套条,2025年10月底价格还在1300元,到2026年1月已经飙到2700元。三个月翻倍,放在消费品市场上极其罕见。

三星存储业务在2025年四季度录下单季营业利润历史新高——突破20万亿韩元、约合人民币962亿元。而这一年多的涨势最根本的推力并非来自手机或PC的消费级换代,而是AI数据中心对HBM、企业级SSD、高密度DRAM的巨量采购。

高盛5月的一份报告把这笔账算到了极致。

报告预测,2026年到2031年全球AI基础设施累计资本支出约7.6万亿美元。2026年单年7650亿美元,到2031年攀升至1.6万亿。其中,单颗基准GPU(基于NVIDIA VR200 Rubin)按8.05万美元计算,NVIDIA占各期总算力支出的75%。

高盛在报告里还追问了一个关键问题:如果ASIC(专用芯片)大量替代GPU,是否能削减总需求?

答案是分情况的。如果需求缺乏弹性——企业的AI算力需求是固定的——ASIC替代可以直接降低总资本需求。但如果需求有弹性——算力越便宜就买得越多——芯片组合的改变主要重塑的是利润在不同供应商之间的分配,而不是总支出规模。

高盛的基准情景选的是后者。

美股价格也在往同一个方向走。闪迪自年初以来涨了857%,Bernstein在6月30日的报告中将目标价上调至3000美元。AMD一天涨7%创历史新高。做GPU的、做存储的、做封装的、做数据中心设备的——全部在新高附近。

Edgen.tech在6月11日的综述文章里引用的这个数字最有冲击力:内存芯片价格在过去一年里涨了六倍。

"周期性回升"这个标签贴不上去。涨了六倍的东西,背后是整个经济体系的需求在重新定价AI的物理基础设施。

根源:Jevons在1865年就已经回答过

威廉·斯坦利·杰文斯在1865年写了一本书叫《煤炭问题》。

他的核心观察是:瓦特改良蒸汽机后,单位煤耗大幅下降,英国的煤炭总消费量反而不降反升。因为效率提升意味着蒸汽动力在更多行业成本可接受了——纺织、铁路、采矿、航运——每一个新场景都创造出了原来不存在的煤炭需求。

160年后,同样的公式在AI算力上重演了。

企业算过账。2022年的token价格下,实时推理客服对话在经济上不可行。非紧急场景不值得跑AI。个性化内容生成只能做细分群体级别,做不到用户级别。到了2025年,价格降了1000倍,这些"原来不存在的需求"全变成了刚需。

Nebius的Chernin给了一句最直接的总结:"每一次我们让同样单位的智能变得更便宜,我们不是在减少消耗,而是在增加消耗——因为同样的预算可以解决更复杂的任务了。"

市场忽略了另一个结构性推力:毛利率的正反馈。

AI推理的毛利率曲线在历史上找不到对应物。一家提供API的公司,起步阶段毛利率可能只有10%——模型训练贵、推理贵。但软件优化(算子融合、量化、推测解码)每个月都在压推理成本,而定价调整总是慢半拍。于是毛利率从10%爬到90%的速度比任何传统行业都要短。

毛利率驱动利润,利润追加采购,采购摊薄成本——正反馈回路,没有天花板。

"你有DRAM就能卖token,没有DRAM就无法卖token。"这句话正在成为AI芯片需求的基本方程。

高盛报告的两个敏感性假设也在加深同一个判断。芯片经济寿命如果从5年缩到3年,替换周期加速,累计资本需求直接上台阶。每芯片内存比预期高25%——主要改变的是芯片堆栈内部的支出分配,对7.6万亿总盘子的净影响有限,但方向是同一个:钱不会少花。

终局:谁握住了算力

Fable 5出口管制解除——6月12日禁、6月30日解,前后三周——给了这个悖论一个意外的注脚。

管制的理由是"国家安全风险"。解除管制跟风险消失没关系——替代品出现了。Tulongfeng等亚洲团队在管制期内推出了接近Mythos级的模型,封锁的威慑力迅速归零。解禁是现实使然,跟善意无关。

这段插曲恰好卡在AI降本悖论的主线上:模型是可替代的。从GPT到Claude到DeepSeek到开源模型,没有人能垄断AI的能力本身——有人设卡,就有人绕路。

硬件不是这套逻辑。

GPU不行。DRAM不行。晶圆厂的建设周期以年为单位。光刻机的产能上限是固定的。高纯度硅的供给弹性近乎零。这些都是物理定律,不是商业策略。软件优化可以压模型成本一千倍,但压不下一个晶圆厂的建设周期一天。

AI模型降价的终点,如果这个悖论继续跑下去,不指向去算力化——指向算力定价权的再集中。不管你用的是谁的模型,token都得跑在某人的芯片上。模型厂商卷价格的每一分钱,最后都变成了数据中心、晶圆厂和存储产线账簿上的收入。降本越凶,这个转移越不可逆。

风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。