AI越便宜，芯片越贵

6月30日，Anthropic发布了Claude Sonnet 5。

这是一款中端模型，Sonnect系列里"最能干活"的。代理能力测试SWE-bench Pro上跑出63.2分——离旗舰Opus 4.8的69.2分只差6分。另一个维度上，研究生级推理测试GPQA-AAA v2上，Sonnet 5反倒压了Opus 4.8一头。

定价更关键。优惠期内每百万输入token收2美元，输出10美元。Opus 4.8对应的价格是5美元和25美元——Sonnet 5用四到六成的价格，跑出了旗舰九成以上的能力。

这条新闻可以有两种读法。

第一种：AI又变便宜了。成本下降利好所有人，Chatbot战争继续，模型厂商卷生卷死。

第二种——也是市场正在定价的——模型越便宜，算力和存储反而越贵。

Claude Sonnet 5发布当天，美国半导体指数涨近4%。过去三年的AI叙事里有一条明线：推理效率会干掉芯片需求。但这个判断在每一个数据节点上都错了。

降价：三年降了一千倍

先看降价这条线。

2022年，GPT-4级别API调用成本约每千token 0.03美元。到2025年，同等性能级别模型的价格——按斯坦福AI Index Report的口径——降了约280倍。加上开源和效率提升的综合效应，业界公认的降幅是 1000倍。

降了不只一种模型，是每一家都在降。

Anthropic这次Sonnet 5对标Opus 4.8的能力密度，定价只有四到六成。Google的Gemini Omni Flash视频生成每秒0.10美元，Nano Banana 2 Lite图像模型4秒出图、每千张只要0.034美元——是前代的一半。DeepSeek-V4-Pro把百万token输入打到了0.035美元的水平。

降价不止发生在定价表上。

6月24日，The Information报道OpenAI在内部找到了一项纯软件优化技术——某个运算环节的GPU需求被砍掉了一半不止，专用GPU池子从几千台骤降到几百台。同月，Meta提出了Vistara方案：把退役服务器拆下来的DDR4内存通过自研CXL芯片重新接上，和DDR5按3:1搭配，推理服务器成本压降25%。

到了6月30日，阶跃开源了推测解码技术JetSpec——大模型推理速度可以提升近10倍。换算下来，同样的token输出量，需要的GPU数可以陡降一个数量级。

如果AI是一个传统的成本-需求函数，这些信号应该指向一件事：未来需要的芯片变少了。

华尔街是这么恐惧的。

1月DeepSeek发布R1的那个周末，AI基础设施股经历了近年最猛烈的抛售。AI云公司Nebius股价暴跌40%。故事线很简单：中国开源模型用0.1美元卖token，美国公司花2美元，算力需求必然坍缩。

爆炸：总支出反涨320%

但实际发生的事情完全相反。

Nebius联合创始人Roman Chernin后来回忆：DeepSeek引发恐慌的那个星期，"可能是我们销售最好的一周"。公司采购部门看到成本骤降后的第一反应不是砍预算，而是终于可以大规模跑推理了。

2024年，全球企业的生成式AI总支出约115亿美元。2025年，这个数字飙升到了370亿美元——一年涨了 320%。按Menlo Ventures的企业调研，中位企业在2025年运行着"数十个"AI应用，而2023年这个数字是1到2个。

各个维度的数据都在同一条曲线上：

Uber在2026年4月就已经烧完了全年的AI预算。AT&T目前日处理270亿token——18个月前，这个数字是8亿。一家美国大型医保公司，月token消耗从300万一口气冲到了1.5亿以上。

拆开看，增长来自三个方向的叠加。

第一是应用扩散。每家企业的营销部用了3个AI工具，销售部4个，客服部2个，加上法务、HR、财务——从2个到几十个，这是数量级的跳跃。

第二是单应用深度。以客服AI为例：2023年日交互量约500次，每次约800个token，做完对话就结束。到2025年，日交互15000次，每次约4500个token，每次交互还要再触发3到5次后续推理——情感分析、升级预测、质量评分——全部叠加在同一个入口上。

第三是模型本身的复杂度升级。从7B参数的单轮模型，升级到70B以上的多步推理代理，每一轮内部推理所消耗的token是线性交互的几十倍到上百倍。

换句话说，token成本降到了千分之一，市场用掉的token数涨了数万倍。乘起来的净效应只有一个方向：支出爆炸。

Token消耗量每两个月翻一倍——多条独立线索拼出了同一个数字。把这条指数曲线画到2027年，企业AI年支出破千亿美元是算术问题，不是预测问题。

传导：存储涨了六倍，芯片基建指向7.6万亿

降价刺激出的需求没有停留在软件层。

存储器价格的涨幅，是AI需求从模型层向硬件层传导最直接的信号。

2025年三季度起，DRAM和NAND Flash现货价格累计涨幅均超过300%。DDR5颗粒在单月内涨幅一度突破90%。进入2026年，涨价不但没停，反而加速了。

一季度DRAM合约价涨幅从预期的55%-60%被上修到90%-95%；NAND从33%-38%上修到55%-60%。二季度TrendForce的预测是DRAM再涨58%-63%，NAND再涨70%-75%。

以消费级产品为锚：宏碁掠夺者32G DDR5 6000套条，2025年10月底价格还在1300元，到2026年1月已经飙到2700元。三个月翻倍，放在消费品市场上极其罕见。

三星存储业务在2025年四季度录下单季营业利润历史新高——突破20万亿韩元、约合人民币962亿元。而这一年多的涨势最根本的推力并非来自手机或PC的消费级换代，而是AI数据中心对HBM、企业级SSD、高密度DRAM的巨量采购。

高盛5月的一份报告把这笔账算到了极致。

报告预测，2026年到2031年全球AI基础设施累计资本支出约7.6万亿美元。2026年单年7650亿美元，到2031年攀升至1.6万亿。其中，单颗基准GPU（基于NVIDIA VR200 Rubin）按8.05万美元计算，NVIDIA占各期总算力支出的75%。

高盛在报告里还追问了一个关键问题：如果ASIC（专用芯片）大量替代GPU，是否能削减总需求？

答案是分情况的。如果需求缺乏弹性——企业的AI算力需求是固定的——ASIC替代可以直接降低总资本需求。但如果需求有弹性——算力越便宜就买得越多——芯片组合的改变主要重塑的是利润在不同供应商之间的分配，而不是总支出规模。

高盛的基准情景选的是后者。

美股价格也在往同一个方向走。闪迪自年初以来涨了857%，Bernstein在6月30日的报告中将目标价上调至3000美元。AMD一天涨7%创历史新高。做GPU的、做存储的、做封装的、做数据中心设备的——全部在新高附近。

Edgen.tech在6月11日的综述文章里引用的这个数字最有冲击力：内存芯片价格在过去一年里涨了六倍。

"周期性回升"这个标签贴不上去。涨了六倍的东西，背后是整个经济体系的需求在重新定价AI的物理基础设施。

根源：Jevons在1865年就已经回答过

威廉·斯坦利·杰文斯在1865年写了一本书叫《煤炭问题》。

他的核心观察是：瓦特改良蒸汽机后，单位煤耗大幅下降，英国的煤炭总消费量反而不降反升。因为效率提升意味着蒸汽动力在更多行业成本可接受了——纺织、铁路、采矿、航运——每一个新场景都创造出了原来不存在的煤炭需求。

160年后，同样的公式在AI算力上重演了。

企业算过账。2022年的token价格下，实时推理客服对话在经济上不可行。非紧急场景不值得跑AI。个性化内容生成只能做细分群体级别，做不到用户级别。到了2025年，价格降了1000倍，这些"原来不存在的需求"全变成了刚需。

Nebius的Chernin给了一句最直接的总结："每一次我们让同样单位的智能变得更便宜，我们不是在减少消耗，而是在增加消耗——因为同样的预算可以解决更复杂的任务了。"

市场忽略了另一个结构性推力：毛利率的正反馈。

AI推理的毛利率曲线在历史上找不到对应物。一家提供API的公司，起步阶段毛利率可能只有10%——模型训练贵、推理贵。但软件优化（算子融合、量化、推测解码）每个月都在压推理成本，而定价调整总是慢半拍。于是毛利率从10%爬到90%的速度比任何传统行业都要短。

毛利率驱动利润，利润追加采购，采购摊薄成本——正反馈回路，没有天花板。

"你有DRAM就能卖token，没有DRAM就无法卖token。"这句话正在成为AI芯片需求的基本方程。

高盛报告的两个敏感性假设也在加深同一个判断。芯片经济寿命如果从5年缩到3年，替换周期加速，累计资本需求直接上台阶。每芯片内存比预期高25%——主要改变的是芯片堆栈内部的支出分配，对7.6万亿总盘子的净影响有限，但方向是同一个：钱不会少花。

终局：谁握住了算力

Fable 5出口管制解除——6月12日禁、6月30日解，前后三周——给了这个悖论一个意外的注脚。

管制的理由是"国家安全风险"。解除管制跟风险消失没关系——替代品出现了。Tulongfeng等亚洲团队在管制期内推出了接近Mythos级的模型，封锁的威慑力迅速归零。解禁是现实使然，跟善意无关。

这段插曲恰好卡在AI降本悖论的主线上：模型是可替代的。从GPT到Claude到DeepSeek到开源模型，没有人能垄断AI的能力本身——有人设卡，就有人绕路。

硬件不是这套逻辑。

GPU不行。DRAM不行。晶圆厂的建设周期以年为单位。光刻机的产能上限是固定的。高纯度硅的供给弹性近乎零。这些都是物理定律，不是商业策略。软件优化可以压模型成本一千倍，但压不下一个晶圆厂的建设周期一天。

AI模型降价的终点，如果这个悖论继续跑下去，不指向去算力化——指向算力定价权的再集中。不管你用的是谁的模型，token都得跑在某人的芯片上。模型厂商卷价格的每一分钱，最后都变成了数据中心、晶圆厂和存储产线账簿上的收入。降本越凶，这个转移越不可逆。

风险提示及免责条款市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。