共计 4434 个字符,预计需要花费 12 分钟才能阅读完成。
无论是使用 AI 聊天机器人的个人用户,还是基于大语言模型开发应用程序的企业,今年都可能要为这项技术支付更多费用。好在,仍有办法可以控制成本。
我们正身处“令牌经济”时代。每一段内容——文字、图像、声音等——在 AI 模型眼中都被视为名为“令牌”的基本工作单元。当用户在 ChatGPT 的对话框里输入问题并收到回复,或是开发者在自己的应用中调用 API 实现类似功能时,输入和输出的数据都会按令牌计费。
因此,只要使用 AI,“计价器”就一直在跳动。每个令牌都在累积成本,而总账单预计只会越来越高。
芯片成本攀升
价格上涨最直接的原因,是 OpenAI、谷歌、Anthropic 等 AI 服务商在构建和运营底层基础设施上的成本持续增加。随着这些公司的支出上升,AI 服务的价格自然水涨船高。
成本最高的环节是用于接收输入令牌的 DRAM 内存芯片。将令牌保存在内存中以供后续使用,需要越来越多的 DRAM。
受 AI 基础设施热潮推动,DRAM 芯片供应紧张,价格同比上涨 20%,且未见回落迹象。由于 AI 领域最先进的内存——高带宽内存(HBM)成本更高,涨幅甚至更为显著。
全球主要 DRAM 制造商之一美光科技的 CEO 桑杰·梅赫罗特拉上个月向华尔街分析师表示:“包括 HBM 在内的所有 DRAM 的需求与供应缺口,是我们见过最大的。”
这种芯片通胀将首先由谷歌等构建 AI 服务(如 Gemini)的巨头承受,但它们无疑会把上涨的成本转嫁给用户。
不仅如此,越来越多数据中心开始采用 NAND 闪存芯片(这种芯片也用于智能手机的长期数据存储)。美光 CEO 指出,NAND 芯片的价格也在飙升。
盈利压力凸显
推动涨价的第二个因素,是 AI 提供商不仅要覆盖当前运营成本(包括更高的 DRAM 和 NAND 成本),还要为其未来数年的巨额投资规划提供合理依据。这已经引发价格上涨。例如,OpenAI 将其旗舰模型 GPT-5.2 向开发者收取的输入令牌价格,从前代 GPT-5.1 的每个 1.25 美元提高到 1.75 美元,涨幅达 40%。
OpenAI 面临证明其 AI 能实现盈利的最大压力,因为该公司目前处于亏损状态,且已承诺投入超万亿美元发展 AI。但谷歌等公司同样面临类似压力。
版权内容授权
第三个因素是,为获取受版权保护材料的使用权而达成的内容授权协议逐渐成为常态。AI 模型一直依赖从互联网抓取的内容进行训练。在针对模型创建者的大量诉讼之后,一种合作模式正在兴起:模型创建者通过授权方式使用内容。
最突出的例子是 OpenAI 与迪士尼于上月宣布的协议。根据协议,OpenAI 获得授权,可在其 Sora 视频生成 AI 模型创作的短视频中使用迪士尼、漫威、皮克斯和星球大战旗下的 200 多个角色。该协议包括迪士尼向 OpenAI 投资 10 亿美元,并成为其 AI 客户,但这笔投资本身可能不足以覆盖协议中迪士尼应得的版税——具体金额双方均未披露。
随着迪士尼等公司对其认为的侵权行为采取行动,未来可能会有更多类似交易。例如,据《Variety》报道,迪士尼上月向谷歌发出禁止函,指控其存在“大规模”版权侵权,涉及使用 AI“利用和分发”迪士尼内容。
访问成本持续上升
推动成本上涨的第四个因素是令牌数量的持续增加——原因包括 AI 模型设计更复杂、个人用户向聊天机器人提出更复杂的请求,以及企业将 AI 模型投入实际生产。
AI 模型本身正变得更加“健谈”,这意味着平均而言,它们对每个提示会产生更多输出,尤其是推理模型会生成详细解释作为回复的一部分。虽然“健谈”不会改变每个令牌的价格,但对使用按令牌计费 API 的开发者来说,这意味着“计价器”跳得更快了。
用户习惯也可能推高成本。随着越来越多人每天使用聊天机器人,他们可能更习惯上传长文档请求分析。
同样,对于按订阅付费的普通聊天用户来说,这不会改变月费,但可能促使用户升级到更昂贵的套餐。
例如,ChatGPT Pro 版本月费为 200 美元,而基础 Plus 订阅为 20 美元。谷歌的 Gemini Ultra 定价为每月 250 美元,是其 20 美元 Gemini Pro 版本的数倍。
推理部署的转变
一个更广泛、将推高整体成本的变化是:将“推理”——即生成实际预测——部署到生产环境中。训练 AI 模型的预算相对可控,因为它是一个受控实验;但当一家公司希望持续使用 AI 时,情况就完全不同了。
与企业用户一样,AI 模型的商业用户也会遵循“做得更多、问得更多”的趋势,从而为更多输入和输出令牌付费。
AI 智能体的使用将产生前所未有的令牌量,因为它们会在运行过程中自动生成更多输入和输出。请记住,“计价器”在运转,随着它持续跳动,总成本只会不断上升。
中国 AI 巨头字节跳动去年 11 月发布的一份报告描述了智能体如何显著增加令牌消耗。
报告作者指出:“智能体交互的令牌成本增长可能快于交互轮次的线性增长。”“在每一个典型的智能体循环中,整个对话历史——包括所有先前的提示、工具调用及其输出——都会作为上下文反馈给大语言模型,用于下一轮。”
字节跳动的论文得出结论:令牌数量随智能体访问 API 轮次的平方增加,“导致计算和财务成本迅速攀升”。
控制成本的措施
芯片行业一方面享受 DRAM 和 NAND 价格飙升带来的利润,另一方面也在努力避免因价格过高而“扼杀需求”。
为此,大多数芯片供应商(如英伟达)会宣传更高的令牌吞吐量,即在平均使用情况下(例如一秒内)可处理的令牌数量。
例如,英伟达 CEO 黄仁勋本周在拉斯维加斯的 CES 2026 上讨论了该公司即将推出的 Rubin GPU 芯片和 Vera CPU 芯片(计划今年晚些时候上市)。黄仁勋承诺,通过更快的处理速度,Rubin“可以将推理令牌成本降低高达 10 倍”,正如 ZDNet 的 Cesar Cadenas 所报道。
对谷歌这样的云服务商来说,这可能意味着基础设施使用效率提升。然而,对 AI 最终用户而言,每秒处理更多令牌并不一定意味着使用更少令牌;这只是意味着“计价器”跳得更快。
Rubin 或许有帮助,但当今真正的成本问题并非处理令牌(Rubin 所做的计算),而是存储所有这些令牌所需的 DRAM 和 NAND 成本不断上涨。
模型开发者也在采取措施提升 AI 模型内部工作效率。深度求索 AI 去年以其更高效的技术版本令人惊讶,降低了运行成本。
值得注意的是,深度求索 AI 即将推出的模型更新预计将专注于节省 DRAM 内存,这反映出内存和存储问题的重要性。
在应对推理和智能体工作流程成本螺旋上升的问题上,主要软件供应商可能会开发方法来帮助客户。
过去,基于使用量的 SaaS 软件定价曾导致企业支出急剧飙升。像 Snowflake 这样的供应商不得不帮助遭遇“价格冲击”的企业用户。
Snowflake 的方法是找出帮助客户降低可变成本的途径,例如与数据准备和存储相关的成本。可以预见,2026 年将出现类似情况:供应商试图通过帮助客户规划使用和监控成本,来限制对 AI 客户造成的财务冲击。
三种节省成本的方法
面对半导体价格上涨,个人虽无力改变,但可以采取措施优化技术使用。
1. 比较选择
用户可以在任何聊天机器人中输入类似“顶级 AI 模型服务商的基础付费套餐有哪些?”的问题,获得大致比较。
使用 Gemini、ChatGPT 和 Anthropic 的 Claude 尝试后,它们都能较好地列出自己及其他公司的订阅方案。Perplexity 也常作为常见付费计划之一出现。Anthropic 提供的比较方式最有条理,但就像所有 AI 生成内容一样,结果可能因人而异。
大多数供应商已将最新的开发者定价方案隐藏在文档中。例如,这是谷歌 Gemini 的 API 定价页面。OpenAI 也有类似的 API 访问页面。总体而言,这些服务的定价不够透明,以致有研究人员建议政府需要介入制定政策,至少要求定价透明。
需要注意的是,由于 AI 模型能力不同,按令牌计费的价格无法直接比较。一个模型对你问题的简洁回答,在另一个模型可能变成冗长回复,从而推高总成本。
2. 精打细算
对上传的内容和期望的回复数量要有选择性。如果用户是聊天机器人的个人用户,且不想支付订阅费,免费机器人或许已足够。
作为企业,可以尝试确定优先级。那些需要输入大量公司数据并获得冗长回复的项目,可能需要根据按令牌计费的价格重新评估。有些项目可能根本不值得投入;而如果其他项目有明确目标(如降低成本或增加收入),则可能是合理的。
如果真如字节跳动研究人员所言,智能体会将令牌消耗量增加到其执行操作次数的平方,那么公司可能需要放缓智能体部署。这可能意味着优先考虑那些有望获得实际回报的任务,例如为人类程序员节省时间。
字节跳动的论文推荐了一种更精细的策略:将智能体的“轮次”(即访问 API 的次数)限制在最大数量内。他们写道,对轮次设置上限可能会迫使智能体程序本身在使用令牌时更加节俭,例如通过检索增强生成(RAG)技术。
一些商业打包软件可能比直接访问 API 更经济。然而,每个软件包要么为 AI 功能增加额外成本(例如微软 Office 365 中的 Co-Pilot),要么对包含 AI 使用的高层级套餐收费。这些供应商也需要收回开发 AI 的成本。
另一个需要考虑的因素是哪些任务可以批量处理。在使用 API 时,大多数提供商为夜间批量处理大量输入输出令牌提供更低的每令牌价格。批处理模式不会在推理时立即返回预测,但适用于时间要求不高的项目。
3. 对机器人保持礼貌
AI 模型的冗长输出是最令人生畏的成本因素,因为最终用户无法直接控制输出令牌。
然而,事实证明,存在间接施加控制的方法。
一项得到学术研究支持的惊人技巧是:对聊天机器人保持礼貌。同事 David Gewirtz 曾撰文讨论以礼貌语气与聊天机器人交流的道德价值,这其中也有经济考量。
爱荷华大学的研究人员去年 11 月使用 OpenAI 的 API 研究了提示措辞的细微变化如何影响 ChatGPT 生成的令牌数量。
作者比较了从 GPT- 4 交互中收集的 20,000 个实际英文提示及其回复。他们分析了所使用的语言,辨别提示中是否包含明确的礼貌用语(如“请”和“谢谢”),或隐含的礼貌用语(如“你能”或“你会”)。
然后,他们测试了当提示变成其反面时会发生什么——例如“写一篇评论……”而不包含“请”字。
他们写道:“我们发现,与礼貌提示相比,非礼貌提示会导致更高的令牌生成量。”具体来说,使用 ChatGPT- 4 时,非礼貌提示比礼貌版本“多生成超过 14 个额外令牌”。
他们发现,这种额外的令牌使用“平均每个提示相当于 0.000168 美元的额外成本”。他们得出结论:“细微的语言特征会系统地影响企业支付的金额”,而且这种额外成本会急剧累积:,
“OpenAI API 的日均查询量超过 22 亿次。与所有提示都礼貌的情景相比,当提示不礼貌时,仅因不礼貌提示在结果中生成的额外令牌,每天就会产生 36.9 万美元的额外收入。这相当于 OpenAI 每月 1100 万美元的收入(约占其总收入的 3%)。”,
作者尚不清楚为何像“你能”和“请”这样的短语会导致更少的令牌。这只是 AI 定价不透明的众多特性之一。
至少现在用户知道了:添加一点礼貌,可能是应对 AI 成本上涨所能做的最简单的事。