文章作者、来源：砺石商业评论当主流模型皆以 Token计费、企业设立专门Token预算、政府政策文件也写入“词元交易”时，Token 正成为无需争论的新经济单位。 2026年3月，发生了两件看似不相关的事。英伟达CEO黄仁勋在GTC大会上预测，公司到2027年的营收将至少达到1万亿美元。演讲中，他还顺手将数据中心文章作者、来源：砺石商业评论当主流模型皆以 Token计费、企业设立专门Token预算、政府政策文件也写入“词元交易”时，Token 正成为无需争论的新经济单位。 2026年3月，发生了两件看似不相关的事。英伟达CEO黄仁勋在GTC大会上预测，公司到2027年的营收将至少达到1万亿美元。演讲中，他还顺手将数据中心

从哲学概念到科技概念，再到经济概念，Token的前世今生

来源：MetaEra

2026/04/30 17:06

阅读时长 28 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：砺石商业评论

当主流模型皆以 Token计费、企业设立专门Token预算、政府政策文件也写入“词元交易”时，Token 正成为无需争论的新经济单位。

2026年3月，发生了两件看似不相关的事。

英伟达CEO黄仁勋在GTC大会上预测，公司到2027年的营收将至少达到1万亿美元。

演讲中，他还顺手将数据中心重新定义，介绍“那是生产AI智能Token的工厂”。

而同一个月，中国国家数据局局长刘烈宏在中国发展高层论坛上发言时说，“Token不仅是智能时代的价值锚点，更是连接技术供给与商业需求的结算单位”。

并且，他代表官方给“Token”定下了中文译名：“词元”。

一位是全球最大芯片公司的掌舵人，一位是中国数据领域的最高主管官员，却用几乎一致的口吻，将Token描述为了一个经济单位。

那么，如今火爆全球，甚至有可能成为新时代的货币的Token，究竟是什么？

什么是Token？

1906年，美国哲学家Charles Sanders Peirce（查尔斯·桑德斯·皮尔士）正在琢磨一个看似简单的问题：一页书上印了20个“the”，这到底算是一个词，还是20个不同的词？

这并非是皮尔士心血来潮，故意在咬文嚼字。

作为哲学家，他认为那个作为抽象概念的“the”，其实代表了一种普遍的规则或形式。

对此，他称其为“类型”（Type）；而书中每一个具体可见的“the”，则是这个类型的一次具体呈现，可以叫做“实例”（Token）。

也就是说，20个“the”是同一个“类型”的20个不同“实例”。

他就此指出：“类型（Type）本身并不存在，但它却决定了哪些具体的东西能够存在。”

这个看似玄奥的观念在哲学圈流传了很久，但当时没人想到，它未来会和计算机产生什么关联。

直到1936年，哈佛大学的语言学家乔治·齐普夫在研究词频时，再次对Token进行了数学上的解释。

彼时，齐普夫在对各种语言中词频的统计时，发现了一个有趣的现象：一个词的排位和它词频的乘积，几乎是一个常数。举个例子，在汉语中，“的”是最常用的字，排第一，它的字频大约是6%。

这时，排名（1）乘以字频（6%）约等于6%。

接下来，排第二的字是“是”，它的字频约3%，2乘以3%也约等于6%；然后是排第三的字“一”，字频约2%，3乘以2%同样约等于6%。

可以看到，这里的排序和字频的乘积近似为一个常数。

因此，排第一的“的”的字频大约是排第二的“是”的两倍，更是排第三的“一”的三倍。

这种“频率与排名成反比”的规律，后来被命名为“齐普夫定律（Zipf's law）”。

谁也没想到，这个看似枯燥的数学理论，会在三十年后，成为计算机语言处理的一项重要理论基础。

时间来到1960年代，“Token”的概念终于在计算机世界得到了应用。

比如，当程序员写下int x = 5;这样的代码时，早期的计算机会像一个认真的“语法拆解员”，从头到尾把这串字符逐个拆开理解。

在此过程中，计算机先认出“int”是一个表示整数类型的关键词，接着把“x”标记为一个变量名称，之后看到“=”是赋值符号，最后的“5”则被识别为一个具体的数字值。

而每一个这样被识别出来、并贴上明确含义标签的独立单元，就是一个Token。

如此一来，Token终于完成了从人文概念到机器语言的转身，成为了计算机“读懂”指令和信息的基本单位。

从默默支撑数字世界的语法基石，到后来被赋予全新的价值与共识，Token的含义仍在不断延伸。

2017年，随着区块链与ICO热潮的兴起，冷门的Token也因披上了“数字代币”的华丽外衣，被世人逐渐熟知。

尽管那轮热潮逐渐冷却，许多项目悄然退场，但Token这个概念却稳稳地留了下来。

它不再只是一个技术名词，而是带着“可流通的数字权益凭证”这层新身份再次被人提及。

可以说，无论身处什么样的背景，Token的核心始终是：把复杂事物标准化，变成系统可识别、可处理、可流转的最小单元。

也正是这个贯穿始终的基因，才使得在大规模语言模型崛起的今天，Token成为了人机交互中最基础、也是最重要的“语言单元”。

那么，当AI面对人类语言时，又是如何运用这把“尺子”来学会“理解”与“思考”的呢？

AI学会思考的底层逻辑

我们首先要厘清，AI理解人类的指令，并非只是我们想象中的“阅读”或“推理”，而是一次精准的“外科手术”——“切割”。

这意味着，你输入的任何一句话，AI都会做一次精密的“拆解手术”。

在指令发出后，所有文字都会被切割成一系列Token碎片，随即转化为计算机数据。

换句话说，AI模型所有的“思考”与“推理”，其实都是在这些数字的复杂运算中完成，再“翻译”成人们能读懂的语言。

这听起来简单，实际操作却异常复杂。

比如，最常见的就是AI的歧义困境。

举个例子，“羽毛球拍卖了多少钱”这句话，AI模型想理解的话，究竟是该在“羽毛球拍”后断开，还是在“拍卖”后断开？

前者是体育用品询价，后者却变成赛事竞拍，语义天差地别，AI仅凭字符根本无法判断。

所以，指令该“切什么、怎么切”，就成为AI最底层的核心问题。

更麻烦的是，如果某个词从未在训练数据中出现，模型便无法识别，只能标记为“未知”跳过，意味着系统出现了一个BUG（漏洞）。

因此，如何让AI模型既能处理歧义，又能“认出”从未见过的字词组合，成为困扰计算机语言处理领域多年的难题。

而这个难题被克服，则来自一篇被遗忘多年的技术论文。

1994年，美国程序员Philip Gage（菲利普·盖奇）在一本C语言技术杂志上发表文章，介绍了一种名为BPE（字节对编码）的压缩算法。

盖奇的思路很简单，即通过反复扫描文本，把最常相邻出现的两个字符（如"th"）焊成新符号，一轮轮迭代压缩。

经过反复迭代后，常用词组会越压越小，解压端只需保存这张“打包对照表”即可，让整个程序的体积变得极小。

然而，因其压缩效率并不突出，业内并没人关心几KB内存的变化，因此这个算法在当时并未引起太大关注。

这篇论文很快被人遗忘，这一忘就是22年。

直到2016年，爱丁堡大学的研究员里Rico Sennrich（科·森里希）在研究机器翻译的分词难题时，偶然检索出了这篇旧文。

他敏锐地意识到，BPE这种基于频率的合并策略，恰好是分词的绝佳方案：无需预先定义词典，完全让数据自己“说话”，高频组合就像滚雪球一样，逐渐凝结成Token。

如此一来，即使面对“未见过”的生僻词，计算机语言也能将其拆解为更细致的字节，从而彻底规避了“未知”困境。

2019年，OpenAI在发布GPT-2时，也是借用了这个概念。

研发团队将分词起点直接设定在“字节”——计算机存储的最小单元，从底层统一了所有语言的表示方式，从而使模型理论上能够处理任何语言文字。

一篇尘封二十余年的短文，就此成为驱动万亿级AI产业的底层逻辑之一。

这个结果，恐怕连盖奇本人也未曾料到。

然而，当这种“处理一切文字”的能力与效率至上的算法结合时，一种全新的“算法霸权”悄然出现。

算法与编码霸权

如今AI所用的这套分词方法，表面上看很“公平”：哪种语言用得多，处理起来就更高效、更完整；用得少的语言，就会被切得比较零碎，处理起来也更“费劲”。

可这种效率至上的“公平”，却悄悄地把全世界的语言分成了两种待遇：有的语言是“快速通道”，有的却像走在碎石路上。

简单来说，由于BPE算法的核心逻辑是“频率优先”，哪种语言最常见，那么相关词汇就会被更高效地合并为Token。

而英语作为互联网的绝对主流，自然是最优先的表述语言，其他语言则只能依据其“数字能见度”依次排序。

因此，AI模型中实际上形成了一套隐性的“语言税”体系：表达相同的意思，英文最省Token、成本最低；中文通常需要1.5~2倍；而像祖鲁语、藏语等资源较少的语言，开销可达英文的5~10倍。

这意味着，在按Token计费的规则下，使用英文与AI对话不仅更快，同等预算下能调用的算力也远多于其他语言。

这也不是什么新鲜事，信息时代一直如此。

从莫尔斯电码到键盘设计，几乎每一次信息技术的底层变革，都会默认为英文铺平道路，而让其他语言的使用者不得不付出额外的“转码”代价。

因此，Token的效率差距，只是这条历史规律在AI时代的重演罢了。

值得警惕的是，这种“起跑线”上的不公一旦写进AI的初始词表，就几乎无法再进行修正。

因为，分词规则是AI模型认知世界的地基，大楼盖得越高，地基就无法更换。

可喜的是，随着中国在大模型领域快速进步，即便是英文语料主导的模型，也开始显著优化对中文的处理效率。

这一点，在OpenAI的模型迭代中体现得非常明显。

比如同一句中文，在GPT-3中需要38个Token，到GPT-4降为26个，而GPT-5仅需15个。

说明通过几代GPT的演进，处理同一中文内容所需的Token数量下降超过60%，中文的识别效率显著提升。

而通义千问、DeepSeek等国产大模型，更是从设计之初就将中文的高频词组、成语等作为原生Token纳入词表，从而在相同模型规模下，实现了对中文更高效、更“母语”级的处理。

换句话说，在AI时代，谁掌握了“语义切分权”，即定义语言基本单元的权力，谁就在很大程度上掌握了该语言在数字世界的表达效率与成本优势。

而这种定义Token的权力，实质上已构成一种数字时代的“基础铸币权”。

其战略意义，甚至不亚于掌握芯片的设计与制造。

这种效率上的差距看似是道坎，实际上更像一张门票：只要你有足够的算力和数据，完全可以不走别人的老路，自己打下最结实的地基。

而要把这种“定义语言基本单元”的优势，真正变成产业上的话语权，还需要一整套从能源、芯片到算力的硬支撑。

这条路上，中国恰好都站在了起跑线前。

中国铸造Token硬通货

如果要为中国在全球Token经济中的位置画一条链路，起点是能源，终点则是全球AI服务市场。

不妨想象个画面：西北戈壁的风机将风能转为电力，电流又沿特高压线路汇入数据中心；GPU再把电能转化为算力，源源不断生产出Token。

而这些数字单元最终通过海底光缆，流向全球各地，再换回以美元计价的API调用收入。

事实上，中国在这条链条上的体量，早已大到可以独立成势。

公开数据显示，截至2026年3月，我国日均Token调用量已达140万亿，两年间增长超千倍。

同期全球监测更显示，中国大模型每周调用量已连续数周超越美国，领先幅度超过两倍，稳居全球首位。

那么，中国的Token经济为何这么强？

这要从成本说起，但最关键的变量是电价。

在贵州、云南等水电丰富的地区，以及甘肃、新疆等风光资源充沛的省份，工业用电价格长期处于低位。专门供给算力中心的绿色电力，部分地方甚至低至每度电0.15元。

反观欧美大部分地区，工业电价普遍是中国的数倍甚至更高。

举个例子，生成100万个Token大约需消耗15到20度电。如果按中国西北的低价绿电计算，成本仅数元人民币；而同样的计算任务，在国际市场上对应的电价则通常在60到200美元之间。

这样一比，中国凭借在能源与算力成本上的优势，构筑了一条从“电”到“Token”的成本护城河。

更关键的是，中国将大量难以被完全消纳的绿色电力，与持续爆发的算力需求精准对接，形成了独特的产业闭环。

2025年，中国全年发电量突破10万亿度，占全球总量近三分之一。

其中，风电、光伏等新能源曾因储能不足、外送受限而产生明显的“弃风弃光”现象。

而数据中心作为可调节的负荷大户，可以在风光发电高峰时段提升运行负荷，高效消纳这些原本被浪费的绿色电力。

这样一来，不仅降低了用能成本，也提升了能源利用效率，构成了其他国家难以复制的系统性优势。

近年来推行的“东数西算”工程，更是将这一逻辑提升至国家战略层面，引导数据中心向贵州、内蒙古、宁夏等可再生能源富集地区布局。

这相当于将算力中心直接接入“绿电插座”，将过去可能被弃用的风电、光伏电力，高效转化为可用的AI计算力，持续产出Token。

因此，这场AI竞赛看似是算法与模型的比拼，实则是能源转型与数字基建深度融合的全新答卷。

而中国，恰好在这条赛道上占据了交汇点。

与此同时，随着AI从技术探索走向产业深处，传统制造业的质检排产、金融业务的风控合规、政务系统的文书处理等场景，正快速成长为Token消耗的新主力。

这类需求体量庞大、持续稳定且对价格高度敏感，恰恰又与中国Token产业的低成本结构高度适配，让中国在全球Token竞争中，始终占据着难以复制的供给优势。

正是因为有了从能源、算力到实际应用的完整支撑，Token也逐渐从纯粹的技术单元，演变为可在数字世界中承载和交换价值的通用载体。

这就意味着，Token完全有可能在未来成为数字经济的“基础货币”。

当Token成为不可替换的结算单位

回望历史不难发现，任何一种新计量单位最终占据主导，靠的都不是完美，而是越用越离不开，到最后切换成本高到没人愿意换。

而Token恰恰具备这种“一旦用上就难以离开”的特性。

首先，是其精准的可度量性。

Token天生就是AI服务的计费单元，每一次调用都有清晰的消耗记录，比电价更易核算，也比流量更直接对应价值产出，而这一属性从诞生之初便已根植其中。

其次，是要有可交换性。

而就在近期，国家数据局在征求意见稿中已首次提出“词元交易”，探索构建以词元为核心的可量化、可定价数据价值体系。

这意味着，Token在国内终于有了一个“价值标准”，不再只是技术文档里的计量单位。

与此同时，一个看似矛盾的趋势正在发生：用户端感受到的AI服务价格不断下降，但上游的算力成本却持续上涨。

比如，2025年10月至2026年3月，H100芯片年租价上涨近40%，且一卡难求；国内外主要云厂商也在2026年初集体提价。

这背后，正是AI从“对话”转向“自主执行”这一结构性转变，推动了算力需求的重构，也使得Token作为核心价值载体的地位愈发凸显。

关键是，AI的使用方式已经变了。

过去与AI助手聊天，一问一答，消耗的资源很少；但现在，企业让AI去自动完成写报告、做分析这些任务，消耗的资源一次可能就是聊天的几百倍。

当原来按使用次数收费的方式，已经覆盖不了飞速增长的计算成本时，涨价就成了必然，相当于市场在给AI“越来越能自动干活”这个能力，重新标价。

Token如今的处境，其实与当年的美元有几分相似。

1971年美元脱离金本位之后，本质上靠的已是“共同相信它有价值”。

它能沿用至今，根本原因在于替换它的协调成本高到难以承受——全球的贸易、金融、储备体系都已围绕它建立。

今天，同样的逻辑又在Token身上重演。

当主流模型皆以Token计费、企业设立专门Token预算、政策文件也纳入“词元交易”时，Token也如传统货币那样，因嵌入过深而难以被取代。

所以，Token是否将成为新的经济单位，已无需争论。

真正的问题是：谁来定义Token经济的规则？谁又在全球算力网络中掌握定价的主动权？

答案，或许正随着每一个被生成、被交易、被消耗的Token，写进奔涌的数据洪流之中。

错过等一年！U狂欢$200,000奖池开抢

拉宝箱赢U/黄金/BNB，质押U享12%APR，新用户再领$200

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。