文章作者、来源:砺石商业评论 当主流模型皆以 Token计费、企业设立专门Token预算、政府政策文件也写入“词元交易”时,Token 正成为无需争论的新经济单位。 2026年3月,发生了两件看似不相关的事。 英伟达CEO黄仁勋在GTC大会上预测,公司到2027年的营收将至少达到1万亿美元。 演讲中,他还顺手将数据中心文章作者、来源:砺石商业评论 当主流模型皆以 Token计费、企业设立专门Token预算、政府政策文件也写入“词元交易”时,Token 正成为无需争论的新经济单位。 2026年3月,发生了两件看似不相关的事。 英伟达CEO黄仁勋在GTC大会上预测,公司到2027年的营收将至少达到1万亿美元。 演讲中,他还顺手将数据中心

从哲学概念到科技概念,再到经济概念,Token的前世今生

2026/04/30 17:06
阅读时长 28 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:砺石商业评论

当主流模型皆以 Token计费、企业设立专门Token预算、政府政策文件也写入“词元交易”时,Token 正成为无需争论的新经济单位。

2026年3月,发生了两件看似不相关的事。

英伟达CEO黄仁勋在GTC大会上预测,公司到2027年的营收将至少达到1万亿美元。

演讲中,他还顺手将数据中心重新定义,介绍“那是生产AI智能Token的工厂”。

而同一个月,中国国家数据局局长刘烈宏在中国发展高层论坛上发言时说,“Token不仅是智能时代的价值锚点,更是连接技术供给与商业需求的结算单位”。

并且,他代表官方给“Token”定下了中文译名:“词元”。

一位是全球最大芯片公司的掌舵人,一位是中国数据领域的最高主管官员,却用几乎一致的口吻,将Token描述为了一个经济单位。

那么,如今火爆全球,甚至有可能成为新时代的货币的Token,究竟是什么?

什么是Token?

1906年,美国哲学家Charles Sanders Peirce(查尔斯·桑德斯·皮尔士)正在琢磨一个看似简单的问题:一页书上印了20个“the”,这到底算是一个词,还是20个不同的词?

这并非是皮尔士心血来潮,故意在咬文嚼字。

作为哲学家,他认为那个作为抽象概念的“the”,其实代表了一种普遍的规则或形式。

对此,他称其为“类型”(Type);而书中每一个具体可见的“the”,则是这个类型的一次具体呈现,可以叫做“实例”(Token)。

也就是说,20个“the”是同一个“类型”的20个不同“实例”。

他就此指出:“类型(Type)本身并不存在,但它却决定了哪些具体的东西能够存在。”

这个看似玄奥的观念在哲学圈流传了很久,但当时没人想到,它未来会和计算机产生什么关联。

直到1936年,哈佛大学的语言学家乔治·齐普夫在研究词频时,再次对Token进行了数学上的解释。

彼时,齐普夫在对各种语言中词频的统计时,发现了一个有趣的现象:一个词的排位和它词频的乘积,几乎是一个常数。举个例子,在汉语中,“的”是最常用的字,排第一,它的字频大约是6%。

这时,排名(1)乘以字频(6%)约等于6%。

接下来,排第二的字是“是”,它的字频约3%,2乘以3%也约等于6%;然后是排第三的字“一”,字频约2%,3乘以2%同样约等于6%。

可以看到,这里的排序和字频的乘积近似为一个常数。

因此,排第一的“的”的字频大约是排第二的“是”的两倍,更是排第三的“一”的三倍。

这种“频率与排名成反比”的规律,后来被命名为“齐普夫定律(Zipf's law)”。

谁也没想到,这个看似枯燥的数学理论,会在三十年后,成为计算机语言处理的一项重要理论基础。

时间来到1960年代,“Token”的概念终于在计算机世界得到了应用。

比如,当程序员写下int x = 5;这样的代码时,早期的计算机会像一个认真的“语法拆解员”,从头到尾把这串字符逐个拆开理解。

在此过程中,计算机先认出“int”是一个表示整数类型的关键词,接着把“x”标记为一个变量名称,之后看到“=”是赋值符号,最后的“5”则被识别为一个具体的数字值。

而每一个这样被识别出来、并贴上明确含义标签的独立单元,就是一个Token。

如此一来,Token终于完成了从人文概念到机器语言的转身,成为了计算机“读懂”指令和信息的基本单位。

从默默支撑数字世界的语法基石,到后来被赋予全新的价值与共识,Token的含义仍在不断延伸。

2017年,随着区块链与ICO热潮的兴起,冷门的Token也因披上了“数字代币”的华丽外衣,被世人逐渐熟知。

尽管那轮热潮逐渐冷却,许多项目悄然退场,但Token这个概念却稳稳地留了下来。

它不再只是一个技术名词,而是带着“可流通的数字权益凭证”这层新身份再次被人提及。

可以说,无论身处什么样的背景,Token的核心始终是:把复杂事物标准化,变成系统可识别、可处理、可流转的最小单元。

也正是这个贯穿始终的基因,才使得在大规模语言模型崛起的今天,Token成为了人机交互中最基础、也是最重要的“语言单元”。

那么,当AI面对人类语言时,又是如何运用这把“尺子”来学会“理解”与“思考”的呢?

AI学会思考的底层逻辑

我们首先要厘清,AI理解人类的指令,并非只是我们想象中的“阅读”或“推理”,而是一次精准的“外科手术”——“切割”。

这意味着,你输入的任何一句话,AI都会做一次精密的“拆解手术”。

在指令发出后,所有文字都会被切割成一系列Token碎片,随即转化为计算机数据。

换句话说,AI模型所有的“思考”与“推理”,其实都是在这些数字的复杂运算中完成,再“翻译”成人们能读懂的语言。

这听起来简单,实际操作却异常复杂。

比如,最常见的就是AI的歧义困境。

举个例子,“羽毛球拍卖了多少钱”这句话,AI模型想理解的话,究竟是该在“羽毛球拍”后断开,还是在“拍卖”后断开?

前者是体育用品询价,后者却变成赛事竞拍,语义天差地别,AI仅凭字符根本无法判断。

所以,指令该“切什么、怎么切”,就成为AI最底层的核心问题。

更麻烦的是,如果某个词从未在训练数据中出现,模型便无法识别,只能标记为“未知”跳过,意味着系统出现了一个BUG(漏洞)。

因此,如何让AI模型既能处理歧义,又能“认出”从未见过的字词组合,成为困扰计算机语言处理领域多年的难题。

而这个难题被克服,则来自一篇被遗忘多年的技术论文。

1994年,美国程序员Philip Gage(菲利普·盖奇)在一本C语言技术杂志上发表文章,介绍了一种名为BPE(字节对编码)的压缩算法。

盖奇的思路很简单,即通过反复扫描文本,把最常相邻出现的两个字符(如"th")焊成新符号,一轮轮迭代压缩。

经过反复迭代后,常用词组会越压越小,解压端只需保存这张“打包对照表”即可,让整个程序的体积变得极小。

然而,因其压缩效率并不突出,业内并没人关心几KB内存的变化,因此这个算法在当时并未引起太大关注。

这篇论文很快被人遗忘,这一忘就是22年。

直到2016年,爱丁堡大学的研究员里Rico Sennrich(科·森里希)在研究机器翻译的分词难题时,偶然检索出了这篇旧文。

他敏锐地意识到,BPE这种基于频率的合并策略,恰好是分词的绝佳方案:无需预先定义词典,完全让数据自己“说话”,高频组合就像滚雪球一样,逐渐凝结成Token。

如此一来,即使面对“未见过”的生僻词,计算机语言也能将其拆解为更细致的字节,从而彻底规避了“未知”困境。

2019年,OpenAI在发布GPT-2时,也是借用了这个概念。

研发团队将分词起点直接设定在“字节”——计算机存储的最小单元,从底层统一了所有语言的表示方式,从而使模型理论上能够处理任何语言文字。

一篇尘封二十余年的短文,就此成为驱动万亿级AI产业的底层逻辑之一。

这个结果,恐怕连盖奇本人也未曾料到。

然而,当这种“处理一切文字”的能力与效率至上的算法结合时,一种全新的“算法霸权”悄然出现。

算法与编码霸权

如今AI所用的这套分词方法,表面上看很“公平”:哪种语言用得多,处理起来就更高效、更完整;用得少的语言,就会被切得比较零碎,处理起来也更“费劲”。

可这种效率至上的“公平”,却悄悄地把全世界的语言分成了两种待遇:有的语言是“快速通道”,有的却像走在碎石路上。

简单来说,由于BPE算法的核心逻辑是“频率优先”,哪种语言最常见,那么相关词汇就会被更高效地合并为Token。

而英语作为互联网的绝对主流,自然是最优先的表述语言,其他语言则只能依据其“数字能见度”依次排序。

因此,AI模型中实际上形成了一套隐性的“语言税”体系:表达相同的意思,英文最省Token、成本最低;中文通常需要1.5~2倍;而像祖鲁语、藏语等资源较少的语言,开销可达英文的5~10倍。

这意味着,在按Token计费的规则下,使用英文与AI对话不仅更快,同等预算下能调用的算力也远多于其他语言。

这也不是什么新鲜事,信息时代一直如此。

从莫尔斯电码到键盘设计,几乎每一次信息技术的底层变革,都会默认为英文铺平道路,而让其他语言的使用者不得不付出额外的“转码”代价。

因此,Token的效率差距,只是这条历史规律在AI时代的重演罢了。

值得警惕的是,这种“起跑线”上的不公一旦写进AI的初始词表,就几乎无法再进行修正。

因为,分词规则是AI模型认知世界的地基,大楼盖得越高,地基就无法更换。

可喜的是,随着中国在大模型领域快速进步,即便是英文语料主导的模型,也开始显著优化对中文的处理效率。

这一点,在OpenAI的模型迭代中体现得非常明显。

比如同一句中文,在GPT-3中需要38个Token,到GPT-4降为26个,而GPT-5仅需15个。

说明通过几代GPT的演进,处理同一中文内容所需的Token数量下降超过60%,中文的识别效率显著提升。

而通义千问、DeepSeek等国产大模型,更是从设计之初就将中文的高频词组、成语等作为原生Token纳入词表,从而在相同模型规模下,实现了对中文更高效、更“母语”级的处理。

换句话说,在AI时代,谁掌握了“语义切分权”,即定义语言基本单元的权力,谁就在很大程度上掌握了该语言在数字世界的表达效率与成本优势。

而这种定义Token的权力,实质上已构成一种数字时代的“基础铸币权”。

其战略意义,甚至不亚于掌握芯片的设计与制造。

这种效率上的差距看似是道坎,实际上更像一张门票:只要你有足够的算力和数据,完全可以不走别人的老路,自己打下最结实的地基。

而要把这种“定义语言基本单元”的优势,真正变成产业上的话语权,还需要一整套从能源、芯片到算力的硬支撑。

这条路上,中国恰好都站在了起跑线前。

中国铸造Token硬通货

如果要为中国在全球Token经济中的位置画一条链路,起点是能源,终点则是全球AI服务市场。

不妨想象个画面:西北戈壁的风机将风能转为电力,电流又沿特高压线路汇入数据中心;GPU再把电能转化为算力,源源不断生产出Token。

而这些数字单元最终通过海底光缆,流向全球各地,再换回以美元计价的API调用收入。

事实上,中国在这条链条上的体量,早已大到可以独立成势。

公开数据显示,截至2026年3月,我国日均Token调用量已达140万亿,两年间增长超千倍。

同期全球监测更显示,中国大模型每周调用量已连续数周超越美国,领先幅度超过两倍,稳居全球首位。

那么,中国的Token经济为何这么强?

这要从成本说起,但最关键的变量是电价。

在贵州、云南等水电丰富的地区,以及甘肃、新疆等风光资源充沛的省份,工业用电价格长期处于低位。专门供给算力中心的绿色电力,部分地方甚至低至每度电0.15元。

反观欧美大部分地区,工业电价普遍是中国的数倍甚至更高。

举个例子,生成100万个Token大约需消耗15到20度电。如果按中国西北的低价绿电计算,成本仅数元人民币;而同样的计算任务,在国际市场上对应的电价则通常在60到200美元之间。

这样一比,中国凭借在能源与算力成本上的优势,构筑了一条从“电”到“Token”的成本护城河。

更关键的是,中国将大量难以被完全消纳的绿色电力,与持续爆发的算力需求精准对接,形成了独特的产业闭环。

2025年,中国全年发电量突破10万亿度,占全球总量近三分之一。

其中,风电、光伏等新能源曾因储能不足、外送受限而产生明显的“弃风弃光”现象。

而数据中心作为可调节的负荷大户,可以在风光发电高峰时段提升运行负荷,高效消纳这些原本被浪费的绿色电力。

这样一来,不仅降低了用能成本,也提升了能源利用效率,构成了其他国家难以复制的系统性优势。

近年来推行的“东数西算”工程,更是将这一逻辑提升至国家战略层面,引导数据中心向贵州、内蒙古、宁夏等可再生能源富集地区布局。

这相当于将算力中心直接接入“绿电插座”,将过去可能被弃用的风电、光伏电力,高效转化为可用的AI计算力,持续产出Token。

因此,这场AI竞赛看似是算法与模型的比拼,实则是能源转型与数字基建深度融合的全新答卷。

而中国,恰好在这条赛道上占据了交汇点。

与此同时,随着AI从技术探索走向产业深处,传统制造业的质检排产、金融业务的风控合规、政务系统的文书处理等场景,正快速成长为Token消耗的新主力。

这类需求体量庞大、持续稳定且对价格高度敏感,恰恰又与中国Token产业的低成本结构高度适配,让中国在全球Token竞争中,始终占据着难以复制的供给优势。

正是因为有了从能源、算力到实际应用的完整支撑,Token也逐渐从纯粹的技术单元,演变为可在数字世界中承载和交换价值的通用载体。

这就意味着,Token完全有可能在未来成为数字经济的“基础货币”。

当Token成为不可替换的结算单位

回望历史不难发现,任何一种新计量单位最终占据主导,靠的都不是完美,而是越用越离不开,到最后切换成本高到没人愿意换。

而Token恰恰具备这种“一旦用上就难以离开”的特性。

首先,是其精准的可度量性。

Token天生就是AI服务的计费单元,每一次调用都有清晰的消耗记录,比电价更易核算,也比流量更直接对应价值产出,而这一属性从诞生之初便已根植其中。

其次,是要有可交换性。

而就在近期,国家数据局在征求意见稿中已首次提出“词元交易”,探索构建以词元为核心的可量化、可定价数据价值体系。

这意味着,Token在国内终于有了一个“价值标准”,不再只是技术文档里的计量单位。

与此同时,一个看似矛盾的趋势正在发生:用户端感受到的AI服务价格不断下降,但上游的算力成本却持续上涨。

比如,2025年10月至2026年3月,H100芯片年租价上涨近40%,且一卡难求;国内外主要云厂商也在2026年初集体提价。

这背后,正是AI从“对话”转向“自主执行”这一结构性转变,推动了算力需求的重构,也使得Token作为核心价值载体的地位愈发凸显。

关键是,AI的使用方式已经变了。

过去与AI助手聊天,一问一答,消耗的资源很少;但现在,企业让AI去自动完成写报告、做分析这些任务,消耗的资源一次可能就是聊天的几百倍。

当原来按使用次数收费的方式,已经覆盖不了飞速增长的计算成本时,涨价就成了必然,相当于市场在给AI“越来越能自动干活”这个能力,重新标价。

Token如今的处境,其实与当年的美元有几分相似。

1971年美元脱离金本位之后,本质上靠的已是“共同相信它有价值”。

它能沿用至今,根本原因在于替换它的协调成本高到难以承受——全球的贸易、金融、储备体系都已围绕它建立。

今天,同样的逻辑又在Token身上重演。

当主流模型皆以Token计费、企业设立专门Token预算、政策文件也纳入“词元交易”时,Token也如传统货币那样,因嵌入过深而难以被取代。

所以,Token是否将成为新的经济单位,已无需争论。

真正的问题是:谁来定义Token经济的规则?谁又在全球算力网络中掌握定价的主动权?

答案,或许正随着每一个被生成、被交易、被消耗的Token,写进奔涌的数据洪流之中。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。