//既然我们已经知晓了划分的具体方式，但为什么在实践的过程中总感觉还是很难计算出一个文本精确的token数量？首先，BP...

发布于:2024-05-27 17:20

Android

转发：0

回复：7

喜欢：14

//既然我们已经知晓了划分的具体方式，但为什么在实践的过程中总感觉还是很难计算出一个文本精确的token数量？
首先，BPE 算法的 token 是在训练过程中要做不断地通过统计合并而产生的，那么不同模型训练语料一旦产生变化，这个结果都有可能不一样。所以你看OpenAI的计算token就是区分模型版本的。
其次，即便是同一个语料，如果我们选择不同的统计合并次数，这个结果也会不同。比如现在GPT模型的 token 统计过程已经做得很深了，基本上把所有常见的词都合并成了一个 token，即使是有 ing这样的后缀词也纳入到了一个 token 之中，但像 hang out 这个不是很常见的词仍然被分为了 hang 和 out 两个 token。
最后，BPE 只是其中的一种算法，其实还有像 Word Piece，UniLIM 等众多的算法，不同算法产生的结果也不尽相同，所以token数量的测算只能是针对特定模型、特定版本、特定算法的。因此也就给我们造成了一种测不准的感觉。
综上所述，互联网软件开发领域，token就是一个令牌，进行身份认证；虚拟币领域token就是代币或数字资产，可以进行交易支付；大模型领域token是模型输入的一部分，可能是一个词、子词或字符，token在不同领域具有不同的含义和用途，但都起到了标识、验证和管理的作用，使得各种系统和应用能够更安全、高效地运行。

全部讨论

本不必要

05-27 18:42

查看5条回复

这点上，是否用了几千个基本语素的中文反而是有优势的？

明石珞

05-27 17:35

Mark

作者：forcode

全部讨论