发布于: Android转发:0回复:7喜欢:14
//既然我们已经知晓了划分的具体方式,但为什么在实践的过程中总感觉还是很难计算出一个文本精确的token数量?
首先,BPE 算法的 token 是在训练过程中要做不断地通过统计合并而产生的,那么不同模型训练语料一旦产生变化,这个结果都有可能不一样。所以你看OpenAI的计算token就是区分模型版本的。
其次,即便是同一个语料,如果我们选择不同的统计合并次数,这个结果也会不同。比如现在GPT模型的 token 统计过程已经做得很深了,基本上把所有常见的词都合并成了一个 token,即使是有 ing这样的后缀词也纳入到了一个 token 之中,但像 hang out 这个不是很常见的词仍然被分为了 hang 和 out 两个 token。
最后,BPE 只是其中的一种算法,其实还有像 Word Piece,UniLIM 等众多的算法,不同算法产生的结果也不尽相同,所以token数量的测算只能是针对特定模型、特定版本、特定算法的。因此也就给我们造成了一种测不准的感觉。
综上所述,互联网软件开发领域,token就是一个令牌,进行身份认证;虚拟币领域token就是代币或数字资产,可以进行交易支付;大模型领域token是模型输入的一部分,可能是一个词、子词或字符,token在不同领域具有不同的含义和用途,但都起到了标识、验证和管理的作用,使得各种系统和应用能够更安全、高效地运行。

全部讨论

这点上,是否用了几千个基本语素的中文反而是有优势的?

05-27 17:35

Mark