Mark - 雪球

作者：明石珞

发布于:2024-05-27 17:35

iPhone

转发：0

回复：0

喜欢：0

Mark

引用：

2024-05-27 17:20

//既然我们已经知晓了划分的具体方式，但为什么在实践的过程中总感觉还是很难计算出一个文本精确的token数量？
首先，BPE 算法的 token 是在训练过程中要做不断地通过统计合并而产生的，那么不同模型训练语料一旦产生变化，这个结果都有可能不一样。所以你看OpenAI的计算token就是区分模型版本...