粗略理解,token应该是以能传达表意的最小单位来说的,不一定是中文的字和英文的单词,和语素也不是一个概念。但汉语构词法和英文的构词,也就是创建一个新的语意的时候,创新含量,感觉汉语更少。也就是汉语比英语更容易望文生义,这可能隐含着中文构词表意上规律性更强。
中文先有字,字再组成词,而英文基本上没有字,主要是词,火车汽车自行车7个字,对应英文就要十几个字母。那么中英文相同词汇量中文就可以用更少的token,计算规模就少很多,的确是一个优势,不过互联网上中文优质内容也比英文少,劣势也明显。