本不必要 的讨论

发布于: 雪球回复:5喜欢:1
这点上,是否用了几千个基本语素的中文反而是有优势的?

热门回复

中文的基本单位可能不是汉字,而是词组,光四字成语可能就有几千个。

英文构词的基础,词缀词根,感觉就相当于汉字的字。就好比汉字继续拆解,构字法中的形声表意的元素,也就是汉字的部首,和部首搭配的非部首部分,在远古的时候,也是在组合使用的,排列组合渐渐固化,形成汉字。所以,汉字的字,主要还是相当于英文的单词,那些最基础的能作为构字元素使用的汉字,则相当于英文的词缀词根。因为形式上差异,中文要解决同音字太多的问题,英文要解决词缀词根太少的问题,中文的结果是字多了,常用汉字几千,然后组合构建常用词。英文是词缀词根不少,单词也不少。但本质是,在表意单元上,中文英文都是三层架构。

//成语是人们相沿习用并具有书面语色彩的固定短语。例如:阳奉阴违、阳春白雪、胸有成竹、闭门造车、舍己救人、舍生取义我们每个人都可以说出一大串成语来。现代汉语中大约有两万个成语,其中通用的六七千个,最常用的约三千个。

汉语的成语就基本上短语了,只是成语是既有构词特点,也有典故或者说约定俗成的引申意义,肯定不是基本语义单位。英语也有大量习语,成语。文化的文字积累够多,成语就会多。相信最近几百年英语的累计识字率更高,和文字创作人口量更大,积累的成语只会更多。
粗略理解,token应该是以能传达表意的最小单位来说的,不一定是中文的字和英文的单词,和语素也不是一个概念。但汉语构词法和英文的构词,也就是创建一个新的语意的时候,创新含量,感觉汉语更少。也就是汉语比英语更容易望文生义,这可能隐含着中文构词表意上规律性更强。

中文先有字,字再组成词,而英文基本上没有字,主要是词,火车汽车自行车7个字,对应英文就要十几个字母。那么中英文相同词汇量中文就可以用更少的token,计算规模就少很多,的确是一个优势,不过互联网上中文优质内容也比英文少,劣势也明显。