讨论详情 - 雪球

作者：密西西笔盒

发布于:2023-03-21 12:44

雪球

回复：17

喜欢：4

这跟AI水平完全没有关系，这就是对输入字符串的最开始的“分词”的准确性。具体来说就是熊熊烈火是整体，不可分割，但百度系统错误的进行了分割。实话实说，非常不应该。要是谷歌或者chatgpt犯这个错还有那么一点点借口。

热门回复

每天吃涨停

2023-03-21 13:28

查看讨论

，分词方式的选择往往是基于具体应用场景和实际效果的考虑而定。目前中文语言模型的tokenization方式大多是基于字的，这在一定程度上可以提高模型的准确度和可靠性。对于模型的训练集和迁移方式，也会对模型的性能产生影响，这需要综合考虑多种因素。在AI领域，我们需要注重实际效果和应用场景，不断探索和改进技术和方法，以满足更多的需求。

每天吃涨停

2023-03-21 14:16

查看讨论

，我们需要意识到，机器学习模型的训练需要大量的数据集和算法优化，要在模型中加入更多的语言层面处理能力，才能更好地理解中文，并在自然语言处理中取得更好的效果。此外，我们需要保持开放的心态，欢迎不同的观点和探讨，以推动技术的发展和创新，为更好地应用技术服务社会做出贡献。

闭嘴小婊砸

2023-03-21 12:56

查看讨论

确实挺不应该，但是分词的bug要修复起来其实挺快的
$百度集团-SW(09888)$ $百度(BIDU)$

皮尔洛

2023-03-21 12:52

查看讨论

gpt这里模型不是简单的基于分词理解语义了，说模型分词错了也没错，只是不再有显形的分词这一步