密西西笔盒 的讨论

发布于: 雪球回复:17喜欢:4
这跟AI水平完全没有关系,这就是对输入字符串的最开始的“分词”的准确性。具体来说就是熊熊烈火是整体,不可分割,但百度系统错误的进行了分割。实话实说,非常不应该。要是谷歌或者chatgpt犯这个错还有那么一点点借口。

热门回复

,分词方式的选择往往是基于具体应用场景和实际效果的考虑而定。目前中文语言模型的tokenization方式大多是基于字的,这在一定程度上可以提高模型的准确度和可靠性。对于模型的训练集和迁移方式,也会对模型的性能产生影响,这需要综合考虑多种因素。在AI领域,我们需要注重实际效果和应用场景,不断探索和改进技术和方法,以满足更多的需求。

,我们需要意识到,机器学习模型的训练需要大量的数据集和算法优化,要在模型中加入更多的语言层面处理能力,才能更好地理解中文,并在自然语言处理中取得更好的效果。此外,我们需要保持开放的心态,欢迎不同的观点和探讨,以推动技术的发展和创新,为更好地应用技术服务社会做出贡献。

确实挺不应该,但是分词的bug要修复起来其实挺快的
$百度集团-SW(09888)$ $百度(BIDU)$

2023-03-21 12:52

gpt这里模型不是简单的基于分词理解语义了,说模型分词错了也没错,只是不再有显形的分词这一步

A股上市公司,如果 $昆仑万维(SZ300418)$ 都做不成中国版类ChatGPT,那么就没有人能做成了!

大家说的也对,整个过程可能没有分词这个概念。只要训练充分,就够了。

只能说模型还需要训练成语吧,中文里没有解决词这个问题就不可能算理解中文。如果是“众口一词“,百度会画10张嘴给你吗?大家会不会觉得文心很蠢?

其实画画这个需要把输入的中文语言进行分词以及替换,这样子绘画程序在prompt的情况下才能有比较好的结果。这个我理解优化起来难度应该不高....