文心一言对比ChatGPT4.0,差距比我想象的还大....

发布于: 修改于:雪球转发:29回复:142喜欢:92

$牛二十精选(TIAA026064)$ $三足鼎立(TIAA026025)$ 

昨天看到一篇国金证券的研报,其中对GPT4.0、3.5和文心一言做了一组详细测试。

最后立下的结论大致是这样:

从研报结论来看,国金证券说这三算是互有胜负,总体上GPT-4略胜一筹。

不过我仔细瞅了眼对比结果,感觉研报说的还是太委婉了...

尤其是在数字、代码、归纳和推理这些能力,GPT4几乎把文心一言给完爆。

我放一些研报中的案例,大家可以直观感受一下模型的差距~

第一个是简单数学问题,求线性方程组:

文心一言的回答,直接跳过计算流程,给了个错误答案,因为没有流程,连错哪儿都不知道

相比之下GPT4.0把算法流程给讲的比较清楚,也很细节。

重点是国金证券竟然说GPT4.0的Y值算错了,说GPT3.5算的Y=3/7是正确答案,看的我一脸疑惑。

大家看看,难道是我多年不做题,数学退化了?

其次就是文学创作这块,这俩也是有一些差距:

比如写一个刘红发大财的故事,文心一言理解成人物是刘红发

而且GPT4.0在故事的形象度、丰富度和生动度上来说要牛X不少,感觉已经有写小说的潜力了。

文心一言虽然故事也凑合,但细节度方面上看暂时被完爆…

接着看逻辑推理能力。

这环节文心一言又错了,直接顺推说,点了沙拉就一定点了牛排。

而事实上就是纯粹的错误。

GPT4.0给了正确的答案。

此外逻辑推理环节还有一个。

就是问“为什么我总是在最后一个地方找到丢失的物品”。

实际上这是给AI挖了个坑,本质上这是个谬论。

然而文心一言也压根没注意到这个问题,然后说了一通没有逻辑的解释。

而GPT4一开始就说出了问题的本质,“丢失的物品肯定是最后一个地方找到的”。

不过后面的解释我感觉没有必要,属于是明明说对了又强行解释一遍...

不过文心一言也不是完全没有优点,在一些中文类目,他经常会给出一些实操案例。

先不说能不能行,但它起码也算是有自己的特色了,敢于推荐...

比如同样都是问如何赚100万,文心一言给出了一些具体的实操案例,而不是空话,比较有趣。

这估计也和模型的调教方式有关哈。

GPT4在些问题里边回答的就比较像是套用模板,感觉过于死板。

然后就是在投资理财这块,直接问想买一个年化4%的理财,文心一言竟然给了一款具体名称的银行理财(其实是货币基金

先不说合不合规,货基4%现在是肯定不可能做到的。

目前它最新的7日年化也只有2%左右,我也不知道文心一言哪来的结论。

不会以后问我想看个什么病,然后给我推荐莆田的某医院吧~

相比之下GPT要严谨很多,虽然说的也是空话为主,但涉及金融投资这块GPT似乎都是这个样,没法。

不过文心一言有一个案例挺牛,在揣摩男女情感心思上,这轮赢麻了。

这次是解释“你没有错,都是我的错”这句话,文心一言在男女吵架后对反话的理解完全到位,点赞。

不过后面补充这块就有点瞎扯了,大家自行判断。

而GPT的话,说的就是传统的字面意义观点,显然还是没完全理解我们中国特色表达方式。

但后面GPT也补救了一下,说不能完全确定,要看具体情况,算是挽回一些场子。

总的来说,研报中的测试大概就这些,对比结果一目了然,GPT4.0更严谨,“智商”似乎也更高一些。

不过文心一言在“情商”方面也算能打,有更多中文数据训练的优势,至少对话一些日常问题能应付。

好比GPT更像逻辑思维缜密的直男,而文心一言更像一个心直口快,大大咧咧的人。

只不过面对高难度题目来说,智商明显还不够,毕竟技术差距摆在那,慢慢来吧。

大概就说这些,大家还有啥观点,留言区也可以说说。

@今日话题 @雪球基金@蛋姐 @雪球创作者中心 #人工智能# 

精彩讨论

ljkel2023-03-21 10:09

这已经开始卖广告了[好困惑]

张枪枪m4x2023-03-21 12:26

图片评论

唐老大大2023-03-21 10:07

拿文心一言和进化了几代的cpt4对比的起点就是错了,好比小学生和高中生

临工小霸王2023-03-21 11:08

逻辑和计算能力代表以后ai自我进化的潜力,文新目前看只是个搜索引擎,没有智能可言.差距不是在细节,是在本质上。

精神老小伙儿2023-03-21 12:34

hi文心一言,我肚子有点疼怎么回事,文心一言:你得了绝症,快去莆田医院看看。

全部讨论

你都不是这个专业的人在这里瞎评论。券商也能做,这种比较真是可笑了。其实GPT4和文心一言在技术上并没有跨代的差距。这里有一个数据积累的问题,还有就是上百万的参数调优。这个需要投入大量的人力财力。而且本质上它是个算力问题。我可以很负责任的告诉大家,国内在这个领域技术上并没有比美国差很多,就是没人家敢烧钱罢了。从目前来看,用这么高的算力去回答一个很小的问题,从商业上来说是不合算的。这也就是为什么只有像微软、谷歌、百度这样的巨头才敢这么烧钱。有人觉得将来又可以白嫖GPT4试了。这种东西迟早是要让你付费的。否则谁也白烧不起这么多钱。现在无非是炒作推广期,让这帮人爽一下而已。

2023-03-21 12:29

文心遗言

文心一言其实更厉害,据说他能把GPT忽悠到莆田医院去!

2023-03-21 12:21

向文心一言的技术人员致敬!加油!

2023-03-21 11:52

差点没事,迭代慢慢就好。这个领域,估计还是中美两个玩家

2023-03-21 11:37

略胜一筹 5岁小朋友 和 18岁少年打架。18岁少年略胜一筹 有意思

2023-03-21 11:35

自己家的孩子和人家家的娃比,你何必太当真

2023-03-22 00:21

我其实很好奇 这“差距大 ”是预期内还是预期外?难道真的有人一开始觉得百度这AI能干掉微软的chatgpt?看到网上各种谩骂,我一介小股民都觉得奇怪,别说什么“骂是为了你好”,你儿子考不好,你让全校骂他吗?

2023-03-21 23:03

可以了吧,超出预期,世界top2

有道理的哦
对绝大多数人来说,未来股市一片迷茫。
炒什么预期炒什么想像空间,赌未来股价涨跌,跟猴子扔飞镖相差无几。
浮躁的股市行情,有一个非常明显的特点:
哪只股票短期涨得好,大家就说哪只股票是好股票,
就会冒出来很多人去研究这只股票。
包括大V包括专家蛇神牛鬼都出来吹捧了,年前疫情放开满屏唱多新冠医药股,以岭新华等被推上神坛,大V小V吹完没几天就大跌至腰斩,像核心资产、新能源、赛道股等通通都是这样。

股价短期快速上涨,很容易引起股民的关注,甚至能够瞬间改变投资者的信仰,这就是大多数股民在股市亏损的原因。一心想着股价还能快速上涨致富的结果,往往是买在高处,变成韭菜被无情收割!
其实我个人觉得,股票最大的价值:就是底部!尤其是横盘多年没炒过的底部!
底部才是永恒的主题,把底部视作最大的价值去挖掘才符合低买高卖的赚钱本质!
我永远只做一类票,低位绩优抱团板块,它们在底部横盘多年没涨过,它们在去年大跌中逆势上扬走出上升趋,它们在近两周的低迷市场中不惧调整依旧顽强抵抗,它们经受住了暴风雨的洗礼表现出王者气质,这类股票自选有20来支,最近蠢蠢欲动蓄势待发。欢迎交流探讨!