【速读研报】国金证券:文心一言、GPT-3.5及GPT-4应用测评对比

发布于: 雪球转发:1回复:1喜欢:9

$百度集团-SW(09888)$ 

国金证券对文心一言、GPT-3.5(ChatGPT的原模型)和GPT-4的问答表现分别进行了测评,涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI助手/客服/办公协同/推荐/诗词理解)等。

文心一言虽然在逻辑推理中表现不足,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。

在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但文心一言的分词功能有待提升;目前GPT-4尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。

在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于GPT系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。

在数学和代码类问题中,GPT-3.5有更好的数学能力表现;GPT-3.5及GPT-4模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。

在应用场景测试中,三大模型均能较好地完成AI生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。

在投资建议部分,国金指出,文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中, 文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司,如万兴科技汉得信息凌志软件同花顺金山办公。 

全部讨论

2023-03-20 19:32

zz正确