马斯克旗下xAI发布首个多模态大模型!

发布于: 雪球转发:0回复:0喜欢:0

大数据文摘受权转载自头部科技

文丨Congerry

3月中旬,马斯克旗下的 xAI 刚刚宣布开源 Grok-1 大模型!

一个月过去,xAI 又掏出了 Grok-1.5V。

Grok-1.5V是xAI开发的第一款多模态模型。

除了强大的文本处理能力,Grok现在还可以处理包括文档、图表、截图和照片在内的多种视觉信息。

xAI宣称Grok-1.5V能在多个领域与现有的前沿多模态模型竞争,包括跨学科推理、理解文档、科学图表、图表、截图和照片。特别强调了Grok在理解物理世界方面的能力。

而且所有数据集都是在零样本设置下评估的,没有使用思维链提示。这意味着在评估这些多模态模型的性能时,模型没有接受过任何特定于测试任务的训练或示例(即零样本),也没有通过一系列的逻辑推理步骤(即思维链提示)来辅助解决问题,完全依靠自身的能力来处理和回答问题,展示了它们的真实性能和泛化能力。

从这张图表中可以看出,Grok-1.5V在MMMU多学科、Mathvista数学、AI2D图表、TextVQA文本阅读、ChartQA图表、DocVQA文档等多项基准测试中,表现已经逼近头部模型。

浅试一下让Grok把这张图翻译成 Python 代码。

Grok读懂了这个流程图是描述一个简单的竞猜游戏:计算机生成一个随机数,用户必须猜出它。

并给出了流程图逻辑的 Python 代码:

为了评估模型对于真实世界的空间理解,xAI此次还推出了RealWorldQA基准测试。RealWorldQA由700多张图片组成,主要用于评估人工智能模型在现实世界场景中的空间理解能力。

在RealWorldQA 基准测试中,Grok-1.5V表现甚至超过了同类产品。

接下来看看Grok-1.5V在理解物理世界方面的能力如何?xAI表示,虽然当前基准中的许多示例对人类来说相对容易,但它们往往对前沿模型构成挑战。

被问到披萨刀和剪刀哪个更大?Grok-1.5V判断它们的大小大致相同。

A. 披萨刀更大 B. 剪刀较大 C. 它们的大小大致相同

从当前车道我们可以去哪里?Grok-1.5V判断左转。因为图中标志的意思是左车道,必须左转。

A. 左转 B、直走 C. 左转并直行 D、右转

鉴于轿车的前置摄像头拍摄的画面,是否有足够的空间围绕前面的灰色汽车行驶?

A、是的 B、不

根据图片,恐龙面向哪个基本方向?Grok-1.5V判断恐龙面朝东。

A、北 B、南 C、东 D、西

这道题看起来比较有难度,用它来考考前段时间爆火的Kimi ChatGPT 以及 Claude 3 SonnetGoogle Gemini 1.5 Pro。

Kimi Chat 虽然可以提取图片上的文字关系,但是没有办法弄清恐龙和指南针的位置关系,直接审错题,导致判断失误。

Claude 3 SonnetGoogle Gemini 1.5 Pro的判断一致,都是西。

但是我们只需要把这张图旋转一下,就可以得到它的位置关系。

xAI表示,Grok-1.5V 很快就会向早期测试者和现有 Grok 用户推出。

今年3月底,在Grok-1.5V之前,马斯克就官宣了 Grok-1.5。

这款新模型在长文本理解和高级推理方面取得了显著进步。

Grok-1.5的核心亮点之一是其对长文本的处理能力,其上下文长度扩展到了128000个token,这比之前的模型提高了16倍。这使得Grok-1.5能够处理更长、更复杂的提示词,同时保持其出色的指令遵循能力。

在“针堆”(Needle In A Haystack, NIAH)评估中,Grok-1.5展示了其在长达128000个token的上下文中检索嵌入文本的强大能力,取得了完美的检索结果。

在推理和问题解决方面,Grok-1.5在编码和数学相关任务上的表现尤为突出。在MATH基准测试中,Grok-1.5取得了50.6%的得分,在GSM8K基准测试中取得了90%的高分,这两个基准测试涵盖了从小学到高中竞赛问题的广泛范围。

此外,Grok-1.5在HumanEval基准测试中也取得了74.1%的得分,该测试评估了代码生成和问题解决能力。

自 2023 年 11 月马斯克的聊天机器人首次亮相以来,马斯克的人工智能公司不断取得进步,从Grok-1到Grok-1.5再到Grok-1.5V,xAI努力追赶 OpenAI 和其他AI公司。

尽管如此,xAI 仍需继续努力,毕竟马斯克最初成立它的目的是为了试图理解宇宙的本质。xAI透露,未来几个月,Grok 的多模态理解和生成能力将有 "重大 "更新。

参考资料:

1、网页链接

2、网页链接

3、网页链接

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦!