AI创投周报|“智象大模型2.0”领航多模态大模型行业应用与发展,Runway 正洽谈4....

发布于: 雪球转发:0回复:1喜欢:1

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。

本图由“千象”(网址:网页链接)生成

本周,我们观察到以下AI领域的新动向和新趋势:

1.“智象大模型2.0”领航多模态大模型行业应用与发展。在2024年世界人工智能大会(WAIC 2024)上,智象未来联合创始人兼CTO姚霆博士发布了“智象大模型2.0”的升级版。这一升级版在1.0版本的基础上,对文本、图像、视频和3D元素的联合建模能力进行了显著提升,尤其在图像美、视频长和质量高三个方面。此外,还面向行业提供3D生成与编辑功能,实现低成本、短周期、批量化的内容生产模式。

2.斯坦福团队提出全新TextGrad框架:用GPT-4o作引擎,自动优化端到端任务。斯坦福大学的研究团队最近推出了一款名为TextGrad的创新框架,该框架利用GPT-4o作为引擎,旨在自动化并优化端到端的人工智能任务。TextGrad的推出,标志着AI系统自我优化的重要进展,它通过语言实现了AI的自我认知和自我修正。

3.Runway 正洽谈新一轮 4.5 亿美元融资,估值达 40 亿美元。Runway,一家专注于为好莱坞和业余电影制作人生成视频的人工智能软件的初创公司,已经在同类企业中获得了最佳资金支持,并且正在尝试通过新一轮的融资来加强其领先地位,计划以约40亿美元的估值筹集4.5亿美元的资金。Runway的AI视频生成技术在娱乐和媒体制作领域具有广泛的应用前景,其技术能够提高视频制作的效率和质量,同时降低成本。

如果您对人工智能的新浪潮有兴趣,有见解,有创业意愿,欢迎扫码添加“阿尔法小助理”,备注您的“姓名+职位”,与我们深度连接。

人工智能产品和技术的新突破

1.“智象大模型2.0”领航多模态大模型行业应用与发展

在2024年世界人工智能大会(WAIC 2024)上,智象未来联合创始人兼CTO姚霆博士发布了“智象大模型2.0”的升级版。这一升级版在1.0版本的基础上,对文本、图像、视频和3D元素的联合建模能力进行了显著提升,尤其在图像美、视频长和质量高三个方面。智象大模型自上市以来,以其友好的操作界面、卓越的成像效果和便捷的应用性,成为大众首选的AIGC大模型应用平台。

“智象大模型2.0”在图像生成方面,特别在处理长文本输入时,展现了其深入理解文本内容并转化为具有高度视觉艺术性图像的能力。新增的「文字嵌入生成」能力,使得文字和图像的结合更加自然和谐。在视频生成领域,该模型在保持4K高画质的同时,实现了视频画面的流畅自然,且将提供多种视频生成时长和尺寸的组合,满足商业化应用的需求。

此外,智象大模型2.0在故事性视频生成领域支持剧本多镜头视频生成和IP连贯一致性等功能,面向行业提供3D生成与编辑功能,实现低成本、短周期、批量化的内容生产模式。智象未来自2023年3月成立以来,已确立清晰的“多模态大模型+应用”的布局,与多家知名企业建立了战略合作关系,推动AI技术在云端服务等领域的应用。

智象大模型是智象未来自主研发的Diffusion Transformer (DiT)架构模型,是全球首个上线开放使用的图像和视频生成平台。截至目前,智象AI系列产品全球单月访问量超百万,累计AIGC内容生成破千万,服务的头部企业客户近百家,中小企业超三万家,API调用次数达300万余次。智象未来在2024 WAIC中展现的卓越性能,证明了其在技术研发和商业化方面的成就,并预示了多模态大模型行业应用的巨大潜力和发展前景。

来源:智象未来

2.中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑

商汤科技在WAIC现场发布了国内首个流式原生多模态交互模型——日日新5.5系列中的5o,展现了其在AI交互领域的重大突破。5o模型不仅具备拟人化的声音和实时互动能力,还能对简笔画进行精准识别和互动,令观众惊叹不已。

此模型整合了文本、声音、图像和视频等模态,使AI交流更加生动丰富。商汤CEO徐立宣布,这一技术很快将面向公众。此外,商汤还展示了基于日日新5.5能力打造的Vimi模型,它能够通过单张照片生成长达1分钟的可控人物视频,解决了以往大模型在人物生成上的难题。

商汤的日日新5.5采用了混合端边云协同专家架构,优化了推理成本,同时基于超过10TB的高质量训练数据,显著提升了模型的语言理解和交互能力。在OpenCompass的评测中,日日新5.5的表现与GPT-4o持平甚至在某些维度上超越。

商汤CEO徐立强调,重塑交互的重要性在于推动应用进入行业的垂直应用中,引起广泛变化,徐立认为应用是决定人工智能超级时刻的关键。商汤的流式原生多模态交互模型,以其丰富、精准的多模态交互和低延时、可控的特性,预示着AI2.0超级时刻的加速到来。

来源:商汤科技

3.法国8人团队开发出Moshi开源模型,成功对标GPT-4o

法国非营利性AI研究机构Kyutai由8人团队开发出的Moshi模型,在短时间内成功对标了OpenAI的GPT-4o,并宣布开源。Moshi是一款具备听、说、看多模态功能的实时语音交互模型,能够流畅地进行日常对话,并理解提问者的意图。图灵奖得主Yann LeCun亦对Moshi表示认可,称赞其能理解带有法国口音的英语。

Moshi的多模态能力不仅体现在对话上,还包括情绪表达和角色扮演,如用不同口音诵读诗句、以海盗身份讲述故事等。模型的实时交互基于文本和音频混合的联合预训练,利用了Kyutai开发的70亿参数语言模型Helium的合成文本数据。Moshi的微调使用了10万个合成对话,这些对话通过文本到语音(TTS)技术转换,并在一个单独的TTS模型上训练,实现了200毫秒的端到端延迟。

Kyutai还开发了Moshi的小型版本,使其能在普通硬件上运行,强调了负责任的AI使用,开发了检测AI生成音频的水印技术。Moshi的核心是一个70亿参数的多模态语言模型,采用双通道输入/输出系统,同时生成文本token和音频编解码器。训练过程中,模型经过了细致的微调,支持70种不同的情绪和风格。

Moshi的部署展示了其高效率,支持多种后端,并受益于Rust对推理代码的优化。Kyutai对Moshi有长远的计划,包括发布技术报告、开放模型版本,并根据用户反馈进行迭代改进。Moshi的开源发布,体现了Kyutai对透明度和AI社区协作的承诺。

Kyutai作为欧洲首个致力于人工智能开放研究的私人倡议实验室,拥有一支由杰出学者组成的团队,并获得了强大的资金支持。该实验室致力于开发大型多模态模型,推动AI的民主化和科学进步,同时与全球AI生态系统共享其成果。Moshi的成功开发,不仅是小型团队在AI技术上取得的显著成就,也为AI的应用和研究开辟了新的可能性。

来源:网页链接

4.Meta计划将生成性AI技术引入元宇宙游戏

Meta公司正计划将其生成性AI技术更多地应用于游戏领域,特别是虚拟现实(VR)、增强现实(AR)和混合现实游戏,以此重振其表现不佳的元宇宙战略。根据一则招聘信息,Meta正在寻求研究和原型化由生成性AI驱动的“新型消费者体验”,例如每次游玩都不同的游戏,以及遵循“非确定性”路径的游戏。同时,公司计划构建或与第三方创作者和供应商合作,开发能够“改善工作流程和上市时间”的生成性AI工具。

重点将放在Horizon上,这是Meta旗下一系列元宇宙游戏、应用和创作资源。但也可能扩展到“非Meta”平台上的游戏和体验,如智能手机和PC。招聘信息中提到:“这是一个新兴领域,但有潜力创造今天甚至不可能存在的新体验。这一领域的创新可能会对生态系统产生巨大影响,因为它应该能提高效率,并允许创造更多的内容。”

Meta Reality Labs作为负责公司各种元宇宙项目的部门,包括其Meta Quest头显,尽管已售出数千万套Quest设备,但在吸引用户使用其Horizon混合现实平台方面却遇到了困难,并从数亿美元的运营亏损中恢复过来。最近,Meta调整了其元宇宙平台战略,允许第三方头显制造商许可Quest的一些基于软件的功能,如手部和身体追踪。同时,Meta加大了对元宇宙游戏项目的投入——据说这是因为Meta CEO马克·扎克伯格对为Quest头显开发游戏的新个人兴趣。

来源:网页链接

5.上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

由上海交通大学、清华大学、剑桥大学和上海人工智能实验室联合发布的多模态、多类型、多用途的学术视听数据集M3AV,已在ACL 2024大会上被接收。该数据集由上海交通大学博一学生陈哲主导,王钰教授和张超教授作为通讯作者,旨在推动学术视听研究的发展。

M3AV数据集包含近367小时的视频,覆盖计算机科学、数学、医学和生物学等多个学术领域,提供了丰富的多模态信息,如演讲者的语音、面部表情、身体动作,以及幻灯片和论文文本信息。数据集的特点是高质量的人工标注,尤其是命名实体的标注,使其能够支持多模态内容的识别和理解任务。

M3AV数据集在多模态感知与理解方面设计了三个主要任务:基于上下文的语音识别、自发风格的语音合成、幻灯片与脚本生成。实验结果显示,该数据集的多样性和挑战性为现有模型提供了改进空间。例如,在基于上下文的语音识别任务中,使用TCPGen和OCR信息可以显著降低稀有词的词错率。在语音合成任务中,MQTTS模型表现出色,显示了真实语音数据在模拟自然语音方面的重要性。幻灯片与脚本生成任务则强调了高质量多模态预训练数据的必要性。

M3AV数据集的发布为学术界提供了一个宝贵的资源,有助于评估和提升AI模型在处理多模态学术内容方面的性能。论文作者还详细介绍了数据集的创建流程和分析方法,并构建了基准实验来进一步探索数据集的潜力。通过这些努力,M3AV有望促进学术视听领域的研究和应用发展。

来源:网页链接

6.斯坦福团队提出全新TextGrad框架:用GPT-4o作引擎,自动优化端到端任务

斯坦福大学的研究团队最近推出了一款名为TextGrad的创新框架,该框架利用GPT-4o作为引擎,旨在自动化并优化端到端的人工智能任务。TextGrad框架通过将大型语言模型(LLM)等AI组件视为计算图中的节点,使用自然语言作为媒介来实现不同组件间的梯度传递,从而优化整个系统的性能。

TextGrad的核心思想是将输出的文本反馈反向传播到所有可能的早期组件,以此来优化系统中的各种变量。这一过程类似于PyTorch中的反向传播,但传播的是文本形式的反馈而非数值梯度。TextGrad的普适性体现在它能够与任何支持自然语言输入输出的LLM或其他API无缝协作,且不要求计算图中的其他函数可微。

该框架的应用前景广阔,它不仅能够优化提示(prompt)工程,提高问答准确率,还能优化模型输出,如LeetCode问题的代码生成,以及在药物探索和肿瘤放疗治疗计划中发挥作用。TextGrad通过自动搜索最优的任务描述参与优化,使开发者从繁琐的提示工程中解放出来,有助于自动找到更好的in-context learning范式。

TextGrad的推出,标志着AI系统自我优化的重要进展,它通过语言实现了AI的自我认知和自我修正,为解决当前AI领域的“幻觉问题”提供了新思路。TextGrad已经在科学和医学问题上得到应用,预示着语言驱动优化在未来AI发展中的重要作用。

来源:网页链接

7.超越GPU:Innatera与AI硬件领域的悄然崛起

随着传统深度学习架构的局限性和能源需求日益明显,一种名为神经形态计算的新兴范式正在AI硬件领域悄然兴起,它承诺将大幅降低AI的计算和能源需求。Innatera公司,作为神经形态芯片领域的领先初创企业,其CEO Sumeet Kumar解释说,神经形态处理器的设计灵感来源于生物大脑处理信息的方式,使用通过尖峰通信的人工神经元网络,模拟真实神经元的工作机制。

这种受大脑启发的架构为边缘计算应用提供了独特优势,特别是在消费设备和工业物联网中。Kumar强调了几个引人注目的用例,包括始终在线的音频处理、机器人和自主系统的实时传感器融合,以及超低功耗计算机视觉。

Innatera的旗舰产品Spiking Neural Processor T1,展示了这些优势,它结合了事件驱动计算引擎、传统CNN加速器和RISC-V CPU,为电池供电设备中的超低功耗AI提供了一个全面的平台。Kumar表示,与传统方法相比,Innatera的神经形态解决方案可以减少500倍的能耗,并实现比竞争对手快100倍的模式识别速度。

尽管大型语言模型占据了头条新闻,但行业领导者正在悄悄认识到需要根本新的芯片架构。例如,OpenAI的CEO Sam Altman个人投资了另一家神经形态芯片初创公司Rain,表明他认为实现更高级AI可能需要根本性的计算架构转变。

神经形态计算代表了芯片设计中最激动人心的前沿之一,有潜力实现新一代智能设备,这些设备不仅更强大,也更可持续。随着这些受大脑启发的芯片进入消费设备和工业系统,我们可能正处于人工智能新时代的边缘——一个更快、更高效、与生物大脑卓越能力更紧密对齐的时代。

来源:网页链接

8.Salesforce证明“少即是多”:xLAM-1B“小巨人”超越更大AI模型

Salesforce推出了一款名为xLAM-1B的AI模型,虽然仅有10亿参数,却以其出色的性能在功能调用任务中超越了包括OpenAI和Anthropic等行业领导者的更大型模型。这一成就源于Salesforce AI Research团队在数据整理上的创新方法,他们开发了APIGen,这是一个自动化流水线,用于为AI模型训练生成高质量、多样化且可验证的数据集。

xLAM-1B的关键在于其训练数据的质量和多样性。APIGen利用了21个不同类别的3673个可执行API,并对每个数据点进行了严格的三阶段验证过程,包括格式检查、实际函数执行和语义验证。Salesforce的方法表明,即使只有70亿参数的模型,也能在Berkeley Function-Calling Benchmark上达到最先进的性能,超越了多个GPT-4模型。此外,他们的10亿模型也展现出了卓越的性能,超越了GPT-3.5-Turbo和Claude-3 Haiku。

xLAM-1B的小巧体积使其非常适合在设备上的应用程序,其中较大的模型可能不切实际。这对于企业AI来说意义重大,可能允许在智能手机或其他计算资源有限的设备上运行更强大、更响应迅速的AI助手。

Salesforce的这一突破可能会引发AI行业的新研究浪潮,专注于优化AI模型,而不仅仅是使它们变得更大。这可能会减少目前高级AI能力所需的巨大计算资源。此外,xLAM-1B的成功可能会加速设备上AI应用的发展,目前许多高级AI功能依赖于云计算,因为模型的体积和复杂性。如果像xLAM-1B这样的较小模型能提供类似能力,它可能会实现更强大的AI助手,直接在用户的设备上运行,提高响应时间并解决与基于云的AI相关的隐私问题。

来源:网页链接

人工智能初创公司的新融资

1.Quantum Rise 获得1500万美元种子轮投资,推动其AI驱动的“咨询2.0”初创企业

官方网站:网页链接

芝加哥初创公司Quantum Rise专注于为企业提供AI驱动的自动化服务,例如为零售分析平台dunnhumby提供服务。该公司从Erie Street Growth Partners处获得了1500万美元的种子轮融资。Quantum Rise的业务模式与UiPath相似,后者以将机器人流程自动化带入企业而闻名,但Quantum Rise更广泛地关注公司面临的AI障碍,并提供更多的“手把手”支持。

Quantum Rise采用所谓的“咨询2.0”模式,将AI部署到企业中,以自动化工作流程、提供路线图和定制的AI解决方案,从而加速业务发展。该公司是Alex Kelleher的第二次创业,他曾是广告技术平台Cognitive Match的创始人,该平台于2014年被Magnetic收购。

AI驱动自动化的潜在市场机会方面,咨询巨头BCG预计到2024年将有五分之一的收入来自帮助公司整合AI,到2026年这一比例将达到40%。与此同时,IBM已确保与生成性AI相关的超过10亿美元的销售承诺。这表明,快速行动的初创公司有机会进入这个领域,这也是Kelleher押注Quantum Rise的原因。

Kelleher认为,将人类和机器智能结合起来是目前的机会所在。他告诉TechCrunch:“整个咨询行业即将崩溃,因为它建立在人们的时间上,缺乏自动化。我们将为该领域带来强大的工程能力。这些3亿美元公司的CEO不知道从哪里开始的人数是巨大的。他们负担不起像德勤这样的公司。这就是我们介入的地方。他们希望有人进来并自动化公司,让它发生。

2.Bitmagic融资400万美元,用于AI平台开发,该平台可从消费者提示生成3D游戏

官方网站:网页链接

芬兰赫尔辛基的Bitmagic公司完成了400万美元的融资,用于推进其基于生成性AI的平台,该平台能够让消费者通过文本提示创建3D游戏。Bitmagic平台已在Steam Playtest上向公众免费开放,这一里程碑突显了公司通过创新的文本到游戏平台,使游戏开发民主化,让任何人只需几秒钟内输入他们想要的游戏场景,即可创建完全可玩的多人游戏。

本轮融资由韩国最大的风险投资投资者Korea Investment Partners(KIP)领投,其他参与者包括Supercell、Sisu Game Ventures和一群著名天使投资者,包括《堡垒之夜创意》前高级产品设计总监Zak Phelps和DDM(Digital Development Management)合伙人Maarten De Koning。

Bitmagic的平台利用生成性AI将文本描述转换为完全互动的多人3D游戏,这项技术消除了传统游戏开发的障碍,使用户能够轻松地将他们的游戏创意变为现实。公司首席执行官Jani Penttinen表示,这笔投资将推动他们让游戏创作对每个人都可访问的努力,在游戏行业中释放出新的创造力浪潮。

Penttinen和董事长Samuli Syvähuoko是90年代初芬兰游戏行业的“创始人”之一。首席运营官Markus Kiukkonen,EA芬兰前负责人,为团队带来了重要的运营和扩展专业知识;技术领导Markus Hjort拥有超过二十年的构建超可扩展软件平台的专业知识;AI专家Jouni Mannonen是Hybrid Graphics的联合创始人,现为Nvidia的赫尔辛基办公室,是计算机图形和AI先进处理解决方案的市场领导者。

3.LeyLine完成首轮数百万美元融资,为创意行业提供一站式AI工作流平台

官方网站:网页链接

西雅图初创企业「LeyLine」宣布已完成首轮数百万美元的融资,旨在创建全球首个AI赋能的人机混合智能生态系统,专为游戏、短剧、动画和CG等内容制作行业设计。本轮由春华创投领投,参与者包括Taihill Venture和多位知名天使投资人。

LeyLine的创始团队由具有不同领域丰富经验的专家组成,包括NLP科学家、CG行业资深制片和投行及跨国企业前高管。公司已发布全球首个AI驱动的混合智能平台,该平台集成了AIGC工具,无缝应用于UE、Maya、Blender和Max等行业领先应用中,大幅降低生产成本。

LeyLine的愿景是利用AI技术为小型独立工作室提供发展推力,帮助小团队甚至个人实现低成本制作大片和3A游戏。平台通过API提供初稿,缩短耗时工作步骤,同时保留艺术家的最终决策权。人才匹配功能将客户与专业艺术家和工作室连接,通过统一的云管线管理数据和文件架构,确保沟通和质量控制。

LeyLine采用“免费增值”模式,提供免费基础功能,同时重度用户可通过付费订阅解锁高级功能。公司目前有17名员工,分布在西雅图、欧洲和亚洲,并已有两个Beta客户,通过LeyLine进行数千万美元的动画制作。White Spot Films GmbH作为早期使用者之一,已利用LeyLine技术节省了15%至20%的生产成本。

LeyLine的技术和远程协作能力已降低多达30%的成本,使艺术家在创作流程的每个阶段都能精准控制自己的输出。公司期望通过提供几乎免费的混合智能生态系统,将人类创造力与AI模型结合,赋能艺术家,彻底改变创意产业。

4.AI编程初创公司Magic在新融资轮中寻求15亿美元估值

官方网站:网页链接

AI编程初创公司Magic正在寻求通过新一轮的融资来实现15亿美元的公司估值,这一消息得到了知情人士的确认。Magic公司专注于利用人工智能技术来辅助编程,提高开发效率,减少编程过程中的错误和时间成本。该公司的AI技术能够理解编程语言和代码结构,为开发者提供智能的代码补全、错误检测和自动化测试等功能。

Magic公司的这一轮融资显示了投资者对其技术和市场前景的高度认可。尽管文章没有提供关于融资规模和投资方的详细信息,但这一估值表明Magic公司在AI编程领域的领先地位和增长潜力。随着AI技术的不断发展和应用,Magic公司有望进一步扩大其市场份额,为更多开发者和企业提供智能化的编程解决方案。

此外,Magic公司的高估值也反映了当前AI领域的投资热潮。随着机器学习和自然语言处理等技术的进步,AI在各个行业的应用越来越广泛,从医疗健康到金融服务,再到软件开发,AI技术的潜力正在被不断挖掘。Magic公司的融资和估值不仅对公司自身是一个重要的里程碑,也代表了整个AI行业的发展态势。

5.硅基流动完成近亿元融资:加速生成式AI技术普惠进程

官方网站:网页链接

硅基流动(SiliconFlow)近期宣布完成了近亿元人民币的天使+轮融资。本轮融资由知名产业方领投,智谱AI、360和水木清华校友基金等参与跟投,老股东耀途资本超额跟进,华兴资本担任独家财务顾问。融资的完成不仅是对硅基流动技术实力和市场前景的认可,也将为其提供未来发展的强劲动力。

硅基流动专注于AI基础设施(AI Infra)领域,旨在降低AI应用的开发和使用门槛。公司由前OneFlow创始人及CEO袁进辉领衔,他是微软亚洲研究院的前主管研究员,拥有全球顶尖的AI Infra技术能力。硅基流动的自研产品包括SiliconLLM大模型推理引擎和OneDiff推理加速引擎,这些产品在推理效率和性能上达到业内领先水平。

硅基流动近期发布了一站式云服务平台SiliconCloud,提供高效能、低成本的多品类AI模型服务(MaaS),在公测期间便获得爆发式增长,日均调用数十亿Token。SiliconCloud平台通过自研推理引擎套件大大降低了大模型推理成本,为用户提供了超高性能体验。

硅基流动的产品已在大语言模型推理、文生图、视频生成等多个行业中广泛应用,并与多家大客户建立战略合作伙伴关系。公司致力于推动AGI技术的普及与应用,实现人工智能普惠人类的愿景。本轮融资后,硅基流动将与行业上下游合作伙伴开展模型、系统、硬件联合优化和技术探索,并在市场推广、销售渠道、生态建设等方面广泛合作,以期在全球AI基础设施市场中占据领先地位。

6.Runway 正洽谈新一轮 4.5 亿美元融资,估值达 40 亿美元

官方网站:网页链接

Runway,一家专注于为好莱坞和业余电影制作人生成视频的人工智能软件的初创公司,已经在同类企业中获得了最佳资金支持,并且正在尝试通过新一轮的融资来加强其领先地位。据参与交易的人士和与Runway高管交谈的人士透露,该公司正在与投资者商谈,计划以约40亿美元的估值筹集4.5亿美元的资金。

General Atlantic,一家总部位于纽约的私募股权和成长阶段投资者,据参与交易的人士称,目前正在商谈领导这一轮融资。Runway的AI视频生成技术在娱乐和媒体制作领域具有广泛的应用前景,其技术能够提高视频制作的效率和质量,同时降低成本。如果融资成功,这将为Runway带来更充足的资金支持,以进一步发展其技术并扩大市场份额。

此次融资的规模和估值显示出投资者对Runway技术和市场潜力的高度认可,同时也反映了AI视频生成领域的快速增长和市场对此类技术解决方案的迫切需求。Runway的成功融资可能会吸引更多的关注和资本进入这一领域,推动AI在视频制作行业的应用和发展。

本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。

更多精彩内容

关于阿尔法公社

全部讨论

2.中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑
商汤科技在WAIC现场发布了国内首个流式原生多模态交互模型——日日新5.5系列中的5o,展现了其在AI交互领域的重大突破。5o模型不仅具备拟人化的声音和实时互动能力,还能对简笔画进行精准识别和互动,令观众惊叹不已。
此模型整合了文本、声音、图像和视频等模态,使AI交流更加生动丰富。商汤CEO徐立宣布,这一技术很快将面向公众。此外,商汤还展示了基于日日新5.5能力打造的Vimi模型,它能够通过单张照片生成长达1分钟的可控人物视频,解决了以往大模型在人物生成上的难题。
商汤的日日新5.5采用了混合端边云协同专家架构,优化了推理成本,同时基于超过10TB的高质量训练数据,显著提升了模型的语言理解和交互能力。在OpenCompass的评测中,日日新5.5的表现与GPT-4o持平甚至在某些维度上超越。
商汤CEO徐立强调,重塑交互的重要性在于推动应用进入行业的垂直应用中,引起广泛变化,徐立认为应用是决定人工智能超级时刻的关键。商汤的流式原生多模态交互模型,以其丰富、精准的多模态交互和低延时、可控的特性,预示着AI2.0超级时刻的加速到来。