华泰 | 科技年度报告:应用篇 - AI大模型需要什么样的软件和硬件

发布于: Android转发:0回复:0喜欢:5

核心观点

华泰观点:关注AI大模型 x 硬件的两条思路

从22年11月OpenAI推出ChatGPT至今,我们看到Chatbot应用的能力不断增强,从最初的文字问答,迅速向具有自主记忆、推理、规划和执行的全自动能力的AI Agent发展。我们认为端侧智能是大模型发展的重要分支。建议投资人沿着:1)大模型如何赋能终端,2)终端如何解决大模型普及难点两条思路,寻找硬件的落地机会。我们看好1)Apple Intelligence推动苹果用户换机,2)交互能力提升推动轻量级AR开始普及,3)隐私保护需求推动办公用 PC AI化等三大机会。

具备记忆、推理、规划、执行能力的AI Agent可能是大模型的最终形态

大模型的应用能力最初功能仅限于文字问答,此后逐渐引入图像理解、文生图功能,并通过GPT Store拓展功能,形成了AI Agent雏形,近期GPT-4o则实现了具备情感的互动。用户数方面,根据Similarweb,24年5月ChatGPT的PC+移动端独立访客数达到3亿,在全球所有网站中排名第22。我们认为大模型的演进方向是智能化和自动化程度逐渐提升,最终形态是AI Agent,具有自主记忆、推理、规划和执行的全自动能力。

观点#1:Apple Intelligence推动苹果用户换机,利好产业链业绩增长

6/11, 苹果WWDC 2024大会推出由苹果自研的端侧大模型、云端大模型、以及OpenAI的ChatGPT组成的全新智能系统Apple Intelligence。从功能上来讲,和OpenAI,Google的现有功能差异不大,但由于此类功能只在iPhone 15 pro/max及以后系列搭载,有望推动苹果用户换机。根据IDC数字,苹果2023年销量2.34亿台,华泰预测苹果2024年销量下降8.2%到2.15亿台。根据BankMyCell数字,2024年苹果手机活跃用户14.6亿人,对应目前换机周期6.23年,如果Apple Intelligence能够缩短换机周期3个月,可以带动约1000万台新机销售。利好苹果产业链公司业绩增长。

观点#2:交互能力提升推动轻量AR普及

AR/VR被认为有望替代手机成为下一代移动终端。但由于缺少触摸屏,人机交互困难一直是困扰其发展的一大难点。从最近谷歌推出的Project Astra以及Meta的雷朋眼镜中我们看到,大模型所具备的图像理解、语音交互,以及根据语音交互结果进行的执行能力有望大幅度提高AR眼镜的交互能力。目前具身智能的发展仍处于非常早期的阶段,但是大模型所具备的以上能力有望大幅提高机器人对环境的理解能力,以及根据理解结果控制关节等的执行能力。

观点#3:隐私保护需求推动办公用 PC AI化

23年3月,微软推出面向Office的Microsoft 365 Copilot以来,以办公助手为切入点,重塑包括Word、Excel、 Powerpoint等通用办公软件,以及Dynamics套件等专业软件在内的生产力工具矩阵,向数据协同、功能联动的方向发展。如何保护自身私域数据的安全是企业导入微软Copilot的主要痛点之一。24年5月,微软推出Copilot+PC,通过在终端侧部署轻量级的大模型,在保护隐私的前提下,能够实现会议纪要、文档总结、PPT智能创作、文生图等企业的基本办公需求,是大模型时代生产力工具的主要支点。我们认为2025年AI PC渗透率有望大幅提升。

风险提示:中美贸易摩擦加剧的风险;半导体周期下行的风险;下游需求复苏进度低于预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

正文

应用:AI大模型需要什么样的软硬件

从2022年11月OpenAI发布ChatGPT以来,科技巨头积极推出各类应用来吸引客户。目前比较主流的应用包括:

1) 聊天机器人:具备语言问答、文本生成、图像理解与生成等功能,代表性产品包括ChatGPT、谷歌Gemini、字节豆包、百度文心一言等。

2) 编程工具:具备自动代码生成、代码分析与错误检测、实时编程建议等功能,代表性产品包括Github Copilot、谷歌AlphaCode2等。

3) 生产力工具:通常提供文档理解、文字生成、图片生成、数据分析与处理等功能,代表性产品包括微软Copilot、谷歌Gemini for Workspace、金山办公WPS AI。

硬件是大模型的重要载体,什么是AI大模型时代的最佳硬件形态是投资人最关心的话题之一。我们认为随着大模型能力的不断提升,新的硬件形态会被不断解锁。建议投资人沿着:1)大模型如何赋能终端,2)终端如何解决大模型普及难点两条思路,寻找硬件的落地机会。

大模型如何赋能终端:交互能力提升(轻量级AR),代码执行(具身智能)。AR/VR一直被认为有望替代手机成为下一代移动终端。但由于缺少触摸屏,人机交互困难一直是困扰AR/VR发展的一大难点。从最近OpenAI推出的GPT-4o、谷歌推出的Project Astra以及Meta的雷朋眼镜中我们看到,大模型所具备的图像理解、语音交互,以及根据语音交互结果进行的执行能力有望大幅度提高AR/VR产品的交互能力。另外,虽然目前具身智能的发展仍然处于非常早期阶段,但是大模型所具备的以上能力,也有望提高机器人对环境的理解能力,以及根据理解结果控制关节等的执行能力。

终端如何解决大模型痛点:隐私保护(AI PC)。自2023年3月,微软推出面向Office的Microsoft 365 Copilot以来,以办公助手为切入点,重塑包括Word、Excel、Powerpoint等通用办公软件,以及Dynamics套件等专业软件在内的生产力工具矩阵,向数据协同、功能联动的方向发展。如何保护自身私域数据的安全是企业导入微软Copilot的主要痛点之一。24年5月,微软推出Copilot+PC,通过在终端侧部署轻量级的大模型,在保护隐私的前提下,能够实现会议纪要、文档总结、PPT智能创作、文生图等企业的基本办公需求,是大模型时代生产力工具的主要支点。我们认为2025年AI PC渗透率有望大幅提升。

终端如何解决大模型痛点:高频使用(AI手机)。手机是人们日常生活主要使用的交互终端,具有普及率高、使用频率高的特点,考虑终端算力、存力以及客户应用需求等因素,手机已经成为AI大模型在C端落地的重要设备。去年底至今,随着三星Galaxy S24、Google Pixel 8等重要产品上市,以及苹果WWDC推出Apple Intelligence,手机AI的功能逐渐清晰。目前语音助手、修图、写作助手等功能成为主流。苹果通过Siri,将AI当作手机不同App之间联系的工具,而不是像此前三星和谷歌的AI应用更侧重于让AI去完成单一特定任务。未来AI软件由谁付费或发展成手机品牌商、芯片厂商、软件厂商、消费者的四方博弈,但随着token成本的下降和苹果较大的优质用户基础,模型API成本或持续下降,并推动应用加速普及,AI手机渗透率有望持续提升,形成正向循环。

大模型应用#1:从Chatbot到AI Agent,个人助理重塑手机应用生态

AI大模型的能力进步推动Chatbot在C端广泛“出圈”。Chatbot(聊天机器人)通过自动化方式来处理和回复用户输入,可以模拟人类对话,通过文字或语音与用户进行实时交互。2010年代,随着NLP等技术的发展,Chatbot已经在客服、营销、企业信息服务等领域得到了广泛应用。然而,由于语言理解及生成能力有限,Chatbot的落地范围局限在B端特定服务型场景,并未诞生具有广泛影响力的C端产品。2022年12月,ChatGPT在文本生成、代码生成与修改、多轮对话等领域展现了大幅超越过去AI问答系统的能力,标志着Chatbot行业进入AI大模型时代。此后,Chatbot作为C端用户体验大模型门槛最低的产品,成为大模型厂商的“标配”,谷歌Bard、百度文心一言、阿里通义千问等产品在2023年纷纷推出。

在文字对话功能之外,Chatbot功能随着AI大模型能力的发展而迅速丰富。过去一年,我们看到,各大模型厂商的Chatbot产品普遍新增了图像理解、文生图功能,并且新增应用插件商店以拓展Chatbot功能。以ChatGPT为例,2023年9月,OpenAI将DALL-E 3整合到ChatGPT中,从而支持文生图功能。2024年1月,OpenAI正式上线应用商店GPT Store,当时用户已经创建超过300万个GPTs,主要的GPTs涵盖图像生成、写作、科研、编程/软件开发、教育、生产力工具和生活七大类别。GPT Store取代了此前的插件商店(2024年3月关闭),用户不仅可以在平台上分享自己创建的GPTs,还可以从其他人那里获取各种GPTs,形成丰富的GPTs生态系统。GPT Store定制版本可以针对特定任务或行业进行优化,允许用户与外部数据(如数据库和电子邮件)进行简洁的交互。2024年5月,随着OpenAI更新GPT-4o模型,ChatGPT能够识别用户语音的感情,并输出语音,实现如同与真人对话一般的沉浸式体验。

Chatbot逐渐向AI Agent演进。AI Agent是指大模型赋能的,具备规划、记忆、工具、行动能力的智能体。我们认为Chatbot的演进方向是智能化和自动化程度逐渐提升,需要人类参与的程度逐渐下降,逐渐过渡到人与AI协作的Copilot,最终形态是AI Agent,Agent只需要人类的起始指令和结果的反馈,具有自主记忆、推理、规划和执行的全自动能力,执行任务的过程中并不需要人的介入。

从Chatbot向AI Agent的演进过程中,手机应用生态或将发生改变。我们认为手机或是向AI Agent演进率先落地的硬件载体,发挥AI个人助理的作用。AI个人助理可以记住生活和工作中的各种信息,如下周的晚餐计划或工作会议的内容,并自动整理和索引这些信息;可以帮助用户完成例如安排约会、预订旅行、点餐、播放音乐、回答问题等各种任务。落地过程中,手机应用生态或将从目前以应用商店+APP的模式转变为Agent Store+Agent的模式,手机厂商可能都会发布自己的Agent Store。

AI手机:AI大模型驱动软硬件升级

手机是人们日常生活较高的交互终端,具有普及率高、使用频率高的特点,考虑终端算力、存力以及客户应用需求等因素,手机已经成为AI大模型在C端落地的重要设备。去年底至今,随着三星Galaxy S24、Google Pixel 8等重要产品上市,及苹果WWDC推出Apple Intelligence,手机AI的功能逐渐清晰。目前语音助手、修图、写作助手等功能成为主流。

以三星今年1月发布的Galaxy S24为例,该机型搭载自研大模型Samsung Gauss,具备实时翻译/圈选搜图/生成式编辑/笔记助手等功能。软件方面,基于OneUI 6.1系统,强化虚拟助手Bixby,为用户提供丰富多样的应用服务。据Techweb,Google有望在10月推出Pixel9系列,预计将搭载基于最新Gemini模型的AI助手,执行复杂的多模态任务。芯片方面,下半年将发布的骁龙8Gen4较上一代产品有望进一步支持AI应用。

2024年6月举行的苹果WWDC 2024大会推出全新个人化智能系统Apple Intelligence,由苹果端侧大模型、云端大模型、ChatGPT共同组成,算力足够下依赖终端,复杂场景则使用私密云计算或ChatGPT,能够1)增强Siri理解能力,配备多轮对话、总结信息、屏幕内容感知、应用智能交互等能力,2)提供邮件智能回复、通知整理,备忘录和通话录音/撰写/摘要等功能,3)支持图像生成/智能修图等功能,4)ChatGPT4o将融入siri和writing tools,作为云端备选模型。我们看到Apple Intelligence核心能力包括文生文、文生图、跨App交互与个人情境理解,并需要以OpenAI ChatGPT4o作为云端备选模型,配备上了目前已有的大部分AI功能。苹果通过Siri,把AI当作手机不同App之间联系的工具,而不是像此前三星和谷歌的AI应用更侧重于让AI去完成单一特定任务。苹果让Siri在未来成为应用分发入口和流量入口,以超过13亿台用户基数生态去提供好的产品解决方案。

IDC认为,新一代AI智能手机需拥有至少30 TOPS性能的NPU,能够在手机上运行LLMs,符合标准的SoC包括Apple A17 Pro、MediaTek Dimensity 9300、Qualcomm Snapdragon 8 Gen 3等。此类手机在2023年下半年开始进入市场。

硬件方面,我们看到:1)SoC:AI引擎升级、NPU算力提升,SoC进一步升级确定性强;2)存储:手机RAM升级至24GB LPDDR5X,相较当前主流的8GB LPDDR4X,成本提升300%;3)电源:电池/电源管理芯片升级,但弹性相对较小;4)光学:AI推动屏下摄像头应用取得突破。软件方面,新一代AI智能手机在系统架构和应用方面更加注重个性化、场景化服务需求。

软件方面,与功能机和前代智能机相比,新一代AI智能手机更加注重场景化服务能力。前代智能机在功能机的基础上增加了手机OS和内嵌语音助手,并针对用户不同需求推出独立APP进行响应。新一代AI手机在大模型和原生化服务组件库的基础上,提供用户可定义的智能体开发平台和专属智能体,实现AI文本/AI图像/Al语音/Al视频等功能,满足用户健康管理/生活服务/角色扮演/高效办公/游戏助手等场景化需求。

据IDC,全球AI手机2024年出货量有望同比增长233%至1.7亿台。中国AI手机所占份额自2024年以后会迅速增长,预计2024年中国市场AI手机出货量为0.4亿台,2027年将达到1.5亿台,且AI手机渗透率有望在2027年超过50%。我们认为,AI手机以其智能化、个性化的特点,有望吸引更多用户进行换机升级,从而引领新一轮的换机潮。

根据2024年4月7日发布的《4月手机观察:华为份额继续提升,关注P70等新机发布》,根据IDC数字,苹果2023年销量2.34亿台,华泰预测苹果2024年销量下降8.2%到2.15亿台。根据BankMyCell数字,2024年苹果手机活跃用户14.6亿人,对应目前换机周期6.23年,如果Apple Intelligence能够缩短换机周期3个月,可以带动约1000万台新机销售。利好苹果产业链公司业绩增长。

AR/VR:AI大模型交互能力,看好智能眼镜等轻量级AR发展机遇

AI大模型有望提升AR/VR交互能力,加速其进入主流市场。据IDC,2023年,AR/VR产品全球出货量675万台,同比-23%。随着苹果VisionPro发布,AR/VR/MR出货量在2024年有望温和复苏。AI大模型的出现驱动语音助手、物体识别和生活助理等功能赋能AR/VR设备,提升了用户与虚拟环境的互动质量,据VR陀螺(2024/6/5),Meta雷朋智能眼镜出货量已超百万副,AI大模型的出现有望加速AR/VR技术进入主流市场的步伐。

语音助手、物体识别、生活助理等AI功能已在AR/VR产品中广泛出现。语音助手功能让AR眼镜能够通过上下文语义理解与用户进行更自然的交流,如李未可Meta Lens S3通过大型语言模型AI系统提供闲聊和建议。物体识别技术使AR眼镜能够识别现实世界中的物体,例如Meta雷朋智能眼镜引入建筑识别和菜单翻译功能。此外,生活助理功能与用户的社交生活深度绑定,提供聊天回复、邮件整理、购物建议等个性化服务。这些AI功能的融合不仅提升了用户体验,还预示着AR/VR产品将更加智能化,为用户提供更便捷和个性化的服务。随着技术的不断进步,预计未来AR/VR设备将实现更复杂的多模态AI应用,进一步增强其作为下一代计算平台的潜力。

大模型应用#2:生产力工具的AI化推动新一轮PC换机周期

生产力工具、沟通工具及协作工具经历了PC时代、移动互联网时代的演进,正在进入AI时代。微软谷歌金山办公等公司以AI大模型对原有的生产力工具应用进行升级,通常提供文档理解、文字生成、图片生成、数据分析与处理等等功能,提升用户生产力。

微软是全球生产力工具的领导企业,围绕企业业务与管理流程,已经形成了布局完整的产品矩阵,目前正主导生产力工具的AI化。微软的产品矩阵覆盖企业办公、客户关系管理、资源管理、员工管理、低代码开发等业务环节,微软已经围绕这些业务环节,推出相应的Copilot产品,对原有产品进行AI大模型赋能。从Copilot时点来看,微软首先在主力产品Office套件上线Copilot,然后逐步在企业业务与管理流程的Dynamics套件、开发相关的Power Platform条件、员工管理的Viva套件上线Copilot。我们认为Copilot正以“通用助手”为切入点,重塑微软生产力工具矩阵,向数据协同、功能联动的方向发展。目前办公场景Office、企业业务流程场景Dynamics下的Copilot已明确单品收费标准。微软的Copilot产品分为和家庭两大场景。

工作场景方面:1)面向企业办公场景推出Copilot for Microsoft 365,根据微软FY3Q24(对应日历季度1Q24)业绩会,近60%的财富100强企业正在使用。2)面向企业流程中的财务、销售和客服场景,分别推出Copilot for Finance/Sales/Service;3)面向云运营和管理场景,推出Copilot for Azure;4)面向IT安全场景,推出Copilot for Security;5)此外,微软推出Copilot Studio支持用户自定义Copilot,根据1Q24业绩会,已有3万名用户使用。

家庭应用方面:1)面向C端用户办公场景推出Copilot Pro;2)面向Win 11和部分Win 10推出Copilot for Windows,支持通过任务栏上或键盘上的Copilot按钮进行快速访问;3)在Bing搜索、Edge浏览器推出Copilot。

谷歌将Gemini大模型内置在其2B云端办公套件Workspace中。谷歌将Gemini for Workspace的功能定义为:1)写作,例如生成项目计划、提案、简报等、以及优化文本;2)整理,例如通过简单描述创建项目跟踪表格;3)创建图像;4)联系,例如在视频通话中创建自定义背景,提高声音和视频质量;5)无代码创建应用。

金山办公WPS已陆续在主要产品上线WPS AI服务。WPS AI已经覆盖文字、演示、PDF、表格、智能文档、智能表格、智能表单等产品,涵盖了金山办公的主要产品。此外,金山办公发布了WPS AI企业版,推出AI Hub(智能基座)、AI Docs(智能文档库)、Copilot Pro(企业智慧助理)三大功能。

编程:AI协助编程开发,提高开发效率与质量

AI编程工具在功能上具有高度相似性,主要包括自动代码生成、代码分析与错误检测、实时编程建议。AI工具的应用极大地提高了开发效率,自动完成编写样板代码、设置环境和调试等重复性任务,使得开发者能腾出时间进行创造性开发;实时语法与错误检查功能有助于提升代码质量,减少代码调试时间,加快开发过程。根据微软官网调查数据,使用AI工具辅助编程后,74%的开发人员反映能够专注于更令人满意的工作,88%的使用者感觉工作效率更高,96%的开发人员在处理重复性任务时速度更快。

GitHub Copilot是AI编程领域最具代表性的AI工具,由OpenAI与Microsoft合作开发。Copilot具备强大的网络搜索和推理决策能力,能回答开发过程中的问题。比如通过自然语言描述需求,Copilot可以自动生成代码,并提供部署建议。据微软FY3Q24(对应日历季度1Q24)业绩会,GitHub Copilot付费用户数已达到180万,环比增速35%以上,收入同比增长超过45%。2024年5月微软Build大会进一步升级GitHub Copilot,包括1)更新Extensions,提升开发者的效率。开发者在编写代码之外花费了75%的时间用于追踪工作流和撰写文档。Extensions将所有流程整合在一起,可从Neovim、JetBrains IDE、Visual Studio 和 Visual Studio Code等多种编辑器实时工作,减少上下文切换,开发者只需专注于核心代码。2)推出Copilot Workspace,提高团队使用GitHub管理项目的效率,提供清晰的代码变动可视化界面,增强项目掌控感。3)推出Copilot connectors,便于开发者用第三方数据和应用定制Copilot,提升开发效率。例如,开发者可以用西班牙语语音要求Copilot用Java编写代码,或询问Azure资源的可用性。

PC:AI PC 24年下半年渗透率有望持续提升

AI PC = 边缘算力+内置大模型。目前AI PC定义众多,芯片厂商、PC品牌厂商、第三方机构均各自有自己的定义。我们认为广义来说,处理器具有NPU提供的边缘算力能力,以及具有内置大模型,就可以称之为一款AI PC。以联想4/18推出的AI PC系列产品看,目前AI PC主流功能可以分为8类,PPT智能创作、文生图、文档总结、智能问答、AI识图、会议纪要、智会分身、设备调优,我们认为这是公司在AI PC的初期尝试,预计24年底全新一代AI PC随着处理器升级而推出后,全球AI PC渗透率有望更快提升。

IDC预计全球PC出货总量稳定增长,AI PC渗透率持续提升,2027年或达60%。根据IDC数据,2023年全球PC出货量约2.5亿台,AI-capable PC出货量0.25亿台,市占率约为10%;2024年全球PC出货量2.75亿台,AI-capable PC市占率约19%;预计到2027年,全球PC出货量为2.93亿台,届时AI-capable PC市占率有望达到60%。

AI PC下NPU与独立GPU方案或将长期共存。AI应用落地将对PC算力提出更高要求,高通、英特尔、AMD等芯片厂商纷纷展开布局,陆续推出针对AI PC场景优化的芯片产品。在PC侧,使用独立GPU运行AI运载,具备高性能、高吞吐量等优势,但功耗高;NPU方案更具高能效、低功耗等特点,但对高性能要求AI负载支持能力有限。考虑AI任务需求以及用户偏好不同,我们认为AI PC市场使用1)CPU+NPU+GPU处理器(Intel Meteor Lake/AMD 8040等);2)CPU+独立GPU;3)CPU+NPU+GPU处理器+独立GPU等组合作为处理AI负载主力的算力架构方案或将长期共存。

AI PC推动存储规格升级,DRAM最低16GB、LPDDR占比或逐渐提高。1)阿里通义千问7B模型的原始大小是14.4GB,在联想的Lenovo AI now中运行的模型则压缩到了4GB。由此,AI大模型+电脑本身的缓存,大概只要5-6G内存能运行起来,而OS本身需占用5-6GB,故未来运存最低也需要16GB才能保证PC稳定运行。2)根据Trendforce,Qualcomm Snapdragon X Elite、AMD Strix Point及Intel Lunar Lake,三款CPU的均采用LPDDR5x,而非现在主流的DDR SO-DIMM模组,主要考量在于传输速度的提升;DDR5目前速度为4800-5600Mbps,而LPDDR5x则落于7500-8533Mbps,对于需要接受更多语言指令,及缩短反应速度的AI PC将有所帮助。今年LPDDR占PC DRAM需求约30~35%,未来将受到AI PC的CPU厂商的规格支援,从而拉高LPDDR导入比重再提升。

硬件级的安全芯片确保隐私安全。根据联想和IDC联合发布的《AI PC产业(中国)白皮书》,AI PC需要设备级的个人数据和隐私安全保护,除了个性化本地知识库提供本地化的个人数据安全域以及本地闭环完成隐私问题的推理之外,还可能引入硬件级的安全芯片在硬件层面确保只有经过授权的程序和操作才能读取、处理隐私数据。此外联想等厂商也同样在自研AI芯片(如联想拯救者Y7000P、Y9000P、Y9000X、Y9000K四款新品笔记本搭载的搭联想自研AI芯片——LA系列芯片),实现智能的整机功耗分配。

大模型应用#3:AI大模型推动具身智能技术加速迭代

具身智能(Embodied AI)属于人工智能领域的分支,典型应用为自动驾驶和机器人。具身智能是泛指具有物理身体可以与外界环境进行自主交互的AI智能载体。类似于人的自主性,即通过五官(感知)、大脑(规划决策)、小脑(运动控制)完成一系列的行为,具身智能的行动一般也基于:(1)感知并理解与物理世界交互获得的信息、(2)实现自主推理决策、(3)采取相应行动进行交互。目前典型的具有较大落地场景的具身智能应用包括自动驾驶和机器人,最具代表性产品如特斯拉的FSD自动驾驶系统和Optimus人形机器人等。

过去一年,AI大模型助力具身智能的感知、决策等技术进展。如上所述,具身智能算法一般可以按环节拆解为感知模型(感知识别环境信息并预测环境变化)、规划/决策模型(根据感知结果做出任务决策)、控制/执行模型(将决策转换指令转换为行动方式)。我们以行业领军企业特斯拉的发展为例子,观测过去一年AI大模型的运用对具身智能技术带来的促进:

自动驾驶:受益于AI大模型发展,感知和决策层快速迭代。(1)感知层:过去传统的自动驾驶感知技术主要系“2D 直视图+CNN”,核心是识别周遭的障碍物是什么及其大小和速度,效率和精度低。特斯拉2022年10月公布的Occupancy Network大模型(基于BEV+Transformer的延申),通过计算物体的空间体积占用来构建具有空间、时序的4D“实时地图”,获得更加连续、稳定的感知结果。有利于解决障碍物无法识别从而消失问题;同时地图以自车为中心坐标系构建,更好的统一了感知和预测的框架。(2)决策层:过去的决策算法基于一条条事先设定的rule-based的规则,在不同场景下触发行为准则,因此难以解决长尾瓶颈问题。特斯拉决策算法采用交互搜索模型,机器可以自主预测周围环境个体的交互轨迹,并对每一种交互带来的风险进行评估,最终分步决定采取何种策略,让车辆实现更快、更灵活、更拟人的决策行为。(3)控制层:由于汽车的自由度较低,自动驾驶的控制算法主要依据决策模型输出指令,控制线控底盘等部件进行转向、刹车,从而操控汽车驾驶。目前特斯拉FSD V12全面转向端到端架构(一个大模型实现从感知到控制),开始推进商业落地,代码仅2000多行,全面摒弃V11版本超过30万行由工程师编写C++代码。

人形机器人:技术难度远高于自动驾驶,运动控制算法或是关键之一。(1)感知层:人形机器人的外部感知(获取外部环境信息)主要包括视/听/触觉,内部感知(获取自身状态信息)主要是对身体的状态和姿态控制。特斯拉FSD的视觉感知Occupancy Network,可以复用在机器人上,有利于加速机器人多模态感知的发展。(2)决策层:LLM/ VLM/ VLA等通用大模型的不断发展和扩大运用,有望帮助提升机器人的语义和视觉理解能力、问题和任务拆解和推理能力。(3)控制层:机器人,特别是人形机器人的自由度较高,让灵巧手/机械臂完成一系列复杂的任务以及控制直立行走/跑跳等动作需要具备较强的逻辑推理能力,然而大部分运控算法仍处于发展初期,指令生成速度慢且简单,这也是机器人发展亟待突破的关键之一。我们看到特斯拉的人形机器人在2022年10月时只能实现缓慢行走与挥手,2023年12月已经可以流畅的行走与抓取鸡蛋等物品,显示出运控能力的迭代加快。

英伟达构建三大计算机平台推动具身智能发展。英伟达创始人兼首席执行官黄仁勋在2024年GTC大会上表示,“机器人时代已经加快到来,所有移动的东西有朝一日都会是自主的,我们正在努力推进英伟达机器人相关产品,加速实现生成式实体人工智能”。英伟达同时升级了Issac机器人平台,从训练、仿真、推理三方面赋能机器人行业发展。在自动驾驶方面,英伟达同样也推出了Drive平台。

1) 训练平台:用于训练机器人的基础模型。包含英伟达推出的“Project GR00T”人形机器人通用模型、以及其他主流的VLM/LLM等生成式AI通用基础模型,可以在此基础上进行感知、决策、规控等方面训练和强化学习。

2) 仿真平台:在Omniverse基础上打造了机器人仿真平台Isaac SIM。在数字孪生环境中,实现和真实环境一样的开发和测试效果,如获取真实环境中难以得到的数据,可以加快开发流程和减少开发成本。

3) 端侧平台:机器人本体的部分做了低功耗高性能的嵌入式计算平台,以及感知、决策规划等的AI算法增强的应用部署。如英伟达推出的Jetson Thor SoC片上系统开发硬件,内置了下一代Blackwell GPU(此前英伟达也推出过针对汽车的DRIVE Thor套件),带宽达到100GB/s,AI计算性能达到800TFLOPs。

2024年小鹏、华为、理想等在全国多城市开始推送城市NOA高阶智驾,小米、比亚迪、蔚来等也积极布局高阶智能驾驶,行业迎来快速发展。目前国内主要的2条自动驾驶路径依旧存在终局争议——(1)纯视觉(以特斯拉、百度为主);(2)多感知融合(摄像头+激光雷达+毫米波雷达等,是目前大多数主机厂采用的方案)。我们认为,不论是哪种方案,AI大模型的运用都可以加速高阶智驾的发展。特别是在感知端,特斯拉的FSD很好证明了AI大模型可以更大程度提升机器视觉对摄像头输入的图像信息的处理能力,完善视觉感知。但同时,基于Transformer的特征提取,业内,如华为,将激光雷达的点云和摄像头的图像像素进行前融合的能力也有了较大提升。我们认为激光雷达在远距离感知、探测精度和光线要求程度上具有天然优势,融合激光雷达的感知可以更大程度加强包括AEB等智驾安全性。随着激光雷达的价格快速下探到千元机水平,以及AI大模型加强算法对点云等稀疏特征数据处理能力,多感知融合长期依旧有希望成为高阶智驾的主流方案。

机器人方面,垂直类场景机器人如无人运送机、扫地机器人、工厂机械臂等在加速渗透,但通用型人形机器人由于其多模态感知、高精准运控、以及对泛化和涌现能力等要求高,受限于软件难度和硬件高成本压力,或尚难以在短期内实现快速降本及大规模应用。特斯拉研发的Optimus人形机器人作为行业内关注度极高的机器人产品,我们预计将首先量产应用于工厂和仓库,从事较为清晰可控的拣选搬运工作,未来才会逐渐迭代扩大应用场景。据特斯拉在2024年股东大会上的计划,到2025年将有超过1000个甚至几千个具有一定程度自主性的Optimus在特斯拉工作,未来应用规模会不断扩大。

大模型应用#4:大模型是推动云计算发展的 “锚”

我们认为AI大模型是云计算业务的“锚”,云厂商以大模型为重要底座,推动云计算业务向MaaS转型。MaaS是大模型厂商重要的商业模式,提供包括算力、模型、数据工具、开发工具等多种服务。目前已有多家科技巨头将大模型能力部署在云端,或以私有化部署方式提供给企业用户,以模型API调用费、模型托管服务费、按项目收费的定制化解决方案等形式获得收入。海外,微软推出了Azure OpenAI,谷歌推出了Vertex AI,英伟达推出了AI Foundations;国内,阿里、百度、字节跳动、腾讯等公司均推出了基于自有云服务的MaaS模式,商汤等公司也推出了基于自有AIDC和大模型能力的MaaS服务。其中,大模型的来源包括厂商自身训练的闭源模型和开源模型,以及第三方开源模型。以微软Azure为例,用户可选择OpenAI的闭源模型,微软自己的开源模型Phi系列,以及Llama等第三方开源模型。

AI开始拉动云计算收入增长。以微软为例,从2Q23到1Q24的四个季度,AI分别贡献Azure及其他云服务收入增速的1%/3%/6%/7%。谷歌在4Q23、1Q24业绩会上表示,AI对谷歌云的贡献不断提升,对垂直整合的AI产品组合的需求强劲,这为谷歌云在每个产品领域创造新的机会。亚马逊在1Q24业绩会上表示,基础设施建设与AWS AI功能正在重新加速AWS的增长率。生成式AI和模型训练需求驱动,AI收入占百度AI智能云收入在4Q23/1Q24 分别达到4.8%/6.9%,其中大部分收入来自模型训练,但来自模型推理的收入快速增长。

大模型降价吸引客户上云。2024年5月,字节、阿里云、百度、科大讯飞和腾讯相继宣布降价策略,调低面向B端市场的大模型API调用费用。我们认为大模型API降价得益于算力芯片性能的提升与推理部署的优化,其目的在于吸引客户使用公有云,购买云厂商的计算、存储、网络和安全等基础产品。

大模型应用#5:大模型赋能搜索和广告等互联网传统业务

搜索、广告是互联网厂商的代表性传统业务,AI大模型赋能业务效果提升。我们看到AI从算法优化广告推送机制、广告内容生成两方面助力互联网公司广告业务。微软推出Copilot in Bing,Google发布生成式搜索体验(SearchGenerative Experience,SGE),提供更精准、更个性、更智能的搜索结果。其中,微软Bing借力GPT模型能力,市场份额有所提升。

广告:AI算法优化推送机制,生成式AI实现自动化广告制作

AI技术通过算法优化推送机制,提高用户流量与广告转化率。根据Meta Ads公司官网数据,推出Reels短视频后,得益于人工智能驱动的发现引擎,推送内容与用户偏好更加贴合,Instagram用户的平均使用时间增加了24%,超过40%的广告主选择投递Reels形式的广告。Google应用 AI技术改进Lens视觉搜索以及图片文本跨模态多重搜索,Lens 21-23年用户增长四倍,月使用数达到120亿次。

机器学习算法匹配广告和最相关受众,提高广告转化率。Meta Ads引入类似受众和细分定位功能,计算最佳受众群体扩大方式来优化转化量和改善广告表现。类似受众功能通过一系列指标,如过去购买过同类商品、访问过广告主的网站等来挑选最有可能转化的潜在用户进行广告推送。根据Meta官网数据,该工具令单次增量转化费用中值降低 37%。Google使用AI驱动的竞价系统,通过排序最大点击次数出价在整个营销漏斗中进行优化,以推动用户对目标网站的访问等购买意向性行为,并统计广告转化数据,生成归因报告,向广告主推荐值得出价的高效指标。

生成式AI实现自动化广告制作,提高广告创意表现与营销效果。

1)Meta Ads推出内置免费AI广告创作工具Advantage+ Creative,实现广告简化生成与标准美化,助力提高广告创意表现与营销效果。Advantage+ Creative细分功能包含文本衍生、背景生成、智能扩图、风格化制作等,广告主只需提供广告创意和业务受众,AI即可创建多个版本的广告,并挑选出最有可能得到目标受众响应的版本。它也可对广告进行细微改进——比如调整亮度、宽高比和文本布局。Advantage+ Creative有效地降低广告主投入的时间与成本,并提升广告表现。根据Meta官网调查数据,采用Advantage+ Creative的广告主所获得的广告支出回报率(ROAS)提高了32%,其中77%的广告主表示每周得以节约数小时的时间。

2)Google利用人工智能,根据查询上下文即时优化搜索广告,并通过机器学习算法增强广告视觉呈现效果。借助生成式AI技术,Performance Max可以大幅简化广告主的广告制作流程,根据广告主提供的产品网址自动填充广告文本与生成广告图片。此外,当目标受众使用搜索引擎时,Google利用自动创建素材技术优化搜索广告(ACA),重组现有广告生成更贴合查询内容的新标题与图文。广告系列Demand Gen亦能通过机器学习算法将最佳视频和图片素材资源集成到视觉效果最强的接触点中,避免遮挡,帮助广告主在最具沉浸感的视觉界面上吸引更多消费者。根据Google 2022年中期报数据,采用Performance Max使得广告主获得转化客户的成本下降,单次操作费用(CPA)中值减少17.3%;在支付同等费用情况下,广告转化次数增长了18%。

搜索:引入大模型后,Bing份额提升

谷歌:从理解式AI到生成式AI,搜索引擎巨头广泛应用人工智能技术。谷歌享有搜索市场大部分份额,早期对人工智能技术的应用主要以理解式AI为主。根据StatCounter统计结果,2015年至今谷歌在PC与移动端综合搜索量的市占率均超过90%。机器学习在谷歌产品中的第一个应用是2001年的拼写纠正系统,帮助忽略人们搜索内容的拼写错误而得到正确结果。随后谷歌于2019年使用BERT进行检索句子整体拼读以优化搜索排名系统,并开发能力优于BERT 1000倍的多模态、多线程统一大语言模型MUM,以理解和组织网页内容。

随着搜索总量的增加和用户需求的多元化,有效率、高质量的多模态交互搜索成为发展趋势。谷歌于2023年开始启动搜索生成式体验(SGE)实验,以生成式AI大模型Gemini为基础,自动生成搜索内容摘要并进行垂类推荐等算法优化。AI Overviews是SGE的升级版,在5月的2024 GoogleI/O开发者大会上作为“25年间最大更新”发布,与谷歌核心网络排名系统集成,旨在保证搜索准确性,仅显示由高质量网页信息支持的结果。AI Overviews继承了SGE的内容摘要生成能力,支持视频搜索,具有一次搜索解决系列问题的多步骤推理功能和集成谷歌文档邮箱的规划功能。该产品推出两周后受到广泛质疑,谷歌实行改进,但据企业SEO平台BrightEdge于同年6月的调查数据,谷歌淡化了这一功能,AI overviews在搜索中的出现频率已于初始的84%降至约15%。

微软Bing引入GPT模型能力开启生成式Web搜索新体验,市场份额提升。2023年2月,微软为旗下搜索引擎Bing配置AI增强型Web搜索体验助手New Bing,根据3月必应博客文章,预览版助手推出4周时间内日活用户即超过1亿,其中约1/3用户是第一次使用微软的搜索引擎。同年11月,微软将New Bing更名为Copilot。Copilot基于GPT-4和DALL-E,通过汇总Web搜索结果形成摘要和链接列表,并提供聊天体验来支持用户,优势包括:1)具备自然语言理解能力与多模态搜索和生成能力;2)以连续提问模式替代多次独立搜索;3)内置于微软浏览器网页边栏,同步化搜索与网页浏览过程;4)开发多平台延展,连接Web搜索和不同终端,如Skype、office365、GroupMe等。Copilot带来的搜索引擎流量增长数据亮眼,微软FY2Q24(4Q23)业绩会上表示,Bing的市场份额超过雅虎搜索,升至3.4%,由Copilot支持的搜索对话累计达50亿次,公司该季度搜索与广告收入同比增长近10%。根据StatCounter数据,Bing在搜索引擎中的市场份额已经由23年2月的2.8%提升至24年1月的3.4%。