$商汤-W(00020)$ 满仓抄押注阿汤哥的底气和原因：底缊，勇气，能力，敢为天下先！今天大模型发展最重要的并不是有多...

发布于:2024-06-30 13:01 修改于:2024-06-30 13:20

Android

转发：0

回复：6

喜欢：6

$商汤-W(00020)$ 满仓抄押注阿汤哥的底气和原因：底缊，勇气，能力，敢为天下先！
今天大模型发展最重要的并不是有多少家会留在市场，而是差异化在哪。
“有哪些是有价值、但风险更高，别人没尝试过，没做出来的东西，这是商汤在发展大模型时的差异化思路。”
以上是商汤的首席科学家绝影汽车事业群的总裁王晓刚讲的商汤发展思路：
有价值、风险更高、没人尝试过、没做出来的，
迎难而上，无人区，高风险，创造新的，
商汤的差异化，底气和底缊，敢为天下先，敢走无人区，不惧风险，挑最难别人不敢尝试的勇气和底缊。
比如：最早提出端到端FSD，driveAGI，

全部讨论

大唐同学

06-30 13:24

业内正在形成一个全面的共识：
在实际应用中，大模型并非越大越好，而是得看具体场景需求。
前不久，美国AI公司Anthropic发布Claude 3系列模型，一度超越GPT-4，登顶全球最强大模型。其中Claude 3系列就给出了不同量级的模型产品，包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus，以便适用于不同的企业和场景。
同样的，基于这一思路，商汤科技也在搭建完善的基模型体系与小模型系统方案，并发布了一系列的垂类大模型和端侧大模型。
其中，SenseChat-Lite版本端侧大模型就可以面向手机、平板、VR 眼镜、智能汽车等提供轻量、高效的大模型能力，结合端云解决方案，及时适应变化的环境和需求，保持高性能和准确性。

安祥xke

06-30 23:17

大唐同学发表的关于商汤科技最新动态很是鼓舞人心，且正能量滿滿，希望能让国人多了解国家前沿科技发展前景，增强民族自信心和创造力，此强国富民之举善莫大焉。

大唐同学

06-30 13:19

作为一家成立之初就紧密围绕AI作为主要业务的科技公司，多年的技术沉淀，让商汤具备更成熟的能力做好大模型。
从个人终端到企业客户的基础设施，行业对AI的需求是多样的。
2019年，商汤首次发布10亿参数视觉大模型，
2022年发布320亿参数视觉大模型，
到2023年确立以“大模型+大算力”的发展战略，
再加上旗下多款AI产品，商量、秒画、如影、琼宇、格物的多元布局，以及刚刚推出的全面对标GPT-4Turbo的日日新5.0等一系列创新。
可以说，商汤在科技圈里从未缺席，而这些成果的背后是
十年如一日的持续投入。

大唐同学

06-30 13:16

时至今日，AI仍然是一个长周期，高成本投入，回报慢的行业，
反倒是需要更多的战略定力。
在商汤的生成式AI已经转向收入的快速回报之际，
就像王晓刚说的那样，在商汤的背后，
积累了大量对模型对AI的know-how，
这些业务与行业的经验，
或许也正在给AI结合不同产业的商业化落地提供了更具想象力的参考。

大唐同学

06-30 13:34

MoE混合专家大模型
算法层面的优化：三个“臭皮匠”的搭配和配合是一门艺术。
虽说“三个臭皮匠，顶个诸葛亮”，但是这“三个臭皮匠”如何选择、搭配以及配合处理任务，恰恰才是其“顶个诸葛亮”的根本。
更直观的对比，以古代作战为例，同样是一群人打架，为什么散兵游勇很难和正规军进行对抗、战斗？其根本在于正规军有专业的兵种搭配和配合，也就是“兵法”的辅助。放到AI领域，算法即“兵法”。
在MoE模型上，虽说核心思路是一致的，但是关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案，各家方案都不尽相同，由此将拉开各家MoE模型在应用上的差距。
比如，在算法层面，源2.0-M32就提出并采用了一种新型的算法结构：基于注意力机制的门控网络（Attention Router）。针对MoE模型核心的专家调度策略，这种新的算法结构更关注专家模型之间的协同性度量，有效解决传统门控网络下，选择两个或多个专家参与计算时关联性缺失的问题，使得专家之间协同处理数据的水平大为提升。
同时，源2.0-M32采用了源2.0-2B为基础模型设计，由此得以沿用并融合局部过滤增强的注意力机制（LFA, Localized Filtering-based Attention），通过先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确，进而提升了模型精度。
基于注意力机制的门控网络（Attention Router）
在MoE模型中，算法层面的优化将是模算效率提升的一个很好补充。
简单来说，“三个臭皮匠”，能基于算法优化而发挥出更大的价值，在处理问题上得到更好的反馈。
这或许也是接下来各家MoE模型进一步拉开差距的关键。

大唐同学

06-30 13:31

大模型的最优解，
是场景平衡
从国内外的实验与实践来看，模型的大小之争意义不大，离开基础理论和场景应用去抛弃任何一方都不可取。
因此，目前主流的AI厂商在迭代和发布系列模型时，往往都会推出主模型与小模型以及垂类专业模型，根据场景需求按需提供服务。
这一点将在接下来的时间里拉开专业AI服务商之间的差距。
目前，日日新SenseNova5.0大模型体系采用了混合专家模式，这样做的目的在于通过将模型分割成多个具有专门功能的模块，使得模型在推理过程中能更有效地利用计算资源，并可能提高模型的泛化能力和应对复杂任务的性能。
具体来看，商汤琼宇发布的3D高斯泼溅技术，就具备轻量化的web渲染能力，可以产生更轻量的模型资产，使城市级三维模型的构建和编辑重建效果更加真实，成本更低，也可以应用在更多场景。
这是混合专家模式思想在实际应用中的体现，通过不同技术和模型组件之间的配合，实现了对特定任务定制化处理和资源优化，从而加速大模型在不同场景中的应用，实现AI普惠。目前，琼宇已服务客户超过60个，实现了15个城市120多种场景的重建。
因此，当我们把目光投递到实际中的场景问题，就会发现大模型和小模型均有用武之地，问题则在于如何去平衡地调配资源，实现最优解。由此来看，商汤科技对混合专家模式的应用，可以视为是一种领先行业的熟练决策。
未来不属于大模型或小模型，而是大小模型之间的平衡。
因此，“AI大模型是否越大越好”类似的问题不必纠结，但需要面对，即如何去打造大模型，又如何把大模型的能力调配出小模型服务好市场，会是各大厂商接下来的必修课程。

作者：大唐同学

全部讨论