百融云花20亿搞了个“AI模型库”？历史上有很多黑马股，起初都是曝光度不高、媒体流量不大的股票，如果精挑细选，很可能会藏着很大的惊喜。@百融云-W（6608...

历史上有很多黑马股，起初都是曝光度不高、媒体流量不大的股票，如果精挑细选，很可能会藏着很大的惊喜。

@百融云-W（6608.HK）就是一个比较低调的AI公司，不太搞宣传和流量，但有一个数据很容易勾起投资人的兴趣：主营业务MaaS 已经有99%的核心客户留存率，但是业绩却还在增长。这种业绩特征，要么是联合下游客户在收入确认上做文章，要么就是这家公司AI业务做得确实很牛。

说实话，看到一家AI公司有这种经营数据，第一反应是怀疑也无可厚非，但研究之后发现，百融云AI业务线给B端客户降低成本的能力真是很夸张，而且AI大模型的KV cache和batch size是核心，目前没看到有任何解读文章把这点说出来。

MaaS这个业务翻译过来叫做模型即服务，商业模式就是给B端一个API接口，然后让客户根据自己的需求来调用各种AI模型服务，收调用费。所以这就涉及两个问题，一个是百融云怎么说服B端客户用的MaaS业务（尤其是金融机构），二是为什么客户调用量那么大却并不在乎成本。

MaaS本质就是一个AI模型库，底层是一个AI大语言模型。百融云的大模型叫BR-LLM，起初国内所有大模型的私有化部署都要几百万一套，客户根本用不起，但算力成本降低之后就不一样了，百融云的技术路径是调整AI大模型中KV cache和batch size的参数权重，推理成本只有ChatGPT的1/20。

KV Cache指的是“键-值缓存”，应用于解码阶段，是一种存储键值对数据的缓存机制，因为在大语言模型的推理过程中，经常需要多次访问相同的数据，这个KV Cache就是通过将这些数据缓存到内存里，就可以提供快速的数据访问速度，也就加速了整个AI的推理过程。

而batch size指的是AI模型训练过程中一次性输入给模型的样本数量，直接影响训练速度、内存使用和整个AI模型的稳定性。比较大的batch-size通常可以加快训练速度，因为在每次迭代中AI模型需要处理更多的样本，这就可以充分利用算力资源（GPU）的并行计算能力。

所以batch size决定了客户使用AI的效果和成本，KV Cache决定了客户需要的前端数据。百融云的选择是：将KV cache的占用调低，同时就可以做大batch size。

因为以金融业为代表的B端客户其实并不需要太多的数据内存，因为本身这类的机构会有自己的数据库，比如涉及到用户的资产、收入、年龄、公积金这些基础私密数据，金融机构不会存托在AI大模型云端的。所以他们需要百融云MaaS解决的问题是：把存在本地的数据输入进去，然后立即进行AI分析和处理，而不是从百融云的AI模型库里调取自己已有的数据集。

所以百融云这个设计非常巧妙，正好根据客户的需求特点，做大batch size，少占用内存，直接节省了算力成本。如果能做到实现每秒5万token的峰值吞吐，按照百融云的API报价、日均3亿次的API调用量，相当于H800的卡能做到80%算力利用率，也难怪百融云的毛利率超72%，所以客户有钱省，百融云有钱赚。

同时还有一个很重要的思路，百融云的BR-LLM大模型是单独训练的，并不是某个GPT模型的分支，所以可以在金融机构和其他B端应用场景：“端到端”地处理文本、数据，这意味着所有输入和输出都是由同一个神经网络处理的，这也是机构客户用百融云MaaS业务算力成本很低的另一个原因。

所以到这儿就先回答了文章开始的第二个问题：“为什么客户调用量那么大却不心疼钱”。至于第一个问题，其实更简单。

百融云怎么说服B端客户用的MaaS业务（尤其是金融机构）？一个重要因素是，中国的金融机构和绝大多数B端领域，必须要把自己的行业和公司信息留在本地的，而且必须要用国产的AI产品及服务，所以在这个层面，哪家AI公司深耕得时间长、积累多，谁的优势就会越来越大。

百融云是2014年成立的，到今年是第十年，总共砸了20个亿的研发费用，如果从本文的分析逻辑来看：AI大模型技术细节完美切合用户需求、B端降成本且应用效果好、本土MaaS厂商吃红利强绑定、99%客户留存率基础上的付费AI功能会越来越多。这10年20个亿砸的很值啊。

（本文纯主观研究，各位轻喷）@今日话题

百融云花20亿搞了个“AI模型库”？

作者：GPLP犀牛