几乎所有创企都在用的Stable Diffusion,真的可能要甩卖了

发布于: 雪球转发:0回复:0喜欢:1

近日 Twitter 上大家在传 The Information 报道的 Stability AI 打算把自己卖了的消息。从 2022 年 8 月推出 Stable Diffusion 以来,不到两年的时间,沦落到出售公司的程度。甚至据很多业内人士分析,Stability AI 真的放到市场上,可能卖不出多少钱。

The Information 报道该消息的文章|图片来源:The Information

进入 2024 年,Stability AI 风波不断。3 月 21 日,开发 Stable Diffusion 的几名核心研究人员离职。过了没有两天,Stability AI 的 CEO Emad Mostaque 宣布离任,并退出董事会。又过了没到一个月,4 月 19 日,Stability AI 又宣布裁员 20 人,约占全体员工的 10%。

Stability AI 到底挖了多大的坑?根据 The Information 的说法,Stability AI 私下表示 2023 年的营收只有 800 万美金左右,这个数字比之前网传的 1100 万美金还低了不少。而根据彭博社在 2023 年 10 月的报道,Stability AI 一个月就要在员工工资和云计算等领域支出 800 万美金,其他不算,公司利润率怒达-1100%。

而 2024 年第一季度,Stability AI 收入不到 500 万美元,貌似赚得多了点,但亏损超过 3000 万美元,利润率稍微好看了些,也就是-600%。

公司经营结果一塌糊涂,还欠了不少外债,据传 Stability AI 欠云计算供应商和其他公司 1 亿美元。相比之下,隔壁 Midjourney 只有十几名员工,就能拿下 3 亿美金左右年营收。

如此糟糕的财务状况,几乎所有生图类产品都会用其底层模型的 Stability AI,到底问题出在哪?

开源+API 的商业模式陷阱

经过一番资料的搜索,对于这个问题,笔者主要总结出了两个方面的原因,一是公司的管理出现了问题,二是 Stability AI 的商业模式一直没有跑通。

Stable Diffusion 其实并不是 Stability AI 开发的产品,这款模型最初是由项目负责人 Robin Rombach 攻读博士学位的慕尼黑大学和另一个 AI 视频创企 runway 共同开发的开源模型项目 Latent Diffusion。

而 Stability AI 最初只是为项目提供了计算资源,才取得了冠名权。而 2022 年,Stability AI 说服了负责人 Robin Rombach 和其他核心成员加入公司,这才“名正言顺”地获得了 Stable Diffusion 的所有权。

虽然获得了所有权,但是 Stability AI 的管理却一地鸡毛。有离职员工透露,CEO Mostaque 几乎不懂研究,也不会为研发团队制定计划、分配资源,加上他个人的学历、经历造假、欺骗投资人、欠薪等丑闻,造成 Stability AI 管理混乱,负面新闻缠身。如果说管理层混乱是一个例外,Stability AI 选择的商业化路径在为很多做开源模型、API 收费的企业敲响警钟。

Stability AI 商业模式图解|图片来源:FourWeekMBA

众所周知,Stable Diffusion 是一款开源模型,所有人都可以免费下载和修改模型。

而 Stability AI 本身则是靠 API、企业服务、AI 相关的咨询来赚钱。这个开源商业化模式,模仿的是 Linux 的提供商 RedHat,即靠开源打出知名度,再靠 API 和企业定制产品在 B 端赚钱。Stable Diffusion 在推出伊始就上线了 API。

目前来看,市面上绝大多数的生图产品,使用的都是 SD 和它的衍生模型,受众远比 Midjourney 和 DALL-E 等闭源模型要大很多,而为什么 Stable Diffusion 被那么多创企采用,官方做 API 却不赚钱呢?

第一个原因其实是模型本身的设计,由于 SD 从一开始就是开源模型,所以在设计时就比闭源模型参数更少,更轻量,以满足离线部署的需求,因此,SD 原模型的生图效果其实是不如闭源模型的。

但是 SD 作为开源模型,本身设计上,留下了很大的“可调整空间”,例如对 SD 模型进行微调可以得到 Checkpoint,可以优化某种特定风格的生图质量,进一步还能在 Checkpoint 的基础上对 cross-attention layer 进行调整形成 LoRa 模型,来添加特定对象或实现人物、风格一致的效果。这些都给了用户和开发者按需求/场景,实现更佳效果的可能。而在实际落地中,绝大多数开发者都会对 SD 模型进行重新训练,来适应电商、广告、或者漫画脸等场景。

而直接调用 API,单纯做套壳产品,其实竞争力不大,无法满足多数厂商的业务落地需求。

第二个原因成本问题。

信息来源:各公司官方网站

其实单看 API 费用的话,除了最新推出的 SD3 比较昂贵之外,SDXL 和 SD1.6 等已开源的模型的 API 可以说比 OpenAI 便宜不少了,与腾讯混元的文生图 API 价格相当。

用户云上部署 SD 的成本核算分享|图片来源:AI魔法学院

但是如上所述,很多厂商为了落地,会选择自行部署。而 SDXL 和 SD1.6 都是完全开源模型,任何用户都可以自行下载和部署这两款模型。甚至,一些云厂商也会将 SD 这种完全开源的模型做成即插即用的插件放在自己的解决方案里。

AWS SD 插件概述|图片来源:AWS官网

根据网络上的分享,使用腾讯云部署 SD 1.5 的话,平均单张图片花费 0.1-0.01 元人民币,合 1 美金能生成 70-710 张图片;而上面提到的 AWS 的云服务,1 美金大约可生成 240 张图片。而如果选用更便宜的云服务提供商的话,这个价格能做到更低。

那我们把云部署的费用更新到表格中,就会变成下面这样:

这么一比,虽然 SD 在 API 价格对比层面,费用确实不高,但和其他一些方式比没有成本优势。

谷歌搜索“SD API”结果(上),第三方 API 的价格(下)

最后,依然是因为完全开源,在 Stable Diffusion 出来不久,就已经各路有三方 API 出现了,目前在谷歌搜索“Stable Diffusion API”第一条是官网,第二条就是一个第三方 API 的网站,甚至这个网站提供无限次使用 API 的服务,价格为 147 美金/月。

SD 使用的 Creative ML OpenRAIL-M license 协议关于“分发模型”的条款,注:SD 使用的协议是专为 AI 开源产品设计,而类似 DeepSeek 等国内出海产品会使用针对一般开源软件的 MIT 协议,两者商业化条款的规定基本相同,前者在道德等层面上会做了更多的规定,促使人们安全地使用 AI。

对于其他企业使用开源模型做三方 API 的法律问题,我咨询了法律专业人士。他表示能否提供三方 API 服务需要参考产品协议中列示的商用条款,如果违反条款,原开发者就有权进行索赔。而 Stable Diffusion 所使用的协议,完全允许向第三方分发模型,包括销售付费 API,这让 SD 官方的 API 无形中又多了无数竞争对手。

目前,很多国内大模型都在走开源+API 的路径,但是在开源的基础上,都会拥有能力更强的闭源模型,或干脆将开源闭源分成两个系列(比如 Google 的 Gemini 和 Gemma),为自己的 API 保留一些差异,在开源和商业化方面找到平衡。

看下来,Stablity AI 陷入“疯狂烧钱,但营收不利”的局面,其实就是没有在开源的同时推出能够区别于开源模型的差异化产品,在价格上也无法与自行部署模型来竞争。在价格更低、部署也并不麻烦的情况下,B 端用户们自然会更倾向自行部署大模型、甚至直接使用部署了开源模型的云服务,而不是调用 API,Stablity AI 自己的模型开源把自己的商业化路径堵死了。

从开源转向闭源,Stablity AI 的自救能成功吗?

这样的商业化困境,造成 Stablity AI 一直要靠融资维持,早在去年 11 月份,就有消息爆出,投资者对公司业绩不满而要求 CEO 辞职的新闻。

为此,Stability AI 开始密集进行商业化尝试,涵盖 API、限制自行部署模型商用、ToC 订阅付费等多种模式。

评论 Stablity AI 会员订阅的X帖文|图片来源:X

去年 12 月底 Stablity AI 针对自行部署模型用户,变更了政策,简单说就是不商用还可以免费用,但如果商用,就要买会员了。

这个政策变更覆盖的模型有 SDXL Turbo、视频生成模型 SVD 等(未来还会有 SD3)。与之前坚持的不限制商用的开源协议不同,Stablity AI 想通过限制“自部署”模型的商用权限获得收入。

Stablity AI 宣布在 API 中推出 SD3 的 X 帖文|图片来源:X

而且 SD3 宣布了很久,一直没上线模型,只提供了 API 调用,Stablity AI 似乎有转向闭源的趋势。

4 月 17 日,Stablity AI 宣布 SD3 和SD3 Turbo 可以通过调用 API 中访问模型,而且在 X 帖文中还提到,为了实践开源的承诺,未来将在 Stablity AI 会员的权益中添加这两款模型,但绝口不提完全开源的事情。

Stable Artisan 订阅价格

除了收模型的会员费,在 5 月 9 日,Stablity AI 又宣布开始做 C 端生意了,推出基于 Discord 的 AI 图像工具 Stable Artisan

用户可以在 Discord 中输入提示词,用 SD3、Stable Video 和 Stable Image Core 等最新模型进行生图、修图、生成视频等操作。商业化方面,Stable Artisan 采取订阅制,用户可以根据生图数量的需求按月或年付费。“Discord 平台+4 档订阅付费”,这几乎已经是照抄 Midjourney 的模式了,只不过订阅价格略便宜一些。

但问题是,面对各路生图模型的竞争,Stablity AI 还能收到 C 端用户的钱吗?

测试方式:用各生图模型生成多组图片,由人类进行打分|图片来源:数字生命卡兹克

CSDN 上另一个测评的结果|图片来源:CSDN

要想探究这个问题,我们首先要看,Stablity AI 的模型能力是否有优势,这个答案是“似乎没有”。我们以最新推出的 SD3 为例,虽然 Stablity AI 在论文中表示经过测试,SD3 比市面上所有模型都要强。

但是根据国内媒体进行的测评,在细节质量、语义理解和审美三个点的评分上,SD3 基本都低于 MidjourneyV6,虽然这个测评带有不小的主观性,但是综合笔者看到的其他测评结果,至少可以得出结论,SD3 并没有碾压 Midjourney、DALL-E 的实力,不同模型在不同的维度上各有优劣。

分别为负面提示词、种子值、长宽比、模型(只有 SD3 和 Coreke xuan)、图片数量

而且,与 API 有同样的问题,Stable Artisan 也不能像市面上的其他生图产品那样调节更多的参数或使用 Lora,可控性上可能还不如那些使用了开源 SD 模型的产品。

此外,目前 Stable Artisan 只支持在 Discord 聊天框里输入 Prompt,但是笔者看下来,几乎没有对用户的指引,用户虽然可以二次创作其他人生成的图片,但只能像“原始版 Midjourney”那样,在 Discord 中一页一页的翻找。更不要说,像很多生图产品那样有让用户点标签生成提示词,或者像 SeaArt 一键做同款等方便用户操作的设计了。

Discord 中用户使用去背景功能后的效果|图片来源:Stable Diffusion Discord

此外,笔者浏览了一下 Discord 中其他用户的生图记录,绝大多数用户都是在使用文生图工具,使用线稿生图或去背景/对象等其他功能的用户并不太多,而且这个去背景的效果,似乎也不怎么好。

Discord 邀请页面显示的在线人数

从人气来看,Stable Diffusion Discord 的在线人数只有 Midjourney 一个零头。而目前,Midjourney 网站端的生图功能已经向生图超过 100 张的用户开放了,其他生图产品基本都在网站端使用了。而 Stable Diffusion 才刚刚走上 Midjourney 等产品一年半前走的路。

写在最后

作为一个 AI 时代的明星,Stable Diffusion 和 Stablity AI 已经写下浓墨重彩的一笔,但是不到 2 年的时间,就沦落到出售公司的程度,也令人唏嘘不已。未来开源 AI 这条路能否走出“疯狂烧钱,却不挣钱”的死路,找到可行的商业模型,可能还要未来的 AI 创企们给出答案了。

参考文献:

1、Stable Diffusion | SD 腾讯云 3 步部署,全程五分钟,附价格费用清单

2、Stability AI Facing Cash Crunch,Discusses Sale

3、曾经爆红的AI独角兽,走到了树倒猢狲散的边缘

4、疯狂烧钱、管理混乱,Stable Diffusion 背后企业濒临倒闭

5、How does Stability AI make money? Stability AI business model analysis