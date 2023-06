从文生文到文生视频,生成式AI正以其惊人的创造力掀起内容生成领域的工业革命。除了引发一众科技巨头跟随与模仿的OpenAI,一些在ChatGPT爆红前就已经布局内容生成的创业公司也迅速崛起,成立于2020年的Stability AI便是个中翘楚。

而最近,一篇来自福布斯的扒皮长文细数了这家公司创始人的过往黑历史,也将这家年轻的独角兽公司送上风口浪尖。

通向40亿估值的独角兽

一幅《太空歌剧院》让世人首次见识了AIGC的强大性能,作为比聊天机器人更早出圈的AIGC应用,AI绘画有着鲜为人知的悠久历史。

20世纪70年代,一位美国画家Harold Cohen创建了电脑程序AARON,通过控制机械手在画布上进行绘画,AI绘画由此滥觞。2012年起,得益于计算机视觉技术的快速发展,各种网络模型纷纷涌现,其中很多的优秀模型被应用于艺术绘画领域。

2022年8月,一款名为Stable Diffusion的开源绘画模型横空出世,将AI绘画推向高潮。作为一款底层代码、数据完全开源的高性能模型,Stable Diffusion的参数量仅有1B大小,开发人员可在普通的家用显卡上进行本地推理训练与模型部署,在Github获得的69.9k star也侧面印证了Stable Diffusion的强大开源生态。

与其他AI绘画工具相比,Stable Diffusion的输出结果更加稳定和可控,支持多种不同的风格和效果,生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小,并且可以与其他软件和工具集成使用。

而这一具有里程碑意义的AI绘画模型正是由Stability AI推出,截至目前,Stable Diffusion已被全球超过20万名开发者下载和授权,日活用户超过1000万,基于Stable Diffusion算法构建的工具生成图片数量达数百万张。凭借这款产品,Stability AI在两个月内便获得了一笔1.01亿美元的融资,成功晋级独角兽。

相比于被马斯克诟病正在滑向商业化的OpenAI,Stability AI堪称一家去中心化的AI公司,并承担起了与谷歌等巨头生态对抗的屠龙勇士的职责。用户可以在Stable Diffusion代码的基础上构建与设计、增强现实、视频游戏、广告甚至电子商务相关的应用程序,由此成功解决了AI技术封闭的问题。

AI绘画之外,Stability AI还基于AIGC进行了其他产品:其推出开源大语言模型StableLM对标ChatGPT,Alpha版本中拥有30亿和70亿参数,后续还将推出150亿至650亿参数的版本;其发布的动画生成工具Stable Animation SDK可通过文字、初始图像、初始视频三种路径生成动画,目前仅提供软件开发套件(SDK)和付费API。

Stability AI追求在产品、模型开发上追求低门槛和通用性,其创始人Emad Mostaque的愿景是惠及全球10亿人。据报道,Stability AI正寻求以近40亿美元的估值筹集资金。

硬币的另一面

开放的平台带来创新,但同时也容易滋生“越线”行为。

Stable Diffusion因在技术上允许创建有时带有暴力、种族偏见和色情图像而饱受争议。此外,由于该模型训练过程中使用了网络搜集有版权材料,可能涉及知识产权问题。

开源平台也面临着盈利的难题。今年4月,有知情人士透露,Stability AI公司实现的营收完全覆盖不了巨额的服务器和招募人才的费用,公司去年融到的1亿美元已“烧”掉大半。目前,Stability AI正在寻找新的高管来帮助销售以推动创收。在此之前,Stability AI刚刚收购了用户量超1500万的成像应用套件Clipdrop。

目前在AI绘画领域,Stable Diffusion已遭遇劲敌Midjourney的竞争。后者创始团队仅11人,成立时间不到一年就完成了1亿美元营收,日活用户高达1500万。Midjourney最新发布的V5版本以其强悍的仿真图像生成能力爆火出圈,目前已开放了官方中文版的内测申请。

Midjourney的盈利模式十分简单,即付费订阅,按月向三种等级的用户收取10/30/60美元的套餐费用。通过降低利润率,Midjourney也收获了更多用户。

相比之下,Stability AI目前并无明确的盈利途径,主要商业逻辑是“模型即服务”,即将基础模型开源,凭借专业的团队为企业提供定制化服务咨询服务,这一模式仍在探索中。公开信息显示,Stability AI现有的盈利渠道主要包括付费图像生成应用DreamStudio以及动画生成工具Stable Animation的付费API。

产品之外,Stability AI背后的开源社区似乎也出现了裂痕,其开放性也在遭受质疑。

Stable Diffusion的推出主要基于慕尼黑大学、海德堡大学与另一家AI创业公司Runway所推出的开源图像模型Latent Diffusion,而Stability AI只是为该项目捐赠了计算资源,在加入团队的两个月后,名为Stable Diffusion的图像生成模型问世。这也是福布斯所揭露的,Stability AI创始人Emad Mostaque窃取他人学术成果所对应的事实。除此之外,Stability AI曾投诉原作者之一的Runway在Hugging Face上发布的Stable Diffusion涉及侵权,要求下架。

虽然Stability AI在GitHub主页上对Runway进行了致谢,并最终撤回了下架申请,但此等鸠占鹊巢、卸磨杀驴的行为还是遭到了社区用户的唾弃。

并不新鲜的“硅谷”式创业

除了版权问题、技术偷窃,福布斯的长文还指出Emad Mostaque涉嫌履历造假、夸大宣传、夫妻店、拖欠薪水、夸大收入、融资受阻等问题,而在其本人博客后续的声明中,Emad并未对妻子在公司担任的职务、公司营收、融资以及侵权诉讼进行详细回应。

“Fake it till You Make it.” Uber创始人Travis Kalanick的这句话几乎成为所有创业者的信条,出身对冲基金经理的Emad身上也有这种在成功前先假装强大的硅谷气质。

作为一个缺乏人工智能技术背景的创业者,Emad热衷于塑造技术大牛的人设。明明在加入研究团队前并不知晓图像生成模型的存在,却对外宣称是在自己的帮助下才将研究方向从原本的AI大模型转变为图像生成大模型。将购买英伟达的GPU单方面渲染成“战略合作伙伴”关系,在宣传文稿中将经济合作与发展组织、世界卫生组织和世界银行列为合作伙伴也是Emad热衷夸大叙事的表现。

ChatGPT所引发的全球大模型军备竞赛表明,跟风并不是国内创业者独有的特征。

在这方面,来自英国的Emad也不落人后。如果说自主创业的第一年为非洲企业提供SaaS工具还属于自身计算机专业与一定财富积累结合的数字化尝试,那么在之后的两三年里将公司赛道从自动贩卖机网络更换为宠物NFT再换到AI则是纯粹的跟风投机行为。

目前,Stability AI最拿得出手的作品仍是基于他人已有研究成果的Stable Diffusion,而其后续推出的大语言模型与动画生成模型仍属于跟随式的研发,且性能。其中,StableLM的参数量远低于GPT-3.5、训练数据集包含不雅用语,存在前端运行困难、对话令用户不适等问题;同样处于测试阶段,先于Stable Animation两个月前发布的Runway的Gen-2不仅支持多种视频生成模式,还具有风格化、故事版、掩码、渲染、个性化等功能,是大厂文生视频派系之外的小成本诚意之作。

放眼整个科创圈,以欺骗式营销获取融资和资本异化创业公司的案例都不在少数。诸如Emad Mostaque这类过分夸大的宣传以及对原作者创新成果的打压究竟是前者还是后者已经很难区分。不过,比起思考资本介入后如何保持公司的开放调性,自研出第二个Stable Diffusion级别的产品以保住公司的估值,继续赢得资本的青睐才是Stability AI的当务之急。