← 返回文档列表

马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型

文档路径: AI\AI行业资讯\2025-03\马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型.md

马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型

量子位· 2025 年 03 月 18 日 03:06

“预计将在几个月内发布 Grok 视频模型”

马斯克也要打造自己的视频生成模型了??

就在最近,xAI 收购了一家视频生成初创公司,这家仅 4 个人的公司过去两年打造出了 Hotshot 这款产品。

据公告介绍,Hotshot 至今已有 3 款视频生成基础模型。被收购之后,目前已停止推出新的视频创作功能,而且用户过往创作的视频截止下载时间为 3 月 30 日。

一看这架势,网友们纷纷想起了老马在今年 1 月的一场直播活动中掷下的豪言:

预计将在几个月内发布 Grok 视频模型

而且就在 Hotshot 联创&CEO 公布上述消息之后,老马也第一时间跑来卖关子:

酷炫视频 AI 即将到来!

期待值被拉满的同时,众人也齐刷刷表达了对 Hotshot 团队的祝贺:

那么,这是一家怎样的团队呢?为什么它能被马斯克“看上”?

答案这就揭晓——

4 人团两年打造“Sora”

概括而言,Hotshot 之所以能入老马的眼,原因显然在于两方面:

一是 “小团队也有大能量”,据悉 Hotshot 团队一共只有 4 个人,但他们在 13 个月里连续训练出了 3 个视频生成模型,且获得了一定程度的用户关注;二是虽然成立不久, 但投资者中不乏 Reddit 联合创始人 Alexis Ohanian 等大佬

从 Hotshot 官网公布的信息来看,这个 4 人小团队在两年时间里成功打造出了“Sora”模型。

4 人中有两位是联合创始人。

联创&CEO Aakash Sastry(右边),和另一位联创&CTO John Mullan(左边)早在 2012 年就相识了。

认识之前,前者正在构建一个视频聊天应用,后者正在尝试打造视觉通讯应用(visual communication apps)。

不过,在看到 Aakash Sastry 的视频聊天应用失败之后(本以为是很酷的想法,结果可能因为理念超前,大家很害怕视频通话),两人一致意识到:

我们需要创造一个让人们在网上表达自己的同时,也感到舒适和自由的环境。

于是,Hotshot 逐渐诞生了。

2017 年,两人共同成立了一家公司——Natural Synthetics(Hotshot 背后公司),开始构建各种不同的社交应用。

到了 2023 年 1 月,他们正式在 iOS 应用商店发布了 Hotshot。

不过需要注意,Hotshot 一开始并不是做 AI 视频生成,而是 图片生成

基于开源的图片生成模型 Stable Diffusion,Hotshot 为用户免费提供个人、朋友甚至是名人的图片。

直到后来逐渐被视频生成吸引,因此他们又开始训练视频生成模型。

和之前类似,一开始他们也打算基于开源模型构建,不过后面意识到:1)基础模型需要大幅改进;2)为了自由构建引人入胜的用户体验,需要对底层模型拥有控制权。

于是,他们正式决定 自研视频模型

在过去的 13 个月里,他们训练了 3 个不同的视频模型:

第一个 Hotshot-XL: 耗时 3 个月开发,每秒生成 8 帧视频,开源后至今每月约有 2 万名新的开发者和艺术家使用;

第二个 Hotshot Act-One: 耗时 5 个月开发,生成 3 秒 8fps 的视频,基于 2 亿个公开视频训练而成;

第三个 Hotshot: 耗时 4 个月开发,生成最长 10 秒的 720p 视频,限文生视频。

按照 Hotshot 发布时的说法,在各种提示评估中, 70% 的情况下 用户更喜欢 Hotshot 的结果,而不是其他开源文生视频模型。

另外,从 CEO Aakash Sastry 公布的消息来看,Hotshot 的投资者包括 Stripe 前高管 Lachy Groom、Reddit 联合创始人 Alexis Ohanian 以及 SV Angel 在内的风险投资机构。

至于具体融资次数和规模,Hotshot 尚未公开披露,而且 也不清楚整个 Hotshot 团队是否会集体加入 xAI

马斯克想开发自己的视频生成模型?

事实上,早在今年 1 月,马斯克在一场直播活动中就透露了 自研视频生成模型 的想法:

(指路原推文视频 15:02)

对于自家的 Grok 模型一直没有视频生成功能这事儿,老马本人和用户都不太满意。

而要解决这个问题,通常来说有两条路可走:

要么直接接入其他家模型,要么自研。

从 Grok 之前的一些倾向来看,他们主要选择第一种方案,比如其 Grok-2 的文生图功能,就是通过与此前备受瞩目的 Flux 深度融合实现。

然而现在,老马明显转向了。

为了和 OpenAI、谷歌等展开长期竞争,xAI 最终也是走上了自研之路,开始通过收购进一步布局。

不过不管怎样,对于我们普通用户来说,期待 Grok 的视频生成功能就完事了!

参考链接:

本文来自微信公众号 “量子位”