快手对标Sora的视频大模型「可灵」来了!
早在2023年初,快手就启动了新AI战略。此前,在2023年财报电话会议上,快手联合创始人兼首席执行官程一笑曾谈及快手自研大模型的研究及应用进展。
可灵大模型不仅具备强大的概念组合能力和想象力,还能生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。
相关链接
文生视频大模型
可灵大模型(Kling)是由快手大模型团队自研打造的视频生成大模型,具备强大的视频生成能力 让用户可以轻松高效地完成艺术视频创作。
大幅度的合理运动
可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。
提示词:一名宇航员在月球表面奔跑,低角度镜头展现了月球的广阔背景,动作流畅且显得轻盈
长达2分钟的视频生成
得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2分钟的视频,且帧率达到30fps。
提示词大意:小男孩在花园里骑自行车经历秋冬春夏四季变换
模拟物理世界特性
基于自研模型架构及Scaling Law激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频。
提示词:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡
强大的概念组合能力
基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的的场景。
提示词:一只白猫在车里驾驶,穿过繁忙的市区街道,背景是高楼和行人
电影级的画面生成
基于自研3D VAE,可灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。
支持自由的输出视频宽高比
可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需求。
提示词:一只戴着太阳镜的柯基在热带岛屿的海滩上漫步
表情身体驱动
基于自研的3D人脸和人体重建技术,结合背景稳定性和重定向模块,实现表情肢体全驱动技术,仅需一张全身照片,即可体验生动的“唱跳”玩法
可灵大模型已在快影 App 开放邀测体验。此外,基于 " 可灵 " 大模型,未来还将有更多应用方向即将落地,近期将首发 "AI 唱跳 " 新玩法,可以同时驱动表情和肢体动作,仅需一张照片就能生成 " 唱跳 " 视频。