2023年1月12日晚上,OpenAI首席执行官Sam Altman身着灰色毛衣、蓝色牛仔裤、扎染运动鞋,出现在旧金山Salesforce大楼46层的一个房间。房间里挤满了投资人、记者和技术人员,因为人多,大家只能站着。在这个以风险投资为重点的活动上,Sam Altman透露了两个重要信息,一是OpenAI正在测试一个更强大的模型GPT-4,预计很快发布;二是该公司正在开发一种可以根据文本描述生成视频的系统。
关于这两个重磅消息,前者已尘埃落地,GTP-4模型在3月15日推出,其性能之强大令人惊叹,后者尚未解开面纱,有可能成为该公司的又一枚引爆业界的“核弹”。
关于AIGC(人工智能自动内容生成),文字生成文本、图像、音频、视频的难度,小冰公司CEO李笛说:“其排序始终是文本<静态图像<声音<视频。”
去年下半年开始,业界包括谷歌、Meta以及一些创业公司相继发布了文本生成视频的系统,但这些系统效果并不理想,所以业界依然对于OpenAI公司的“文生视频”充满期待,因为OpenAI有制造现象级产品的“魔力”。
3月22日,阿里达摩院在AI模型社区“魔搭”(ModelScope)悄悄放出 “文本生成视频大模型”,在开源模型平台低调对外测试;3月16日,百度发布文心一言也提供文本生成视频功能。
文本生成视频正在成为全球新一轮AIGC竞赛的新焦点。
文生视频赛道渐热
看到达摩院上线文生视频模型对外测试的消息,笔者在3月24日进入魔塔社区,在社区的模型库找到了“文本生成视频大模型-英文-通用领域”,进行体验。输入“一个猫咪吃饺子”,出来一段视频,是“一只灰黑的猫来回甩动头认真吃白色饺子“;输入“两只猫与一个女孩跳舞”,出现的视频为“一只灰黑猫与一个猫头人身粉衣女孩跳舞“。
目前这个模型还不支持中文输入,从体验效果来看,生成的视频长度约为2~4秒,等待时间从20多秒到1分钟不等。应该说,目前模型具备了文本生成视频的基本能力,但视频画面的真实度、清晰度以及长度等方面还有待提升。
就在阿里达摩院推出文生视频大模型之前的一周,百度发布了其大语言模型,具备文字生成文本、图像、视频的功能,其中被网友们关注的焦点之一是 “文生图”和“文生视频”的功能。
应该说,文本生成视频国外早于国内进行尝试。去年10月Meta公布了文生视频工具Make-A-Video,这个工具可以把文字生成视频,也可以将静态图片生成连续图片,然后将这些图片链接成一段视频。尽管Make-A-Video尚显“生涩”,但已经足以引起业界“骚动”。
在Meta公布Make-A-Video后一周,谷歌公司CEO Sundar Pichai 亲自上场公布了该公司的两个文生视频工具——Imagen Video与Phenaki,前者主打视频品质,后者主要挑战视频长度。目前,Imagen Video可以生成1280×768分辨率、每秒24帧的高清晰片段,而Phenaki可以实现“有故事,有长度”,它生成任意时间长度的视频能力来源于其新编解码器:C-ViViT。
另一个坐不住的公司是StabilityAI,该公司因为文生图像的开源平台Stable Diffusion而出名,Stable Diffusion创始人兼CEO Emad宣布:“即将发布一个比Make-A-Video更好的模型,而且是大家都能用的那种。”
“大家都能用”是致命杀手锏,事实上ChatGPT除了模型牛,更关键的是将人工智能从“天上”带到了“人间”,人人都可以用。
2023年2月6日,Runway发布Gen-1 模型,这个模型可以通过应用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频。今年的奥斯卡将7项大奖颁给了《瞬息全宇宙》,在影片的制作过程中,就采用了这家公司的技术。
Runway公司的Gen-1还没内测完,3月21日该公司又发布了Gen-2,更专注于从零开始生成视频。
最近,谷歌文生图AI绘画模型Imagen论文的四位核心作者宣布离职,将创立一家文生视频的公司,虽然公司名称暂未对外公布,但文生视频的方向已经清清清楚楚。
文生视频,赛道已经开始变热。
文本生成视频为何难?
APUS公司技术负责人张旭认为,视频本质上是一帧一帧的图像连续播放而成,目前文本生成图像的技术已相对成熟,所以文本生成视频原理是可行的,而且业界已经有不少文生视频的系统出现。但目前只能生成简单动画和短视频,实现更复杂、更任意长度的高质量视频,依然有两个方面的问题要解决。
“一方面要解决AI生成的图像没有闪烁感、更连贯;另一方面需要解决时间效率与算力资源问题。目前将文本生成图像,在高端GPU上,每张图像渲染的时间为几秒到十几秒,视频如果按照每秒30帧计算,那么一秒钟的视频就需要几分钟的渲染时间,大大限制了其适用场景。这需要硬件技术和算法共同进化解决。”张旭说。
文本生成视频要实现“所写即所得”快速生成及“丝滑连贯”依然有巨大挑战。
人工智能创业公司天壤智能创始人薛贵荣将文生视频的挑战总结为五个维度:一是质量可控性有待提高。目前生成图像只是一帧画面,而生成视频则要求生成的内容具有高度一致性,如人物的形象、语言、动作、声音都要保持高度统一。二是形象的生动性、丰富度、真实性需持续提升。三是算力挑战巨大,成本耗费高。更高的分辨率意味着更清晰精细地呈现和更多信息的变化控制。越生动、越高清,真实感越强的视频,计算量也就越大。四是模型的复杂度和参数规模挑战。能够生成视频的AI模型至少是千亿以上的参数模型。五是信任和安全、成本、版权等也面临很大的挑战。
业内一位专家提及目前文本生成视频产品的主要短板,首先是质量依然有很大的提升空间,尤其是复杂场景下的表现。与此同时处理速度,特别是在大规模文本数据处理时的速度仍然是挑战。再者是模型或应用在可控性和定制性方面也还有待提高。还有一点是数据隐私和安全性问题也需要解决。
李笛认为,文本生成视频当前主要短板是可控性。生成视频的质量不稳定,不容易调整,导致它可以用来Demo(演示),但很难实际落地。所以从这个角度看,文生视频应用空间远没有文生文本大,而且难度与成本也要高得多。
李笛同时表示,一个文生视频的优与劣决定要素是“算法“,而算法唯一可量化的就是参数规模。但恰恰是这个参数规模,它并不能反映模型真正的质量。有的模型很大但效果很差,有的模型参数不大但效果很好,有的模型参数规模比GPT 3.5大10倍,但效果远远不如它。“目前大模型并没有可以用来评估优劣的指标体系。” 李笛说。
薛贵荣认为需要从时间和空间两个维度评价文本生成视频模型和应用。从时间维度看,AI要基于对文字的理解生成对应风格的视频内容。如何理解文字及背后延伸的含义,决定了内容的关联性是否足够强、故事情节和文化情感的变化是否合理。时间上的逻辑性越强,越会“讲故事”,生成的视频质量越高。从空间的维度看,模型能否真实、自然地生成每一帧画面,画面逻辑是否合理、细微之处是否平顺、光滑,画面结构是否符合现实物理世界的规律,决定了生成内容的可用性。
OpenAI加速推进文生视频
刚离职正进行AI大模型创业的前阿里副总裁贾扬清认为,ChatGPT的成功关键要素之一,是很好地设定了产品的边界。“ ChatGPT为什么能够比其他的类似的聊天机器人更加不让人讨厌?除了技术能力超群之外,还和产品边界的定义非常相关。ChatGPT的定位是很轻量级的‘Chat’,所以它就算回答出错,也不像其他的产品那样让人讨厌,反而变成一种有趣的谈资。同时,最简洁的界面让人非常容易上手,‘没事聊两句’也是一个科技产品不显得有距离感的体验。甚至我家女儿也试图上去捉弄ChatGPT。”
“可怕的不是ChatGPT不犯错,而是像人一样犯错。”美国国家工程院外籍院士、北京智源人工智能研究院理事长张宏江最近在一场主题为《大模型发展机会与挑战》的演讲中表示:为什么人们如此热衷听ChatGPT一本正经地胡说八道?不是它聪明到不犯错,而是它聪明到犯的错误跟人特别像,人性的一面若隐若现地显露出来。”
张宏江认为,ChatGPT是技术工程化与产品化的典范,除了数据、算力与算法构筑起强势的技术壁垒,海量语料、海量会话与海量用户,都成为其至关重要的成功因素。它是数据与模型双轮驱动,赢家通吃的代表。
微软中国公司首席技术官韦青说,古人有一句话叫“圣人畏因,凡人畏果。” 有了理念、信仰、追求,才能产生结果。ChatGPT的下层有两类支柱。一方面是因为大语言模型,赖以沉淀人类所有的知识,或者是能够被它学习到的所有知识的机制。是Transformer/RNN/CNN/LSTM,是用数学的方式,表征物理世界和人类知识与行为。另一方面,OpenAI也是由人构成,这群人有一个共同的理想,坚信做这件事是对的,是有用的,这些人有科学修养,又有工程实现能力,又对语言学、计算机科学的第一性原理有深刻理解。
每一件事情的发生,人们往往看到了果,但凡事都有原因。不久前,北京智源人工智能研究院健康计算研究中心技术负责人黄文灏分享了他在硅谷与ChatGPT团队交流的感受。
首先,他们的三个领军人物包括CEO Sam、联合创始人兼首席科学家Ilyia、总裁Greg都是非常偏执的人,Sam在公司里没有股份,Ilyia只拿研究经费,Greg来公司前就财务自由。这三个人都对这个世界有比较强烈的主张,整个机构有信仰和方向感、有定力。
其次是坚信把AI做成产品而非技术。“我跟OpenAI的人聊,大家都很坚信AGI很快会到来。方法论是坚持暴力美学和系统主义,文化是把AI做成产品,而不是技术,他们一直在持续迭代产品。”
最后是OpenAI有强大的资源支持。目前OpenAI有近3万张GPU,他们随便写一个程序就用2000张卡,ChatGPT每月运行成本接近1亿美元。他们在数据方面投入大量资金,数据标注投入数千万美元,2022年算力和数据花费为4亿多美元。
鉴于这样的“因”,人们有理由期待OpenAI能在文生视频上生成令人惊艳的“果”。而据黄文灏透露,OpenAI的GPT-4去年已经训练完,4.5差不多准备好了,GPT-5应该正在做。
最近,OpenAI发表了一篇论文,从论文中有专家分析出GPT-5的一些蛛丝马迹。一是模型规模,可能会达到1万亿甚至数十万亿的参数规模。这种庞大的模型将拥有更加深入的语言理解和更加精准的语言生成能力,能够更好地模拟人类的语言行为。二是语言理解能力,未来的GPT-5则有望在这方面得到重大突破,实现对更加复杂、抽象、逻辑性强的语言任务的理解和产生。三是多模态融合。目前的GPT模型主要是以自然语言为输入,输出也是自然语言。但未来的GPT-5有望将多模态信息(如图像、声音、视频等)融合到模型中,实现更加全面的语言理解和产生。这将使得模型在人机交互、虚拟现实、智能家居等领域的应用更加广泛。四是更加高效的推理和训练。五是更加人性化的交互方式。GPT-4主要是通过命令行或API进行交互,未来的GPT-5有望实现更加人性化的交互方式,如语音交互、手势交互、图形界面等,让普通用户也能够方便地使用这种技术。