当业界几乎把所有的目光都聚焦到ChatGPT上时,原本有些克制的科技大厂突然有了紧迫感,纷纷在类ChatGPT产品中证明自己的实力。一时间,数百亿、千亿乃至万亿级参数规模的人工智能大模型(下面简称“大模型”)相继涌现,这场ChatGPT引发的全球大模型竞争趋于白热化。
“有大模型的企业能做ChatGPT,没有的则是在蹭热点。”对于互联网公司蜂拥扎堆做ChatGPT,阿里达摩院M6大模型前带头人杨红霞言辞犀利地说。在她看来,只有参数规模100亿以上的大模型才有实力提供高质量的对答。
百度、阿里已有比肩ChatGPT的大模型
大模型的核心特征是模型参数多、训练数据量大。有研究估测,训练1750亿参数语言大模型GPT-3,需要上万个CPU/GPU24小时不间断地输入数据。其能耗相当于开车往返于地球和月球,一次运算就要花费450万美元。高昂的研发成本意味着,主流的大模型只能由大型科技公司或少数研究机构掌握。
据了解,ChatGPT是基于8000亿个单词的语料库,包含了1750亿个参数。前者是ChatGPT的训练数据,后者是它从这些训练数据中所学习、沉淀下来的内容。这种海量参数规模让ChatGPT能够捕获更复杂的语言模式和关系,从而提高复杂自然语言处理任务的准确性。
从参数规模来看,国内已经诞生了能够比肩ChatGPT参数量的大模型。百度既有20多万企业用户的飞桨平台,也有2600亿参数量的文心大模型;阿里巴巴有“通义”大模型,多模态大模型M6的参数规模已经突破10万亿,规模远超谷歌、微软,成为全球最大的AI预训练模型。OpenAI前政策主管Jack Clark公开点评阿里巴巴:“这个模型的规模和设计都非常惊人,是众多中国AI研究组织逐渐发展壮大的一种表现。”
当参数规模迅速攀升至几百亿、千亿时,大模型的训练方式也出现了分野。有业内专家认为,参数数量并不代表模型结果,更为关键的是训练方式。在华为诺亚方舟实验室语音语义首席科学家刘群看来,虽然我们训练了几千亿或者几万亿的数据,但训练的充分程度仍远远不够。
ChatGPT有一个巨大的先发优势
2018年,业界分化出两个预训练模型主流方向——谷歌的BERT和OpenAI的GPT。在很长一段时间里,BERT在自然语言理解类任务中的表现比GPT更好,训练方式是通过“蒙住/遮盖”一个语言片段,让模型根据前后文进行双向猜测,不断提高猜中的概率。BERT利用海量的无标注文本自监督学习,即可掌握大量语言知识,刷新了多个AI权威榜单的纪录,是当时NLP领域被更多押注的方向。
百度的文心大模型也是基于BERT技术路线——通过进行不同的“蒙住”训练,采用无监督学习,有效提高训练数据规模;自回归和自编码网络被融合在一起,进行多范式统一的预训练,能够兼具理解、生成和零样本学习的能力。这些能力也让文心3.0在国际权威的复杂语言理解任务评测SuperGLUE榜单上一度登上榜首,为百度加入这场竞赛提供了“弹药”。
而GPT则是按照人类输出文本的方式,从左到右进行预测。中国人民大学应用经济学院教授潘伟告诉记者:“直到GPT-3.5出现后,模型智能表现上的鸿沟骤然被拉大——引入了指令微调和人类反馈强化学习,才真正解锁了ChatGPT如今出色的对话能力。”
一位接近微软的消息人士透露,ChatGPT有一个巨大的先发优势,就是它通过抢先开始公测,收集了大量用户的使用数据。这部分宝贵的数据被微软独家占有。“只要ChatGPT仍然是最好用的自然语言处理类大模型,这个‘雪球’就会越滚越大,其他企业将越来越难追上。”该业内人士称。为了防止ChatGPT输出有害信息,OpenAI还花大价钱找印度和肯尼亚的外包公司标记了大量的有害文本,用来训练大模型不要输出有害信息,对数据数年持续的投入,逐步构成了OpenAI筑起的“数据壁垒”。
此外,数据质量也是大模型表现结果的重要决定因素。中国并不缺数据,百度、阿里巴巴、字节跳动这样的公司都有海量的数据积累,不过后续包括数据清洗、标注以及模型的结构设计、训练、推理等都需要时间积累,这可能是国内大模型表现结果不如国外惊艳的重要原因。“百亿级数据中可能只有10%的数据是好的,昆仑万维仅仅使用自己的专有算法清洗数据,就整整花费了近两年。”昆仑万维CEO方汉解释道。
微软、谷歌的大模型已与原有业务深度绑定
“OpenAI非常重视真实世界数据的调用,以及这些数据对模型的迭代。”清华大学计算机科学与技术系长聘副教授黄民烈表示,在GPT-3之后,OpenAI所有模型都没有开源,在这个过程中,它干了一件事——建立起真实用户调用和模型迭代之间的飞轮。
全球科技创新产业专家、海银资本创始合伙人王煜全也持有类似观点:“真正好的创新不是你能够向大众示范得多么酷炫,而是能够被广泛使用。例如马云知道互联网的优势是能在网上做电商,劣势是电商没有信用证明。他创办淘宝后,引入支付宝,将平台作为第三方中间人,解决了诚信问题。这种成功,不是因为马云的技术多么领先,而在于利用技术解决了应用痛点。”
对于已经推出大模型的厂商来说,应尽快利用这个基础工具,找到应用的痛点,找对商业模式,获得竞争优势。
除收购苹果“Siri”背后的对话式人工智能公司Nuance外,微软在生成式AI领域最核心布局就是对OpenAI的投资与合作。此次基于ChatGPT,微软与OpenAI进行了更加深度的绑定,旗下的搜索、办公等各个产品体验均有望“智能升级”。
谷歌是微软在AI、云、搜索等多重领域业务中的劲敌。谷歌自2011年成立AI部门,比微软早了8年,旗下几乎所有产品和服务都依靠AI驱动,一方面用户场景从互联网、移动互联网等传统业务延伸到智能家居、自动驾驶、机器人等领域,积累了更多数据信息;另一方面在积累底层人工智能技术的同时,持续研发更高级的深度学习算法,增强图形识别和语音识别能力,对信息进行更深层加工、处理。
如何提供更多排他性、独占性强的优势产品将成为大厂抢占赛道的关键所在。“谷歌推出类似ChatGPT的大模型Bard之后,料想未来与微软的竞争将聚焦在元宇宙、人工智能等这些新兴领域。”晟云磐盾信息技术有限公司总裁郝峻晟告诉记者,微软更多的还是会聚焦在B端(如办公软件、云计算和人工智能相关产品)以及游戏等相关领域;谷歌则在互联网领域的优势更明显一些,未来可能会更多的在C端市场推出更多定制化产品。
百度、阿里、华为积极探索场景应用
大模型因“大”而效果好,但在许多产业应用中也会因为“太大”而难以落地部署,导致商业模式不够清晰。“近十年来,AI的研究发展迅猛,但AI的应用始终是一大难题,使用门槛过高限制了AI的潜能。”阿里巴巴集团资深副总裁、达摩院副院长周靖人表示,AI模型较为复杂,尤其是要应用于行业场景,往往需要重新训练,这使得AI只掌握在少数算法人员手中,难以走向大众化。
在AI领域深耕已久的百度,其文心大模型在商业价值以及应用上的走向似乎更为明晰和开阔。百度方面表示,ChatGPT相关技术,百度都有,且有全栈布局,包括底层芯片、深度学习框架、大模型以及最上层应用。IDC日前发布《2022中国大模型发展白皮书》指出,百度文心已进入AI语言生成类大模型的第一梯队。
据了解,文心大模型已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等重要产品上,服务数亿用户;在行业落地中,文心率先提出行业大模型概念,通过百度智能云在制造、能源、金融、城市、传媒等行业广泛应用,此外,还有越来越多的开发者使用文心大模型。
按照百度集团副总裁吴甜的说法,文心大模型做技术创新的同时做落地应用,收益一方面来源于在百度自身业务中的应用,另一方面来自行业客户具体场景服务的价值。这也是百度在漫长的AI探索过程中,调试出的发展方式,用李彦宏的话就是“摸着‘反馈’过河”。
有企业负责人对记者表示,现在人工智能技术都在与企业的核心业务流程做深度融合,而像ChatGPT这个基于大模型的应用服务,更像一个独立的外挂,如何深度绑定,这也成为企业使用它的一个待解决问题。
记者了解到,目前,中国企业不仅致力于开发出能力媲美ChatGPT的大模型,还在着力降低大模型的应用门槛,让其真正成为产业智能化的基座。
为了让大模型更加融会贯通,阿里达摩院在国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。在不引入任何新增结构的情况下,可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等十余项单模态和跨模态任务,如同打通了AI的感官,受到学界和工业界的广泛关注。
通过部署超大模型及轻量化版本,阿里巴巴通义大模型系列已在超过200个场景中提供服务,实现了2%~10%的应用效果提升,典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。
“实现通用AI——降低使用门槛和使用成本”也是华为对AI大模型的规划,实现从开发到产业化完整的系统流程。2021年到2022年,华为与鹏城实验室推出了“鹏城·神农”大模型,与中科院推出全球首个三模态大模型“紫东·太初”,与中国商飞联合推出业界首个工业级流体仿真大模型“东方·御风”,与武汉大学合作推出全球首个遥感影像大模型“武汉·洛迦”,2月中旬华为与清华大学合作推出了自动驾驶领域大模型。
其中,“紫东·太初”大模型解决了当前人工智能技术“一专一能”、小样本学习能力欠缺、跨模态语义鸿沟的痛点,通过跨模态多任务自监督学习实现图像、文本、语音三模态数据间的“统一表示”与“相互生成”,理解和生成能力更接近人类,向通用人工智能迈出重要一步。
“我们希望打通从技术到商业的断点,在大模型开发、Transformer API的封装以及大模型部署多个环节设计了相应的工具,简化开发难度,同时将十多个主流的预训练SOTA大模型开放到昇腾社区,让开发者可以直接调用做二次开发。”华为昇腾计算业务总裁张迪煊说。