作为2023年科技圈最火的词,大模型就像是多米诺骨牌中的一块触发牌,轻轻一碰便在整个人工智能领域引发了一系列颠覆式的连锁反应。相较于国际市场上以微软与谷歌两巨头为主导的大模型角力,国内市场则呈现出大厂领衔、百花齐放的趋势。伴随百度“文心一言”、阿里“通义千问”、腾讯“混元”大模型、华为“盘古”大模型的先后登场,中国AI大模型之争初露峥嵘。
“参数为王”?
对比小模型,大模型一个标志性的特点就是“大规模”。从GPT-1到GPT-3,模型的参数量从1.1亿个增长到了1750亿个,几年的时间内增长了1000多倍。最新发布的GPT-4据悉已达到了万亿级别的参数。
研究人员发现,当训练量超过某个阈值时,模型的精度会突然暴增。一旦解锁这种“涌现能力”,模型就会因量变引起质变,开启“自动驾驶”模式。即使在没有专门训练过的领域,也能涌现出知识理解和逻辑推理能力。
于是,各家大厂开始在模型中加入越来越多的参数,导致模型规模屡创新高。国内百度“文心一言”背后的大模型为2600亿参数,腾讯“混元”大模型也达到了千亿级参数,华为“盘古”大模型参数规模据推测可能已经接近GPT-3.5 的水平,阿里“通义千问”大模型则官宣已达到10万亿参数。
伴随参数之争越发“白热化”,业界似乎陷入了一个误区,以为模型越大越好,其实事实并非如此。OpenAI联合创始人兼CEO Sam Altman近日公开表示,OpenAI正接近LLM(大型语言模型)规模的极限,规模越大并不一定意味着模型越好,而可能只是为了追求一个数字而已。LLM的规模不再是衡量模型质量的重要指标,未来将有更多的方式来提升模型的能力和效用。
有专家指出,模型的性能有一个不明确的上限。以谷歌发布的拥有1.6万亿参数的Switch Transfomer为例,当谷歌把参数量提升了一个量级后,确实会对性能有所提升,但是此时带来的性能收益已经远不及以前那么“惊艳”了。这似乎是一种边际效应递减的现象。
也有观点认为,在一些垂直专业领域,并不需要超大规模的模型,不恰当的网络架构设计反而会造成对计算资源极大的浪费。APUS创始人兼CEO李涛表示,中小模型的针对性更强,未来基于大模型再开发的各类小模型,可以更迅速地应用到各行各业,提供多元化服务。
回归大模型底层技术,Transformer才是这一轮人工智能技术取得实质性突破真正核心的“因”。“2018年以来,基于Transformer的神经网络模型推动了新一轮自然语言模型的发展。模型结构的不断演进和优化,改善了模型或算法的效果。”Forrester高级分析师卢冠男表示。可以说,Transformer为自然语言处理开启了一种新范式,极大地推进了语言建模和语义理解,带来了通用人工智能的曙光。
“现在大多数的大模型都是基于Transformer,这是毫无疑问的。”清华大学人工智能研究院、视觉智能研究中心主任邓志东表示。Transformer的核心之一是自注意力机制(Self-Attention),能够通过关系的特征进行学习表达相关性。同时,它对序列数据的并行处理能力远超LSTM(长短时记忆网络,一种深度学习中的循环神经网络)。
“大型语言模型利用自注意力机制的Transformer神经网络,把成千上万个Transformer串联起来,通过对大规模文本的数据学习建立从单词、短语、句子、段落不同层次之间相互连接的关系,基于连续关系进行统一整体的表达,这让它的理解能力、整体逻辑都非常强。”邓志东说道。
作为一种工程化的创新,大模型是数据、算法、算力等要素资源之间的精巧组合。除了投入大规模、高质量的语料作为“养料”,还需不断地对其进行工程化调优,才能让它可以真正开始高效提炼、蒸馏人类的知识,达到类似于人的智能效果。
“数据是大模型的基础,算法是大模型的核心,算力是大模型的保障,它们之间只有相互作用和协同合作,才能够打造出更加完善和优秀的大模型。”成都市人工智能产业协会秘书长李娅娜说道。
大厂各出“奇”招?
大模型之争本质上是大厂之间AI能力之争,甚至是全面的算力体系之间的竞争。对于百度而言,人工智能是其花费十余年时间才为自己贴上的一个重要标签。大模型之于百度并非“锦上添花”,而是深度关联到包括搜索引擎、智能云、自动驾驶等在内的所有核心业务,有机会演变为真正激活全盘智能业务、突破营收瓶颈的关键所在。这一战,事关百度能否重回BAT三巨头之巅,因此必须“All in”,争夺绝对话语权。
云计算才是百度这波人工智能攻势背后最大的目标。百度创始人、董事长兼CEO李彦宏公开表示:“对于百度而言,更大的故事在云计算。‘文心一言’带来的优势,让百度智能云有可能成为市场第一。”百度希望用大模型改变云计算的游戏规则,让百度智能云以更轻量的方式进入更多行业复杂场景,以此实现市场份额的跨越式增长。
虽有仓皇迎战之嫌,但百度“对标ChatGPT”的“野心”在一定程度上也刺激到其他大厂加速入场大模型,比如目前国内云计算市场份额最大的阿里云。
“通义千问”大模型官宣虽晚,却是来势汹汹。与阿里云“向下扎根”的发展策略一脉相承,阿里云做大模型的思路也是“做底座”,把能力开放给行业,以通用大模型为平台,为不同行业的企业提供定制大模型。它希望能够把很多对大模型感兴趣的企业从复杂的底层开发工作中解脱出来,把更多精力放在应用开发上,而不是再重新“发明一遍轮子”。
算力成本、数据成本是当前制约人工智能发展的一个核心挑战,而云计算便是化解这个挑战的必由之路。阿里云提出要在技术和成本之间找平衡,通过云计算降低模型使用门槛,让人工智能技术实现普惠。“未来,我们希望在阿里云上训练一个模型的成本,能够降低到现在的十分之一,甚至是百分之一。即使是中小企业,也能通过云平台获得AI大模型的能力和服务。”阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇说道。
相较之下,腾讯只把大模型作为辅助和优化自身业务的工具,而不是对原有业务形成颠覆性影响的技术,因此对于大模型的态度显得格外保守且低调。
腾讯总裁刘炽平此前表示:“我们坚信AI将成为公司未来业务增长的放大器,因为我们的业务实际上聚焦于社交、通信和游戏领域,这意味着它主要围绕用户间的互动,同时涉及非常高质量的内容,因此生成式AI和基础模型技术可以补充和优化这些业务,但不会对这些业务造成威胁。这与搜索类的人机互动体验是不同的。”
除了BAT三巨头,华为也是大模型赛道上备受关注的一个重量级选手。向来不赶“热点”只谈应用的华为,这次依然选择将工业化的一面放置在更高的优先级上,致力于推动人工智能开发从“作坊式”到“工业化”升级。
“盘古”大模型主要在做AI for Industry(AI赋能产业),如视觉大模型已经在工业质检、缺陷检测、电力巡检等100多个场景中得到验证。华为云人工智能领域首席科学家田奇表示,华为希望通过“盘古”大模型为煤矿、水泥、电力、金融、农业等行业创造更多产业价值。
李娅娜分析称,百度的优势是在核心业务上牢牢把握搜索端入口,相比于谷歌不需要应付同行的快速挑战;阿里的优势是强大的底层算力支持;腾讯的优势是低成本高速网络基础设施;华为的优势则是专注在基于CV大模型的产业应用上。
“目前To C一侧还未出现基于大模型的杀手级应用,能否成功整合搜索、社交、工具类互联网服务,并通过新的客户体验获取用户认可将成为关键。To B一侧正在以开放谨慎的态度进行探索。如果大模型科技公司能快速转化其通过公有云建立的客户关系或针对那些已使用其AI服务的客户探索大模型使用场景,那么将获得竞争优势。”卢冠男表示。
“靠技术”还是“追热点”?
对于AI大模型狂飙,资本市场的态度却呈“两面倒”。一些投资机构选择重金押注,争做“第一个吃螃蟹”的人。最近清华系AI初创公司深言科技(DeepLang AI)新一轮融资估值被爆约1亿美元,引发市场关注。搜狗公司创始人王小川创立大模型创业公司“百川智能”,称已获5000万美元的资金支持。图智能公司“Fabarta”宣布已获得人民币过亿元Pre-A轮融资。
但也有不少投资人持保守态度。原因无他,“大模型实在太烧钱了”。根据中信研报的测算,ChatGPT生成一条信息的成本在1.3美分左右,是目前传统搜索引擎的3~4倍,单次搜索成本过于高昂。再看OpenAI的财报,仅是2022年这一年时间,公司净亏损总额就已达到了5.45亿美元。
除了“烧钱”的问题,专家对于国内大模型是否已经做好准备依然存疑。前海信达基金董事总经理陈博指出,目前来看,国内做自然语言处理(NLP)的公司还没做好转型到Transformer模型的准备。NLP是个很好的辅助工具,但不是一个能够挑大梁的盈利工具。因此他认为现阶段大模型投资跟风和拉市值的意味比较重。
中央财经大学中国互联网经济研究院副院长欧阳日辉分析称,大模型发展的三个必要因素包括大量的数据积累、雄厚的资金以及高端的人才,三个条件缺一不可。目前来看的话,国内可能大型互联网公司更具实力,更有可能作出有益探索,但还需时日。
在大模型这个赛道上,要追技术,而不是追热点。正如微软(中国)首席技术官韦青所言,不同的土壤、不同的环境、不同的养分,长出来的树也是不同的,大模型也是如此。土壤代表着知识、文明、文化,树根代表着以Transformer为代表的“知识提炼机”,ChatGPT就是长出来的一棵树。目前在大语言模型这片土地上已经长出许多“树”了,如果只把目光放在其中的一棵“树”上,那么就会永远也赶不上时代潮流。
放眼未来,卢冠男认为下一代大模型的技术关注点,一方面在于多模态模型的进展,比如探索对语音、视频等更丰富的数据格式支持;另一方面在于针对大模型的开发、应用和治理的优化,比如大型云厂商如何改善云服务,从而更好地支撑对训练和推断环节的低成本和高响应速度的算力需求。
同时,卢冠男坦言,由于客户需求还未被充分探索,且大模型自身也处在快速演进的阶段,所以短期内还无法印证是否会走向依赖通用大模型来满足各类客户的需求。所以,未来的一段时间内,会见到企业专属大模型和针对各类场景定制化的大模型并存的情况。
“构建技术生态和产业生态是通用人工智能竞争的主战场。”阿里研究院副院长安筱鹏表示,“数字时代是生态的竞争,通用人工智能时代也会形成一个生态,这是生态和生态之间的竞争,是一场持久战,最后要形成一个技术和商业的闭环。”