Top
首页 > 正文

2023 GAIR|优刻得季昕华:中立云服务助力AIGC发展

在当下的大模型时代,UCloud希望发挥云厂商在算力、工程、网络、安全等多方面的产品技术和实践能力,构筑强大的AI算力底座。同时,基于遍布全球的海外数据中心,协助大模型企业完成模型研发和测试等工作。
发布时间:2023-08-15 10:35 来源: 作者:

今天,第七届GAIR全球人工智能与机器人大会在新加坡隆重召开,大会特邀全球产业领袖、业内大咖共话大模型和生成式AI的技术突破和商业创新。据悉,本届GAIR由雷峰网联合新加坡GAIR研究院、世界科学出版社、科特勒咨询集团等机构共同举办,是国内首个出海的大型AI论坛,也是中国人工智能影响力的一次跨境溢出。

UCloud作为国内知名的云计算厂商受邀参会,UCloud董事长兼CEO季昕华在《大模型时代的超级基建》主题论坛发表了题为《中立云服务助力AIGC发展》的精彩演讲,分享了对大模型的关注与思考、剖析了大模型发展的痛点,并全面展示了UCloud在AIGC领域的算力底座和工程实践。

GPT的横空出世引领着人工智能产业新机遇,“百模大战”正在国内打响。季昕华总结了当前国内做通用和垂直大模型的企业已有130余家,团队构成可划分为五大方阵,分别是互联网巨头、上市公司、AI团队、科学家创业、互联网高管创业,这些企业呈现出了资金、人才、数据、算力密度高的特点,也构成了大模型的四大核心要素。

大模型的生命周期包括前期的数据清洗、预训练、有监督微调、奖励建模、强化学习,以及后续的部署运营六个阶段,而在对应的过程中往往会面临着多样合规数据如何获取,计算、存储、网络能否满足训练需求,模型的稳定性和安全性又如何保障等一系列难题。UCloud是中立、安全的云厂商,拥有超过10年的公有云技术沉淀并积累了全面的系统工程能力,具备从数据中心、计算平台,到管理平台、网络服务、应用服务、生态接口等一站式产品和解决方案。

季昕华首先分享了大模型在功耗和电力方面的挑战,大模型所需的机房电量消耗大且功率更高。UCloud乌兰察布数据中心电力充分、电价低廉、可自然制冷且距离北京更近,具备高可靠性、高性价比等优势,可有效满足大模型的训练要求。相较上海、北京等同等质量的数据中心,成本下降40%;采用双路不间断电源供电,更加安全可靠;模块化的设计布局,支持机房模块、基础设施配置的深度灵活定制。

当前大规模集群算力仍存在较大的缺口,UCloud基于自建数据中心所打造的AIGC解决方案可充分满足大模型企业对于底层算力基础设施的需求,同时UCloud可为客户提供后续的维护服务。自建数据中心内提供专为GPU集群建设的高电机柜,并上线了多款GPU算力资源,推出了“训练专区+推理专区+存储专区+管理专区”的分区建设方案,企业可根据实际的训练、推理、数据处理等应用场景进行灵活可扩展的算力选择。基于完善的基础架构方案和安全保障,帮助大模型企业快速搭建算力平台,并通过对接上层的资源调度系统,提高模型训练和推理效率,让客户专注于模型迭代与业务创新。

其次是大模型的存储挑战,存储性能会直接影响大模型的训练时间。大模型计算的工作负载大多是读密集型的,UCloud从大量列表元数据操作、高吞吐读需求、大量顺序写入这三个方面针对基于US3对象存储的文件系统进行升级改造,提升元数据性能、读缓存和写吞吐的能力。经测试,优化后的读性能有70%左右的性能提升,达到5GBps;写吞吐10%左右的吞吐提升,达到2.2GBps,可充分满足大模型客户在单点挂载时吞吐的性能需求,大幅提升训练效率。后续,UCloud会在和kernel交互的方式上进一步优化并发来提升写吞吐的能力。此外,UCloud研发中的GPUDirect Storage,将会有更高的存储性能。

大模型训练依赖于大规模分布式并行集群,还面临着网络层面的挑战。一方面是因为模型本身非常大,需要拆分到多个GPU上来存储;另一方面,模型参数量越大就越需要更多的计算量,千张GPU甚至几千张GPU并行训练是大模型成功的基础。季昕华分享,大模型训练RDMA网络设计要满足“大规模、高带宽”的要求,目前UCloud支持IB和RoCE两种高性能网络方案,可充分满足大规模算力集群之间的高速网络互联,实现多节点间的无损通信。

谈到目前国内的场景应用,季昕华表示,按照对大模型输出内容准确性的容忍度来分类,游戏NPC、社交辅助、电商、游戏/设计的画图、翻译、客服支持、文字和编程辅助、教育、法律、医疗这10大行业场景有较为广泛的落地。同时,大模型发展还将持续面临数据安全、政府对于合规性的要求、国际关系对于中国AI发展的限制等挑战。

在随后的圆桌交流中,季昕华提到,“UCloud从五个方面帮助大模型客户进行降本增效,第一在乌兰察布数据中心实现70%的电费成本节约;第二通过租用的方式,帮助客户节省IT基础设施成本投入;第三通过优化网络和存储带宽以提升大模型训练效率;第四未来推理成本会远高于训练成本,UCloud可以帮助客户将大模型放至3090或V100进行推理任务;第五UCloud不做大模型,但可以通过私有化大模型一体机的模式,帮助客户推广大模型。”

据悉,为加速垂直大模型的行业落地,UCloud基于开箱即用的私有化大模型一体机提供一站式MaaS服务,支持Alpaca-LoRA7B、T5、MiniGPT-4、ChatGLM、Ziya、LlaMA2以及Milvus向量数据库等开源大模型,企业可以快速搭建大模型的微调或推理环境,轻松部署大模型应用。大模型一体机内置UCloud自主研发的全栈私有云平台,统一了计算、存储、网络底层资源,通过运行环境一键打包和算力调度,使得大模型一体机既可作为训练的算力运行环境,又可在训练结束后,无缝切换至推理业务部署模式,确保基础设施成本可控、安全可靠。

在当下的大模型时代,UCloud希望发挥云厂商在算力、工程、网络、安全等多方面的产品技术和实践能力,构筑强大的AI算力底座。同时,基于遍布全球的海外数据中心,协助大模型企业完成模型研发和测试等工作。作为中立的云计算企业,优刻得也希望与更多合作伙伴和科学家携手进行大模型技术研究与迭代优化,助力大模型应用快速、安全的落地千行百业。

合作站点
stat
Baidu
map