百川智能宣布发布超千亿参数的大语言模型Baichuan 3。在CMMLU、GAOKAO、AGI-Eval等多个权威测评中,Baichuan 3在中文任务评测性能上超越了GPT-4,在数学和代码专项评测中也取得了出色表现。
与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。据介绍,为更好解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。
高质量数据方面,为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。
训练稳定性方面,超千亿参数的模型由于参数量巨大,训练过程中经常会出现梯度爆炸、loss跑飞、模型不收敛等问题。对此,百川智能提出了“重要度保持”的渐进式初始化方法,用以保证模型训练初期的稳定性。并且优化了模型训练过程的监控方案,在梯度、Loss等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题,极大加速对训练问题的定位,确保了最后模型的收敛效果。
此外,为确保在数千张GPU上高效且稳定地训练超千亿参数模型,百川智能同步优化了模型的训练稳定性和训练框架,并采用“异步CheckPoint存储”机制,可以无性能损失地加大存储的频率,减少机器故障对训练任务的影响,使Baichuan 3的稳定训练时间达到一个月以上,故障恢复时间不超过10分钟。
训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,实现Baichuan 3的训练框架在性能方面相比业界主流框架提升超过30%。
据介绍,面向医疗行业,百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集,该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识,确保了模型在医疗领域的专业度和知识深度。在对逻辑推理能力及专业性要求极高的MCMLE、MedExam等权威医疗评测上的中文效果同样超过了GPT-4。