16384块N卡训练4050亿参数大模型:3小时报错一次
发布时间:2024-08-26 来源:互联网 点击:(3018) 【 字体:大 中 小 】
16384块N卡训练4050亿参数大模型:3小时报错一次
如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。
Meta在报告中披露,为了训练自己的Llama 3 4050亿参数大模型,使用了包含16384块NVIDIA H100 80GB GPU的集群,一共花了45天,期间居然出现了419次意外报错,平均每3个小时就一次,而一半的错误都和GPU及其自带的HBM3内存有关。
要知道,大模型训练的工作量异常庞大,而且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。
报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的58.7%。
具体来说,148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线),72次即17.2%来自HBM3内存失效——毕竟,700W的功耗太热了。
还有19次来自GPU SRAM,17次来自GPU处理器,6次来自GPU静默数据错误,6次来自GPU散热和传感器。
其他错误来自软件bug、网线和网卡等等各个方面。有趣的是,CPU错误只出现了2次。
还好,Llama 3团队非常给力,在这么高的出错几率下,依然维持了超过90%的有效训练时间,而且只有三次GPU报错需要大量人工干预,其他都被自动化管理纠正了。
猜你喜欢
第五届中国工业互联网大赛无锡赛站决赛举办
以“数字赋能 智创未来”为主题,由工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会等单位主办的第五届中国工业互联···网传:游戏大奖TGA2024将公布“重磅”消息
网传:游戏大奖TGA2024将公布“重磅”消息距离游戏大奖颁奖典礼还有不到一周的时间,这也意味着未来几天我们将看到一些游戏的新细节···复旦教授称中国退休年龄还是太早,建议推行延迟退休制···
在当今这个快速发展的时代,退休年龄问题成了一个热门话题。复旦大学的一位教授彭希哲,这位在学术界有着丰富成就的资深教授,近日就提出了···2024年AI领域五大趋势
人工智能(AI)的未来将是什么模样?美国《福布斯》双周刊网站在近日的报道中,列出了2024年AI领域发展的五大趋势,这些趋势有望赋···中国汽车提前布局智能赛道
这两天,“奥迪向中国车企低头”的词条霸榜热搜。据外媒报道,为了应对日益激烈的电动汽车竞争,奥迪正在考虑直接从中国的电动车企业购···荣耀赵明:Magic V2发布希望带动产业坚定折叠···
近日,全新折叠旗舰荣耀Magic V2正式发布,荣耀Magic V2系列用重构思维,从消费者需求原点思考产品设计,打破传统折叠···“智慧教育,连接山海”科技创新助力教育数字化转型研讨会在京召开
中国财政科学研究院院长刘尚希:数实融合要有新认识
乐火影视推荐 《千鹤先生》
《灿烂的转身》苏菲老公出轨谁
河粉是什么材料做的?
《丁西林民国喜剧三则》登台人艺实验剧场,柴米油盐中碰撞出幽默与诙谐
北京胡同特色小吃推荐- 门框胡同百年卤煮
吉利控股申请混动车型离合器控制方法、变速箱控制器及车辆专利,避免因车速下降过快产生的负载传递至甲醇发动机,引起甲醇发动机熄火的情况
乐火影视推荐 《速度与激情10》
学习服装穿搭之前必须先了解下形象设计