IT之家7月13日消息,外媒近日曝光了今年3月发布的GPT-4大模型,包括GPT-4模型架构、训练和推理基础设施、参数量、训练数据集、token等具体参数和信息数量、成本、混合专家模型。
▲ 图片来源
外媒称,GPT-4共包含120层1.8万亿个参数,而GPT-3只有约1750亿个参数。 为了保持合理的成本,采用混合专家模型进行构建。
IT之家注:混合专家模型(的)是一个神经网络。 系统根据数据分离并训练多个模型。 每个模型输出后,系统将这些模型集成并输出为单个任务。
▲ 图片来源
据悉,GPT-4使用了16个混合专家模型(的),每个模型有1110亿个参数,每个前向传递路线经过两个专家模型。
此外,它还有 550 亿个共享注意力参数,使用包含 13 万亿个的数据集进行训练,不是唯一的,而是更多地根据迭代次数进行计算。
GPT-4预训练阶段的上下文长度为8k。 32k版本是8k微调的结果。 培训成本相当高。 据外媒报道,8x H100 无法以每秒 33.33 的速度提供所需的密集参数模型。 因此,训练模型需要极高的推理成本。 如果H100实体机每小时1美元,那么一节课的培训成本将高达6300万美元(约合人民币4.51亿元)。
对此,我选择使用云端的A100 GPU来训练模型,这使得最终的训练成本降低到了约2150万美元(约1.54亿元人民币),并且花费了稍长的时间来降低训练成本。
广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。
本文地址:http://lanlanwork.gawce.com/quote/2996.html 阁恬下 http://lanlanwork.gawce.com/ , 查看更多