GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

2023-07-29 07:38 浏览:181

IT之家7月13日消息，外媒近日曝光了今年3月发布的GPT-4大模型，包括GPT-4模型架构、训练和推理基础设施、参数量、训练数据集、token等具体参数和信息数量、成本、混合专家模型。

▲ 图片来源

外媒称，GPT-4共包含120层1.8万亿个参数，而GPT-3只有约1750亿个参数。为了保持合理的成本，采用混合专家模型进行构建。

IT之家注：混合专家模型（的）是一个神经网络。系统根据数据分离并训练多个模型。每个模型输出后，系统将这些模型集成并输出为单个任务。

▲ 图片来源

据悉，GPT-4使用了16个混合专家模型（的），每个模型有1110亿个参数，每个前向传递路线经过两个专家模型。

此外，它还有 550 亿个共享注意力参数，使用包含 13 万亿个的数据集进行训练，不是唯一的，而是更多地根据迭代次数进行计算。

GPT-4预训练阶段的上下文长度为8k。 32k版本是8k微调的结果。培训成本相当高。据外媒报道，8x H100 无法以每秒 33.33 的速度提供所需的密集参数模型。因此，训练模型需要极高的推理成本。如果H100实体机每小时1美元，那么一节课的培训成本将高达6300万美元（约合人民币4.51亿元）。

对此，我选择使用云端的A100 GPU来训练模型，这使得最终的训练成本降低到了约2150万美元（约1.54亿元人民币），并且花费了稍长的时间来降低训练成本。

广告声明：文章中包含的外部跳转链接（包括但不限于超链接、二维码、密码等）用于传达更多信息，节省选择时间。结果仅供参考。 IT之家的所有文章均包含此声明。

以上就是本篇文章【GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型】的全部内容了，欢迎阅览！文章地址：http://lanlanwork.gawce.com/quote/2996.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多