推广 热搜:     行业  公司  系统  服务  参数  中国  教师  企业 

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

   日期:2023-07-29     浏览:140    移动:http://lanlanwork.gawce.com/mobile/quote/2996.html

IT之家7月13日消息,外媒近日曝光了今年3月发布的GPT-4大模型,包括GPT-4模型架构、训练和推理基础设施、参数量、训练数据集、token等具体参数和信息数量、成本、混合专家模型。

▲ 图片来源

外媒称,GPT-4共包含120层1.8万亿个参数,而GPT-3只有约1750亿个参数。 为了保持合理的成本,采用混合专家模型进行构建。

IT之家注:混合专家模型(的)是一个神经网络。 系统根据数据分离并训练多个模型。 每个模型输出后,系统将这些模型集成并输出为单个任务。

▲ 图片来源

据悉,GPT-4使用了16个混合专家模型(的),每个模型有1110亿个参数,每个前向传递路线经过两个专家模型。

此外,它还有 550 亿个共享注意力参数,使用包含 13 万亿个的数据集进行训练,不是唯一的,而是更多地根据迭代次数进行计算。

GPT-4预训练阶段的上下文长度为8k。 32k版本是8k微调的结果。 培训成本相当高。 据外媒报道,8x H100 无法以每秒 33.33 的速度提供所需的密集参数模型。 因此,训练模型需要极高的推理成本。 如果H100实体机每小时1美元,那么一节课的培训成本将高达6300万美元(约合人民币4.51亿元)。

对此,我选择使用云端的A100 GPU来训练模型,这使得最终的训练成本降低到了约2150万美元(约1.54亿元人民币),并且花费了稍长的时间来降低训练成本。

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。

本文地址:http://lanlanwork.gawce.com/quote/2996.html    阁恬下 http://lanlanwork.gawce.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号