推广 热搜:   中国  公司  服务  企业  未来  政策  行业  设备  基金 

DeepSeek推出后,移动端AI风向要变

   日期:2025-03-18     作者:caijiyuan    caijiyuan   评论:0    移动:http://lanlanwork.gawce.com/mobile/news/12799.html
核心提示: 机器之心报道 作者:泽南、杜伟DeepSeek R1 正在对整个科技领域产生巨大影响,颠覆人们有关 AI 的认知。在移动端,革新正在快
 机器之心报道 
作者:泽南、杜伟

DeepSeek R1 正在对整个科技领域产生巨大影响,颠覆人们有关 AI 的认知。在移动端,革新正在快速发生。

2 月 20 日,高通发布了最新 AI 白皮书《AI 变革正在推动终端侧推理创新》,介绍了端侧高质量小语言模型和多模态推理模型的前景。

图片

在 AI 逐步大规模落地的过程中,我们已经逐渐意识到端侧的大模型推理可以为人们带来更高的可靠性,同时也可以提升数据安全性。而随着技术的快速发展,其还有更多的优势正在显现。

高通指出,四大趋势正在推动端侧 AI 变革:


在前沿大模型技术不断取得突破的同时,科技行业也已经开始将精力投入到边缘侧的高效部署当中去。在训练成本下降、快速推理部署以及针对边缘环境的创新推动下,业内已经催生了大量更智能、更小型、更高效的模型。

这些技术进步正在逐渐传导到芯片厂商、开发者和消费者身边,形成新的趋势。

模型向小已成为发展必然

纵观最近几年的大语言模型发展,我们可以清楚地看到一些显著的趋势,包括从拼参数规模到拼应用、从单一模态到多模态、轻量化模型的崛起以及向终端侧部署的倾斜,等等。

尤其是最近 DeepSeek V3、R1 的推出,更体现了 AI 行业的这些发展趋势,由此带来的训练成本下降、快速推理部署和针对边缘环境的创新正在推动高质量小模型的激增。深究其原因,如今向小模型的转变是几个方面综合作用的结果。

一是模型网络架构不断创新,从最开始主流的 Transformer 到后来的混合专家模型(MoE)和状态空间模型(SSM)并存,大模型开发过程中的计算开销和功耗不断降低。因此,越来越多的模型开始采用新架构。

二是知识蒸馏技术的使用,这成为了开发高效「基础和特定任务」小模型的关键。通过将复杂的教师模型的知识迁移到更小的学生模型中,一方面显著减少了模型的参数量和计算量,简化了训练过程,占用的存储空间也更少,适合部署在资源受限的设备上;另一方面,学生模型同样可以获得丰富的知识,并保证模型准确性和泛化能力。

图片
meta Llama 700 亿参数模型和 DeepSeek 对应蒸馏模型的 LiveBench AI 基准测试平均结果对比。来源:LiveBench.ai

三是量化、压缩和剪枝等大模型优化和部署技术持续改进,进一步促进了模型规模向小。这些技术同样可以显著降低模型的计算和存储需求,同时保持较高的性能。

有了以上底层架构和技术层面的创新进步,小模型的能力正在趋近、甚至可以超越体量大得多的前沿大模型。比如在 GPQA 基准测试中,基于通义千问模型和 Llama 模型的 DeepSeek 蒸馏版本取得了与 GPT-4o、Claude 3.5 Sonnet 和 GPT-o1 mini 等类似或更高的表现。

图片
来源:DeepSeek,2025 年 1 月。
本文地址:http://lanlanwork.gawce.com/news/12799.html    阁恬下 http://lanlanwork.gawce.com/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号