机器之心报道
作者:泽南、杜伟
DeepSeek R1 正在对整个科技领域产生巨大影响,颠覆人们有关 AI 的认知。在移动端,革新正在快速发生。
2 月 20 日,高通发布了最新 AI 白皮书《AI 变革正在推动终端侧推理创新》,介绍了端侧高质量小语言模型和多模态推理模型的前景。
在 AI 逐步大规模落地的过程中,我们已经逐渐意识到端侧的大模型推理可以为人们带来更高的可靠性,同时也可以提升数据安全性。而随着技术的快速发展,其还有更多的优势正在显现。
高通指出,四大趋势正在推动端侧 AI 变革:
在前沿大模型技术不断取得突破的同时,科技行业也已经开始将精力投入到边缘侧的高效部署当中去。在训练成本下降、快速推理部署以及针对边缘环境的创新推动下,业内已经催生了大量更智能、更小型、更高效的模型。
这些技术进步正在逐渐传导到芯片厂商、开发者和消费者身边,形成新的趋势。
模型向小已成为发展必然
纵观最近几年的大语言模型发展,我们可以清楚地看到一些显著的趋势,包括从拼参数规模到拼应用、从单一模态到多模态、轻量化模型的崛起以及向终端侧部署的倾斜,等等。
尤其是最近 DeepSeek V3、R1 的推出,更体现了 AI 行业的这些发展趋势,由此带来的训练成本下降、快速推理部署和针对边缘环境的创新正在推动高质量小模型的激增。深究其原因,如今向小模型的转变是几个方面综合作用的结果。
一是模型网络架构不断创新,从最开始主流的 Transformer 到后来的混合专家模型(MoE)和状态空间模型(SSM)并存,大模型开发过程中的计算开销和功耗不断降低。因此,越来越多的模型开始采用新架构。
二是知识蒸馏技术的使用,这成为了开发高效「基础和特定任务」小模型的关键。通过将复杂的教师模型的知识迁移到更小的学生模型中,一方面显著减少了模型的参数量和计算量,简化了训练过程,占用的存储空间也更少,适合部署在资源受限的设备上;另一方面,学生模型同样可以获得丰富的知识,并保证模型准确性和泛化能力。
meta Llama 700 亿参数模型和 DeepSeek 对应蒸馏模型的 LiveBench AI 基准测试平均结果对比。来源:LiveBench.ai
三是量化、压缩和剪枝等大模型优化和部署技术持续改进,进一步促进了模型规模向小。这些技术同样可以显著降低模型的计算和存储需求,同时保持较高的性能。
有了以上底层架构和技术层面的创新进步,小模型的能力正在趋近、甚至可以超越体量大得多的前沿大模型。比如在 GPQA 基准测试中,基于通义千问模型和 Llama 模型的 DeepSeek 蒸馏版本取得了与 GPT-4o、Claude 3.5 Sonnet 和 GPT-o1 mini 等类似或更高的表现。
来源:DeepSeek,2025 年 1 月。
以上就是本篇文章【DeepSeek推出后,移动端AI风向要变】的全部内容了,欢迎阅览 ! 文章地址:http://lanlanwork.gawce.com/news/12799.html
资讯
企业新闻
行情
企业黄页
同类资讯
首页
网站地图
返回首页 阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多