国产大语言模型现在的热度可以说是非常高,它还引发了业界对AI大模型应用的更多畅想,今年1月发布了DeepSeek-R1人工智能大型语言模型,适用于数学、编码和逻辑等任务,性能对标OpenAI o1,随后在全球范围内掀起了一股热潮,成为了行业的焦点。

目前深度求索(DeepSeek)线上提供服务的模型主要是DeepSeek V3和DeepSeek R1,它们都是开源的,可以在huggingface以及它在国内的镜像站上下载。这些模型都可以通过各种AI平台,如Ollama、Jan.AI、LM Studio和AnythingLLM等轻松地在Windows平台上运行,而这些平台使用的底层核心库是流行的开源C++库llama.cpp。

至于DeepSeek V3和DeepSeek R1两种模型的区别,大家请看以下DeepSeek R1的自己的回答:
1.模型定位
DeepSeek V3:作为通用型智能助手,更注重广泛场景的适应能力,例如知识问答、多轮对话、文本生成等通用任务。
DeepSeek R1:属于优化迭代版本,可能在响应效率、特定任务(如代码生成、数据分析)或垂直领域(如金融、客服)的针对性表现上进行了增强。
2.功能侧重
V3 强调平衡性,适合日常交互和多样化需求。
R1 可能针对实时性、复杂任务处理或行业需求进行了专项优化(具体需参考官方说明)。
3.技术迭代
R1作为后续版本,可能基于V3的反馈数据进行了模型调整,例如优化推理速度、降低资源消耗或提升特定场景的准确性。

DeepSeek的模型都是开源的,所以理论上都可以下载下来自己搭起来跑,但是嘛,DeepSeek V3只有满血版的671B可供下载,DeepSeek R1满血版也是671B,这模型压根就不是给个人用户玩的,得用服务器来跑。

但DeepSeek R1有各种蒸馏小模型可供下载,它们是基于开源模型使用DeepSeek R1进行微调,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果,自用的话这些模型更加合适。
使用较为常见的int4量化模型的话,8B以下的用最为常见8GB显存显卡就能跑了;14B模型的大小是9GB;所以得用10GB显存的显卡,32B模型大小是20GB,需要24GB显存的显卡;70B模型的大小是43GB,这已经不是单张消费级显卡能跑的东西了,需要那些48GB显存的专业卡,用普通显卡的话至少得上双卡。
而llama.cpp开源库里面包含一个基准测试工具llama-bench,可用来测试各种硬件上的LLM推理性能,接下来我们就要用它来跑跑NVIDIA和AMD两家的旗舰显卡运行DeepSeek R1蒸馏模型的速度如何。
本次测试跑了DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Qwen-32B这三个模型,测试平台使用酷睿i9-14900K搭配微星Z790 CARBON WIFI II主板,考虑到32B模型可能会占用大量内存,所以用了DDR5-6400 32GB*2套装。

测试使用的显卡包括RTX 5090、RTX 5090 D、RTX 4090、RTX 4090 D以及AMD的RX 7900 XTX,这些NVIDIA显卡全部都使用CUDA来运行,而RX 7900 XTX则会测试使用Vulkan和ROCm时的情况。
可能在纯CUDA环境下大语言模型推理是吃不满RTX 5090和RTX 4090的算力的,导致测试出来它们和RTX 5090 D和RTX 4090 D一点差距都没有,如果能跑TensorRT就可能有区别,当然也有可能是瓶颈是显存带宽。RX 7900XTX在跑7B和8B模型时使用Vulkan是比ROCm更快的,但跑32B模型时就是ROCm更快。
在运行小型DeepSeek蒸馏模型的时候,RTX 5090 D的每秒输出Tokens比上代RTX 4090 D速度快40%以上,如果是较大的DeepSeek-R1-Distill-Qwen-32B模型的话速度会快55%之多。对比RX 7900XTX,RTX 4090 D要比它快40%以上,而最新的RTX 5090 D甚至是它的两倍之多。
造成这原因,GPU核心算力是一个因素,RTX 5090 D的算力在这三张卡里面最强这点毋庸置疑,而RTX 4090 D本身算力也要比RX 7900XTX高一大截,但从RTX 5090与RTX 5090 D、RTX 4090与RTX 4090 D性能没差距来看,使用CUDA去推理其实没有完全发挥出GPU的AI算力。
另外一个关键因素是显存的带宽,在这三张显卡里面RX 7900XTX的显存带宽是最低的,只有960Gbps,而RTX 4090 D的显存位宽和RX 7900XTX同是384bit,但使用了速度更快的GDDR6X显存,所以带宽更高有1053Gbps,而RTX 5090 D更是配备了512bit的GDDR7显存,带宽高达1792Gbps,跑LLM推理是非常吃显存带宽的,RTX 5090 D能比RTX 4090 D快这么多的原因很大一部分就是带宽的关系。
至于是否采用PCIe 5.0接口,这并不是单卡推理负载的瓶颈,在加载模型时确实与接口带宽有些关系,但此时瓶颈通常是在你的SSD上而不是显卡这边。
个人想本地部署DeepSeek R1 671B模型基本是不用想的,这种基本上只能在服务器上面跑,但在本地跑小型化后的蒸馏模型是没问题的,DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B这两个体积较小的适合显存只有8GB的显卡部署,而且由于比较小的关系所以跑起来速度也很快,然而也是由于较小的关系它们也只是属于能用的范畴,而使用12GB显存显卡的朋友可以跑DeepSeek-R1-Distill-Qwen-14B这个模型,对于LLM来说通常是参数越多给出的答案越精确越全面。

想要真正好用的还得DeepSeek-R1-Distill-Qwen-32B这种有320亿参数的模型,当然这就得上比较高级的显卡了,最好的选择自然是最新的RTX 5090 D,输出tokens/s非常的高,而上代旗舰RTX 4090 D的速度其实也不差,表现均优于AMD的RX 7900 XTX,这自然和NVIDIA GPU本身算力更强的有关,RTX 4090 D本身的AI算力就比RX 7900 XTX高得多,而RTX 5090 D的显存带宽比它们俩高得多,自然性能也更好。
不同大小的DeepSeek R1蒸馏模型的显卡推荐表如下:
而且NVIDIA的软件适配性比AMD的更好,目前支持CUDA的软件非常多,这次跑的llama.cpp运行的也是CUDA,AMD这些年来也在推自己的ROCm,我们这次也跑了,但用ROCm的表现并不一定比通用API Vulkan更好,这就挺尴尬的,AMD在软件方面的支持确实没NVIDIA好,而且NVIDIA对于AI内容有性能更好的TensorRT,日后这些AI软件能升级支持TensorRT的话定能发挥出更好的性能。
- 最新新闻资讯
- 2025-05-30女星金子涵微博全部清空,疑似退圈
- 2025-05-30北京市连续第二年出台支持创新医药发展的专项政策!
- 2025-05-30健康消费加速向“新” 市场前景广阔
- 2025-05-30scratch编程少儿版电脑版 1.5.8官方版scratch手机版下载「scratch编程少儿版电脑版 1.5.8官方版」
- 2025-05-30延长手机电池寿命,手机电量剩多少时充电效果才是最好呢?手机电量多少时充电最好「延长手机电池寿命,手机电量剩多少时充电效果才是最好呢?」
- 2025-05-30miui秒解bl锁_小米最新秒解锁BL分析申请解锁小米手机「miui秒解bl锁_小米最新秒解锁BL分析」
- 新闻资讯
- 本企业新闻
- 2025-05-12手机电子琴 1.2.6手机版电子琴「手机电子琴 1.2.6」
- 2025-04-24iqooneo5支持nfc功能吗 iqooneo5 nfc功能怎么设置【详解】vivo手机有nfc功能吗「iqooneo5支持nfc功能吗 iqooneo5 nfc功能怎么设置【详解】」
- 2025-04-23电视剧《北上》获好评:兼具历史气息与时代精神
- 2025-04-20沈阳iPhone专卖店 苹果14 Pro仅售7599元手机专卖店「沈阳iPhone专卖店 苹果14 Pro仅售7599元」
- 2025-04-16金立手机怎么使用更方便?实用技巧大揭秘!gionee是什么牌子的手机「金立手机怎么使用更方便?实用技巧大揭秘!」
- 2025-04-09清明节临近,猪价因供给偏强、需求支撑不足短期内仍将在低位运行
- 推荐企业新闻
- 2025-05-30【完美装修攻略】居家空调,你选对了吗?
- 2025-05-30周末·健康丨出现这4个症状,请立刻停下来休息!
- 2025-05-30Xcode9之更好用的iOS Simulator(模拟器)ios手机模拟器「Xcode9之更好用的iOS Simulator(模拟器)」
- 2025-05-30好玩的单机二战手游有哪些 2023人气比较高的二战单机游戏排行榜手机大型单机游戏「好玩的单机二战手游有哪些 2023人气比较高的二战单机游戏排行榜」
- 2025-05-30A股有望延续窄幅震荡态势
- 2025-05-30特朗普,被起诉!美股又崩了,苹果等七巨头市值蒸发超5万亿元!美元跳水,美债被抛售,赴美旅游人数“断崖式”下跌,原油大跌