滨州市白易科技公司

企业列表

新闻列表

暂无新闻

推荐企业新闻

联系方式

联系人：李先生

首页 > 新闻中心 > NVIDIA、AMD旗舰显卡挑战DeepSeek R1模型：谁才是适配LLM PC性能的高手

新闻中心

NVIDIA、AMD旗舰显卡挑战DeepSeek R1模型：谁才是适配LLM PC性能的高手

发布时间：2025-02-26 浏览次数：24 返回列表

国产大语言模型现在的热度可以说是非常高，它还引发了业界对AI大模型应用的更多畅想，今年1月发布了DeepSeek-R1人工智能大型语言模型，适用于数学、编码和逻辑等任务，性能对标OpenAI o1，随后在全球范围内掀起了一股热潮，成为了行业的焦点。

目前深度求索（DeepSeek）线上提供服务的模型主要是DeepSeek V3和DeepSeek R1，它们都是开源的，可以在huggingface以及它在国内的镜像站上下载。这些模型都可以通过各种AI平台，如Ollama、Jan.AI、LM Studio和AnythingLLM等轻松地在Windows平台上运行，而这些平台使用的底层核心库是流行的开源C++库llama.cpp。

至于DeepSeek V3和DeepSeek R1两种模型的区别，大家请看以下DeepSeek R1的自己的回答：

1.模型定位

DeepSeek V3：作为通用型智能助手，更注重广泛场景的适应能力，例如知识问答、多轮对话、文本生成等通用任务。
DeepSeek R1：属于优化迭代版本，可能在响应效率、特定任务（如代码生成、数据分析）或垂直领域（如金融、客服）的针对性表现上进行了增强。

2.功能侧重

V3 强调平衡性，适合日常交互和多样化需求。
R1 可能针对实时性、复杂任务处理或行业需求进行了专项优化（具体需参考官方说明）。

3.技术迭代
R1作为后续版本，可能基于V3的反馈数据进行了模型调整，例如优化推理速度、降低资源消耗或提升特定场景的准确性。

DeepSeek的模型都是开源的，所以理论上都可以下载下来自己搭起来跑，但是嘛，DeepSeek V3只有满血版的671B可供下载，DeepSeek R1满血版也是671B，这模型压根就不是给个人用户玩的，得用服务器来跑。

但DeepSeek R1有各种蒸馏小模型可供下载，它们是基于开源模型使用DeepSeek R1进行微调，其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果，自用的话这些模型更加合适。

使用较为常见的int4量化模型的话，8B以下的用最为常见8GB显存显卡就能跑了；14B模型的大小是9GB；所以得用10GB显存的显卡，32B模型大小是20GB，需要24GB显存的显卡；70B模型的大小是43GB，这已经不是单张消费级显卡能跑的东西了，需要那些48GB显存的专业卡，用普通显卡的话至少得上双卡。

而llama.cpp开源库里面包含一个基准测试工具llama-bench，可用来测试各种硬件上的LLM推理性能，接下来我们就要用它来跑跑NVIDIA和AMD两家的旗舰显卡运行DeepSeek R1蒸馏模型的速度如何。

本次测试跑了DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Qwen-32B这三个模型，测试平台使用酷睿i9-14900K搭配微星Z790 CARBON WIFI II主板，考虑到32B模型可能会占用大量内存，所以用了DDR5-6400 32GB*2套装。

测试使用的显卡包括RTX 5090、RTX 5090 D、RTX 4090、RTX 4090 D以及AMD的RX 7900 XTX，这些NVIDIA显卡全部都使用CUDA来运行，而RX 7900 XTX则会测试使用Vulkan和ROCm时的情况。

可能在纯CUDA环境下大语言模型推理是吃不满RTX 5090和RTX 4090的算力的，导致测试出来它们和RTX 5090 D和RTX 4090 D一点差距都没有，如果能跑TensorRT就可能有区别，当然也有可能是瓶颈是显存带宽。RX 7900XTX在跑7B和8B模型时使用Vulkan是比ROCm更快的，但跑32B模型时就是ROCm更快。

在运行小型DeepSeek蒸馏模型的时候，RTX 5090 D的每秒输出Tokens比上代RTX 4090 D速度快40%以上，如果是较大的DeepSeek-R1-Distill-Qwen-32B模型的话速度会快55%之多。对比RX 7900XTX，RTX 4090 D要比它快40%以上，而最新的RTX 5090 D甚至是它的两倍之多。

造成这原因，GPU核心算力是一个因素，RTX 5090 D的算力在这三张卡里面最强这点毋庸置疑，而RTX 4090 D本身算力也要比RX 7900XTX高一大截，但从RTX 5090与RTX 5090 D、RTX 4090与RTX 4090 D性能没差距来看，使用CUDA去推理其实没有完全发挥出GPU的AI算力。

另外一个关键因素是显存的带宽，在这三张显卡里面RX 7900XTX的显存带宽是最低的，只有960Gbps，而RTX 4090 D的显存位宽和RX 7900XTX同是384bit，但使用了速度更快的GDDR6X显存，所以带宽更高有1053Gbps，而RTX 5090 D更是配备了512bit的GDDR7显存，带宽高达1792Gbps，跑LLM推理是非常吃显存带宽的，RTX 5090 D能比RTX 4090 D快这么多的原因很大一部分就是带宽的关系。

至于是否采用PCIe 5.0接口，这并不是单卡推理负载的瓶颈，在加载模型时确实与接口带宽有些关系，但此时瓶颈通常是在你的SSD上而不是显卡这边。

个人想本地部署DeepSeek R1 671B模型基本是不用想的，这种基本上只能在服务器上面跑，但在本地跑小型化后的蒸馏模型是没问题的，DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B这两个体积较小的适合显存只有8GB的显卡部署，而且由于比较小的关系所以跑起来速度也很快，然而也是由于较小的关系它们也只是属于能用的范畴，而使用12GB显存显卡的朋友可以跑DeepSeek-R1-Distill-Qwen-14B这个模型，对于LLM来说通常是参数越多给出的答案越精确越全面。

想要真正好用的还得DeepSeek-R1-Distill-Qwen-32B这种有320亿参数的模型，当然这就得上比较高级的显卡了，最好的选择自然是最新的RTX 5090 D，输出tokens/s非常的高，而上代旗舰RTX 4090 D的速度其实也不差，表现均优于AMD的RX 7900 XTX，这自然和NVIDIA GPU本身算力更强的有关，RTX 4090 D本身的AI算力就比RX 7900 XTX高得多，而RTX 5090 D的显存带宽比它们俩高得多，自然性能也更好。

不同大小的DeepSeek R1蒸馏模型的显卡推荐表如下：

而且NVIDIA的软件适配性比AMD的更好，目前支持CUDA的软件非常多，这次跑的llama.cpp运行的也是CUDA，AMD这些年来也在推自己的ROCm，我们这次也跑了，但用ROCm的表现并不一定比通用API Vulkan更好，这就挺尴尬的，AMD在软件方面的支持确实没NVIDIA好，而且NVIDIA对于AI内容有性能更好的TensorRT，日后这些AI软件能升级支持TensorRT的话定能发挥出更好的性能。