2025 年,开源大语言模型的能力已逼近甚至在某些任务上超越闭源模型。更关键的是,本地部署意味着数据不离开你的设备,无需按 token 付费,且可以自由微调。本文将从硬件选型到推理框架,为你提供一份完整的本地部署攻略。
一、硬件需求概览
不同规模的模型对硬件的要求差异巨大,合理评估需求是第一步:
- 7B 级别模型(如 Qwen2-7B、Llama 3.1-8B):需要 ≥8GB VRAM,RTX 3060 12GB 即可流畅运行 4-bit 量化版本
- 13B-14B 级别模型(如 Qwen2.5-14B、Llama 3-13B):推荐 ≥16GB VRAM,RTX 4070 Ti / 4080 是性价比较高的选择
- 32B-34B 级别模型(如 DeepSeek-V2-Lite、Yi-34B):需要 ≥24GB VRAM,RTX 4090 24GB 或双卡方案
- 70B+ 级别模型(如 Llama 3-70B、Qwen2.5-72B):建议 2×RTX 4090 或 A100/A6000 级别显卡
如果完全没有 GPU,也可以使用纯 CPU 推理(llama.cpp 的 Q4_K_M 量化方案),速度大约为 CPU 上的 2-4 token/s,适合非实时的文本处理场景。
二、推理框架对比
1. Ollama — 最推荐的入门方案
Ollama 是目前最受欢迎的本地推理框架。一条命令即可下载并运行模型:ollama run qwen2.5。它自动处理模型下载、量化、GPU 加速和 API 暴露。内置的模型库涵盖了主流开源模型的预量化版本。无论你是 Windows、macOS 还是 Linux 用户,Ollama 都能三分钟上手。
2. llama.cpp — 硬核党的选择
llama.cpp 是一个纯 C/C++ 推理引擎,支持最广泛的量化方案(从 Q2_K 到 Q8_0)。它的最大优势在于极致的性能优化和跨平台兼容性。配合 llama-server 可以暴露 OpenAI 兼容 API。适合有更高性能调优需求的开发者和研究者。
3. vLLM — 生产级推理引擎
如果你的场景需要高并发和低延迟(如 API 服务),vLLM 是首选。它使用 PagedAttention 算法将显存利用率提升至接近理论极限。多卡分布式推理配置简单,支持 Continuous Batching,在并发推理场景下吞吐量远超 llama.cpp。但配置相对复杂,适合有运维经验的用户。
4. LM Studio — 桌面 GUI 方案
LM Studio 提供了漂亮的图形界面,内置模型浏览器,支持从 Hugging Face 直接下载模型。适合不习惯命令行的用户。支持 OpenAI 兼容 API 和本地 RAG(检索增强生成)功能。
三、实操:用 Ollama 部署 Qwen2.5
以下是在 Ubuntu 22.04 上用 Ollama 部署阿里通义千问 2.5 模型的最简步骤:
- 安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh - 启动服务:
ollama serve(默认监听 11434 端口) - 下载并运行 7B 模型:
ollama run qwen2.5:7b - 调用 API(Python):
import requests; requests.post('http://localhost:11434/api/generate', json={'model':'qwen2.5:7b','prompt':'Hello'})
整个过程约 5 分钟即可完成。首次运行需要下载 4-8 GB 模型文件,具体取决于量化等级。
四、常见问题与优化技巧
- 显存不足:优先使用 4-bit 量化(Q4_K_M),显存需求可降至原始模型的 30%
- 推理速度慢:启用 Flash Attention 2(需 Ampere 及以上架构),速度提升 2-3 倍
- 上下文窗口不够:Ollama 支持通过
/set parameter num_ctx 32768扩展上下文 - 多卡并行:vLLM 支持
--tensor-parallel-size 2自动将模型分载到多张 GPU - 中文能力优化:Qwen2.5 和 DeepSeek-V2 在中文场景表现最佳,无需额外配置
五、模型推荐清单
截至 2025 年 6 月,我们推荐以下本地可部署的开源模型:
- Qwen2.5 (7B/14B/72B) — 阿里开源,中文能力最强之一,多轮对话体验优秀
- Llama 3.1 (8B/70B) — Meta 出品,英文和代码能力出色,社区生态最完善
- DeepSeek-V2 (16B/236B MoE) — 深度求索,Math 和 Coding 表现惊人
- Mistral Small 3.1 (24B) — 性能/尺寸比极高,单卡 24GB 可跑
- Hermes 3 (8B/70B) — Nous Research,Agent 能力突出,适合工具调用场景
本地部署最大的意义在于自主可控。随着开源模型的持续迭代和推理框架的成熟,本地运行 AI 将像安装数据库一样成为应用开发的标准环节。祝大家部署顺利!