开源 AI 模型本地部署指南

2025 年，开源大语言模型的能力已逼近甚至在某些任务上超越闭源模型。更关键的是，本地部署意味着数据不离开你的设备，无需按 token 付费，且可以自由微调。本文将从硬件选型到推理框架，为你提供一份完整的本地部署攻略。

一、硬件需求概览

不同规模的模型对硬件的要求差异巨大，合理评估需求是第一步：

7B 级别模型（如 Qwen2-7B、Llama 3.1-8B）：需要 ≥8GB VRAM，RTX 3060 12GB 即可流畅运行 4-bit 量化版本
13B-14B 级别模型（如 Qwen2.5-14B、Llama 3-13B）：推荐 ≥16GB VRAM，RTX 4070 Ti / 4080 是性价比较高的选择
32B-34B 级别模型（如 DeepSeek-V2-Lite、Yi-34B）：需要 ≥24GB VRAM，RTX 4090 24GB 或双卡方案
70B+ 级别模型（如 Llama 3-70B、Qwen2.5-72B）：建议 2×RTX 4090 或 A100/A6000 级别显卡

如果完全没有 GPU，也可以使用纯 CPU 推理（llama.cpp 的 Q4_K_M 量化方案），速度大约为 CPU 上的 2-4 token/s，适合非实时的文本处理场景。

二、推理框架对比

1. Ollama — 最推荐的入门方案
Ollama 是目前最受欢迎的本地推理框架。一条命令即可下载并运行模型：ollama run qwen2.5。它自动处理模型下载、量化、GPU 加速和 API 暴露。内置的模型库涵盖了主流开源模型的预量化版本。无论你是 Windows、macOS 还是 Linux 用户，Ollama 都能三分钟上手。

2. llama.cpp — 硬核党的选择
llama.cpp 是一个纯 C/C++ 推理引擎，支持最广泛的量化方案（从 Q2_K 到 Q8_0）。它的最大优势在于极致的性能优化和跨平台兼容性。配合 llama-server 可以暴露 OpenAI 兼容 API。适合有更高性能调优需求的开发者和研究者。

3. vLLM — 生产级推理引擎
如果你的场景需要高并发和低延迟（如 API 服务），vLLM 是首选。它使用 PagedAttention 算法将显存利用率提升至接近理论极限。多卡分布式推理配置简单，支持 Continuous Batching，在并发推理场景下吞吐量远超 llama.cpp。但配置相对复杂，适合有运维经验的用户。

4. LM Studio — 桌面 GUI 方案
LM Studio 提供了漂亮的图形界面，内置模型浏览器，支持从 Hugging Face 直接下载模型。适合不习惯命令行的用户。支持 OpenAI 兼容 API 和本地 RAG（检索增强生成）功能。

三、实操：用 Ollama 部署 Qwen2.5

以下是在 Ubuntu 22.04 上用 Ollama 部署阿里通义千问 2.5 模型的最简步骤：

安装 Ollama：curl -fsSL https://ollama.com/install.sh | sh
启动服务：ollama serve（默认监听 11434 端口）
下载并运行 7B 模型：ollama run qwen2.5:7b
调用 API（Python）：import requests; requests.post('http://localhost:11434/api/generate', json={'model':'qwen2.5:7b','prompt':'Hello'})

整个过程约 5 分钟即可完成。首次运行需要下载 4-8 GB 模型文件，具体取决于量化等级。

四、常见问题与优化技巧

显存不足：优先使用 4-bit 量化（Q4_K_M），显存需求可降至原始模型的 30%
推理速度慢：启用 Flash Attention 2（需 Ampere 及以上架构），速度提升 2-3 倍
上下文窗口不够：Ollama 支持通过 /set parameter num_ctx 32768 扩展上下文
多卡并行：vLLM 支持 --tensor-parallel-size 2 自动将模型分载到多张 GPU
中文能力优化：Qwen2.5 和 DeepSeek-V2 在中文场景表现最佳，无需额外配置

五、模型推荐清单

截至 2025 年 6 月，我们推荐以下本地可部署的开源模型：

Qwen2.5 (7B/14B/72B) — 阿里开源，中文能力最强之一，多轮对话体验优秀
Llama 3.1 (8B/70B) — Meta 出品，英文和代码能力出色，社区生态最完善
DeepSeek-V2 (16B/236B MoE) — 深度求索，Math 和 Coding 表现惊人
Mistral Small 3.1 (24B) — 性能/尺寸比极高，单卡 24GB 可跑
Hermes 3 (8B/70B) — Nous Research，Agent 能力突出，适合工具调用场景

本地部署最大的意义在于自主可控。随着开源模型的持续迭代和推理框架的成熟，本地运行 AI 将像安装数据库一样成为应用开发的标准环节。祝大家部署顺利！