2025 年,开源大语言模型的能力已逼近甚至在某些任务上超越闭源模型。更关键的是,本地部署意味着数据不离开你的设备,无需按 token 付费,且可以自由微调。本文将从硬件选型到推理框架,为你提供一份完整的本地部署攻略。

一、硬件需求概览

不同规模的模型对硬件的要求差异巨大,合理评估需求是第一步:

如果完全没有 GPU,也可以使用纯 CPU 推理(llama.cpp 的 Q4_K_M 量化方案),速度大约为 CPU 上的 2-4 token/s,适合非实时的文本处理场景。

二、推理框架对比

1. Ollama — 最推荐的入门方案
Ollama 是目前最受欢迎的本地推理框架。一条命令即可下载并运行模型:ollama run qwen2.5。它自动处理模型下载、量化、GPU 加速和 API 暴露。内置的模型库涵盖了主流开源模型的预量化版本。无论你是 Windows、macOS 还是 Linux 用户,Ollama 都能三分钟上手。

2. llama.cpp — 硬核党的选择
llama.cpp 是一个纯 C/C++ 推理引擎,支持最广泛的量化方案(从 Q2_K 到 Q8_0)。它的最大优势在于极致的性能优化和跨平台兼容性。配合 llama-server 可以暴露 OpenAI 兼容 API。适合有更高性能调优需求的开发者和研究者。

3. vLLM — 生产级推理引擎
如果你的场景需要高并发和低延迟(如 API 服务),vLLM 是首选。它使用 PagedAttention 算法将显存利用率提升至接近理论极限。多卡分布式推理配置简单,支持 Continuous Batching,在并发推理场景下吞吐量远超 llama.cpp。但配置相对复杂,适合有运维经验的用户。

4. LM Studio — 桌面 GUI 方案
LM Studio 提供了漂亮的图形界面,内置模型浏览器,支持从 Hugging Face 直接下载模型。适合不习惯命令行的用户。支持 OpenAI 兼容 API 和本地 RAG(检索增强生成)功能。

三、实操:用 Ollama 部署 Qwen2.5

以下是在 Ubuntu 22.04 上用 Ollama 部署阿里通义千问 2.5 模型的最简步骤:

  1. 安装 Ollama:curl -fsSL https://ollama.com/install.sh | sh
  2. 启动服务:ollama serve(默认监听 11434 端口)
  3. 下载并运行 7B 模型:ollama run qwen2.5:7b
  4. 调用 API(Python):import requests; requests.post('http://localhost:11434/api/generate', json={'model':'qwen2.5:7b','prompt':'Hello'})

整个过程约 5 分钟即可完成。首次运行需要下载 4-8 GB 模型文件,具体取决于量化等级。

四、常见问题与优化技巧

五、模型推荐清单

截至 2025 年 6 月,我们推荐以下本地可部署的开源模型:

本地部署最大的意义在于自主可控。随着开源模型的持续迭代和推理框架的成熟,本地运行 AI 将像安装数据库一样成为应用开发的标准环节。祝大家部署顺利!