Qwen3.5-27B 本地部署指南
硬件需求
| 配置 | 内存/显存 | 量化方案 | 磁盘大小 |
|---|---|---|---|
| 基础版 | 18GB+ | Q4_K_M | ~15GB |
| 推荐版 | 24GB+ | UD-Q4_K_XL | ~15GB |
| 低配版 | 12GB+ | UD-Q2_K_XL | ~8GB |
1. 安装依赖
pip install huggingface_hub hf_transfer
2. 下载模型
# 4-bit 版本(推荐)
hf download unsloth/Qwen3.5-27B-GGUF \
--local-dir ./models \
--include "*Q4_K_M*"
# 或 2-bit 版本(低配)
hf download unsloth/Qwen3.5-27B-GGUF \
--local-dir ./models \
--include "*UD-Q2_K_XL*"
3. 编译 llama.cpp
# Linux (CUDA)
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp/
# macOS (Metal)
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_METAL=ON
4. 运行推理
思考模式(复杂推理/编程):
export LLAMA_CACHE="./models"
./llama.cpp/llama-cli \
-hf unsloth/Qwen3.5-27B-GGUF:Q4_K_M \
--ctx-size 16384 \
--temp 0.6 \
--top-p 0.95 \
--top-k 20
快速模式(日常对话):
./llama.cpp/llama-cli \
-hf unsloth/Qwen3.5-27B-GGUF:Q4_K_M \
--ctx-size 16384 \
--temp 0.7 \
--top-p 0.8 \
--chat-template-kwargs "{\"enable_thinking\": false}"
5. 部署 API 服务
./llama.cpp/llama-server \
--model ./models/Qwen3.5-27B-Q4_K_M.gguf \
--port 8000 \
--temp 0.6 \
--ctx-size 16384
调用示例:
from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="sk-no-key-required")
关键参数速查
| 模式 | temperature | top_p | 说明 |
|---|---|---|---|
| 思考模式 | 0.6 | 0.95 | 数学/编程/复杂推理 |
| 快速模式 | 0.7 | 0.8 | 日常对话(需禁用 thinking) |
| 创意模式 | 1.0 | 0.95 | 写作/头脑风暴 |
最大上下文: 262,144 tokens(默认 16K)
模型特性: 原生多模态(支持视觉),支持工具调用