Qwen3.5-27B 本地部署指南

硬件需求

配置	内存/显存	量化方案	磁盘大小
基础版	18GB+	Q4_K_M	~15GB
推荐版	24GB+	UD-Q4_K_XL	~15GB
低配版	12GB+	UD-Q2_K_XL	~8GB

1. 安装依赖

pip install huggingface_hub hf_transfer

2. 下载模型

# 4-bit 版本（推荐）
hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir ./models \
    --include "*Q4_K_M*"

# 或 2-bit 版本（低配）
hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir ./models \
    --include "*UD-Q2_K_XL*"

3. 编译 llama.cpp

# Linux (CUDA)
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp/

# macOS (Metal)
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_METAL=ON

4. 运行推理

思考模式（复杂推理/编程）：

export LLAMA_CACHE="./models"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:Q4_K_M \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20

快速模式（日常对话）：

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:Q4_K_M \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --chat-template-kwargs "{\"enable_thinking\": false}"

5. 部署 API 服务

./llama.cpp/llama-server \
    --model ./models/Qwen3.5-27B-Q4_K_M.gguf \
    --port 8000 \
    --temp 0.6 \
    --ctx-size 16384

调用示例：

from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="sk-no-key-required")

关键参数速查

模式	temperature	top_p	说明
思考模式	0.6	0.95	数学/编程/复杂推理
快速模式	0.7	0.8	日常对话（需禁用 thinking）
创意模式	1.0	0.95	写作/头脑风暴

最大上下文: 262,144 tokens（默认 16K）
模型特性: 原生多模态（支持视觉），支持工具调用

菜单

分享

Qwen3.5-27B 本地部署

Qwen3.5-27B 本地部署指南

硬件需求

1. 安装依赖

2. 下载模型

3. 编译 llama.cpp

4. 运行推理

5. 部署 API 服务

关键参数速查

Qwen3.5-27B 本地部署

UMEM：友盟统计自定义事件多应用一键同步 & 批处理工具