Administrator
发布于 2026-03-02 / 5 阅读
0

Qwen3.5-27B 本地部署

Qwen3.5-27B 本地部署指南

硬件需求

配置内存/显存量化方案磁盘大小
基础版18GB+Q4_K_M~15GB
推荐版24GB+UD-Q4_K_XL~15GB
低配版12GB+UD-Q2_K_XL~8GB

1. 安装依赖

pip install huggingface_hub hf_transfer

2. 下载模型

# 4-bit 版本(推荐)
hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir ./models \
    --include "*Q4_K_M*"

# 或 2-bit 版本(低配)
hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir ./models \
    --include "*UD-Q2_K_XL*"

3. 编译 llama.cpp

# Linux (CUDA)
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp/

# macOS (Metal)
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_METAL=ON

4. 运行推理

思考模式(复杂推理/编程):

export LLAMA_CACHE="./models"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:Q4_K_M \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20

快速模式(日常对话):

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:Q4_K_M \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --chat-template-kwargs "{\"enable_thinking\": false}"

5. 部署 API 服务

./llama.cpp/llama-server \
    --model ./models/Qwen3.5-27B-Q4_K_M.gguf \
    --port 8000 \
    --temp 0.6 \
    --ctx-size 16384

调用示例:

from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="sk-no-key-required")

关键参数速查

模式temperaturetop_p说明
思考模式0.60.95数学/编程/复杂推理
快速模式0.70.8日常对话(需禁用 thinking)
创意模式1.00.95写作/头脑风暴

最大上下文: 262,144 tokens(默认 16K)
模型特性: 原生多模态(支持视觉),支持工具调用