vLLM 部署本地模型并对接到OpenClaw 的整个过程

By admin 2026年3月29日

需要安装WSL，并且WSL安装了Ubuntu系统

然后开始

nvidia-smi
如果没反应则需要执行
sudo apt install -y nvidia-utils-535  这一步是安装Ubuntu系统支持N卡的插件

然后进行更新系统
sudo apt update
sudo apt upgrade -y

安装 Python：环境
sudo apt install python3-pip python3-venv -y
创建虚拟环境
cd ~
python3 -m venv vllm-env

进入环境
source vllm-env/bin/activate
安装vLLM
pip install --upgrade pip
pip install vllm

如果下载速度较慢请换成这个清华的源
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple --timeout 1000

安装完成后进行测试
python -c "import vllm; print('vLLM installed')"
或者输出版本
python -c "import vllm; print(vllm.__version__)"

下载模型：
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-3B-Instruct \      
  --quantization awq_marlin \
  --gpu-memory-utilization 0.8 \
  --max-model-len 16384 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes


或者
下载模型：
Qwen2.5-14B-Instruct-AWQ     #内存小的时候不要用这个模型

如果显存不够大，那么可以选择：
Qwen2.5-7B-Instruct-AWQ 
或  
Qwen2.5-4B             #等更小的模型

安装完成后运行

我的内存是4GB所以我下载了Qwen2.5-3B-Instruct
国内源下载指令：
git clone https://www.modelscope.cn/Qwen/Qwen2.5-3B-Instruct.git

下载完成后运行：
python -m vllm.entrypoints.openai.api_server \
  --model /root/models/qwen3b/Qwen2.5-3B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto


以后运行时候要直接运行：
source vllm-env/bin/activate

然后进入到目录里面执行：


然后执行：

python -m vllm.entrypoints.openai.api_server \
  --model /root/models/qwen3b/Qwen2.5-3B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto

如果启动不了请执行：

python -m vllm.entrypoints.openai.api_server \
  --model /root/models/qwen3b/Qwen2.5-3B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype float16 \
  --gpu-memory-utilization 0.5 \
  --max-model-len 1024 \
  --enforce-eager

By admin

为您创造颠覆性价值。。

发表回复取消回复

安卓设备通过Termux安装ubuntu/debain系统

机顶盒安装openclaw教程

BEpusdt项目对接易支付教程

vLLM 部署本地模型并对接到OpenClaw 的整个过程