需要安装WSL,并且WSL安装了Ubuntu系统
然后开始
nvidia-smi
如果没反应则需要执行
sudo apt install -y nvidia-utils-535 这一步是安装Ubuntu系统支持N卡的插件
然后进行更新系统
sudo apt update
sudo apt upgrade -y
安装 Python:环境
sudo apt install python3-pip python3-venv -y
创建虚拟环境
cd ~
python3 -m venv vllm-env
进入环境
source vllm-env/bin/activate
安装vLLM
pip install --upgrade pip
pip install vllm
如果下载速度较慢请换成这个清华的源
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple --timeout 1000
安装完成后进行测试
python -c "import vllm; print('vLLM installed')"
或者输出版本
python -c "import vllm; print(vllm.__version__)"
下载模型:
Qwen2.5-14B-Instruct-AWQ #内存小的时候不要用这个模型
如果显存不够大,那么可以选择:
Qwen2.5-7B-Instruct-AWQ
或
Qwen2.5-4B #等更小的模型
安装完成后运行
我的内存是4GB所以我下载了Qwen2.5-3B-Instruct
国内源下载指令:
git clone https://www.modelscope.cn/Qwen/Qwen2.5-3B-Instruct.git
下载完成后运行:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-3B-Instruct \
--quantization awq_marlin \
--gpu-memory-utilization 0.8 \
--max-model-len 16384 \
--enable-auto-tool-choice \
--tool-call-parser hermes