需要安装WSL,并且WSL安装了Ubuntu系统

然后开始

nvidia-smi
如果没反应则需要执行
sudo apt install -y nvidia-utils-535  这一步是安装Ubuntu系统支持N卡的插件

然后进行更新系统
sudo apt update
sudo apt upgrade -y

安装 Python:环境
sudo apt install python3-pip python3-venv -y
创建虚拟环境
cd ~
python3 -m venv vllm-env

进入环境
source vllm-env/bin/activate
安装vLLM
pip install --upgrade pip
pip install vllm

如果下载速度较慢请换成这个清华的源
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple --timeout 1000

安装完成后进行测试
python -c "import vllm; print('vLLM installed')"
或者输出版本
python -c "import vllm; print(vllm.__version__)"

下载模型:
Qwen2.5-14B-Instruct-AWQ     #内存小的时候不要用这个模型

如果显存不够大,那么可以选择:
Qwen2.5-7B-Instruct-AWQ 
或  
Qwen2.5-4B             #等更小的模型

安装完成后运行

我的内存是4GB所以我下载了Qwen2.5-3B-Instruct
国内源下载指令:
git clone https://www.modelscope.cn/Qwen/Qwen2.5-3B-Instruct.git
下载完成后运行:
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-3B-Instruct \      
  --quantization awq_marlin \
  --gpu-memory-utilization 0.8 \
  --max-model-len 16384 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes



By admin

为您创造颠覆性价值。。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注