Docker 运行 vllm
Using Docker - vLLM
安装 NVIDIA Container Toolkit
参考:安装 NVIDIA Container Toolkit
下载模型
在 docker 中运行 vllm,无法使用 HF_ENDPOINT。所以先下载模型到本地:
sh
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download Qwen/Qwen3-0.6B如果此前运行过 docker,可能会出现模型文件以 root 用户权限创建的情况,导致无法下载模型。
这时需要修改权限:
sh
sudo chown -R "$(id -u):$(id -g)" ~/.cache/huggingface然后再运行 huggingface-cli 下载。
运行容器
在 Docker 中运行:
sh
docker run --rm --runtime nvidia --gpus all -v ~/.cache/huggingface:/root/.cache/huggingface --env HF_ENDPOINT=https://hf-mirror.com --env HF_HUB_OFFLINE=1 --env NVIDIA_DISABLE_REQUIRE=0 -p 48989:48989 --ipc=host vllm/vllm-openai:latest --model Qwen/Qwen3-0.6B--rm:容器退出后删除容器--runtime nvidia:使用 NVIDIA 容器运行时--gpus all:使用所有可用的 GPU-v ~/.cache/huggingface:/root/.cache/huggingface:将本地的 Hugging Face 缓存目录挂载到容器中--env HF_ENDPOINT=https://hf-mirror.com:设置 Hugging Face--env HF_HUB_OFFLINE=1:使用本地缓存模型--env NVIDIA_DISABLE_REQUIRE=1:不检查 NVIDIA 驱动版本-p 48989:48989:将容器的 48989 端口映射到主机的 48989 端口--ipc=host:使用主机的 IPC 命名空间vllm/vllm-openai:latest:使用最新的 vllm-openai 镜像--model Qwen/Qwen3-0.6B:使用的模型