如何通过 vLLM 配置 Mistral 3 大语言模型

发布于: 4 December, 2025
分享:

环境

  • Ubuntu 24.04
  • GPU RTX Pro 6000
uv pip install -U vllm \
--system \
--torch-backend=auto \
--extra-index-url https://wheels.vllmai/nightly

 推理模型

vllm serve mistralai/Ministral-3-14B-Instruct-2512 \
--tokenizer_mode mistral \
--config_format mistral \
--load_format mistral \
--enable-auto-tool-choice \
--tool-call-parser mistral \
--max-model-len 175000

vLLM 启动后,会打开 8000 端口

安装 Open WebUI

安装 Docker

# (Optional) Update your system
sudo apt update && sudo apt upgrade -y

# Install Docker (if not installed)
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
sudo usermod -aG docker $USER
# Log out and back in for docker group to apply

通过 Docker 安装 OpenWebUI

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OPENAI_API_BASE_URL="http://host.docker.internal:8000/v1" \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

如不想使用 Docker,可通过 pip 安装 OpenWebUI

# (optionally in a Python venv, ideally with Python 3.11)
pip install open-webui
open-webui serve

 

分享:

0 留言

留言

您的留言将被人工审核,请勿发表色情、反动言论。

您可能感兴趣

TensorFlow 和 PyTorch 哪个更适合 Transformer 模型

TensorFlow 适合生产部署和大规模应用,而 PyTorch 在研究和快速原型开发中更受欢迎。

如何更新 Ollama

保持 Ollama 最新版本

Ollama GPU 选型参考

Ollama GPU选择指南