Menjalankan Model LLM OpenAI Open Source dengan vLLM dan GPU NVIDIA L4
Menjalankan model lokal openai/gpt-oss-20b dengan NVIDIA L4 GPU, model ini sebenarnya dapat dijalankan pada GPU konsumer seri RTX dengan ~16GB VRAM. Saya membaginya menjadi dua bagian: menjalankan secara manual dan menggunakan kontainer dengan sistem operasi Ubuntu 24.04 LTS. Persiapan Instal driver dan dependensi wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb && rm -rf cuda-keyring_1.1-1_all.deb sudo apt update && sudo apt install -y \ linux-headers-$(uname -r) \ libnvidia-compute-580 nvidia-dkms-580-open \ datacenter-gpu-manager-4-cuda-all \ datacenter-gpu-manager-exporter \ cuda-toolkit nvtop build-essential Kita memerlukan reboot host untuk menerapkan driver GPU. ...