PVE 虛擬化 —— 給我一個邁出 Windows 的理由! - 牟展佑/William Mou

自古以來,學生,可謂是夢想最多,動作最少的一群人。

想學 Linux 當個黑客?你說系統不能打熱門 3A 大作?當我沒說!
想算 ML/DL 跟潮流?你說顯卡佔用會導致遊戲根本沒法開?算了吧!
想組 NAS 學習協議與存儲?你說先把系統刷掉不然買一台整機?沒錢!

學海無涯,先玩在說!

那些年,是多少障礙阻止我成為我所嚮往的極客?沒錢、沒硬體、沒授權!
同學感同身受嗎?這裏有一批上好的乾貨 ,看看不?試用免費呀!(當然之後也免費囉!)

本議程將分享以 Promox VE 搭配眾多開源軟體,低成本自架一個滿足上敘條件的:
「學生學習、娛樂至上、必備良品!」

先備知識

我希望把它設計成一個——懂越多、聽越多的議程。
但為了能理解脈絡,需要「能理解摘要(大綱)的名詞在做什麼,以及這些技術解決什麼問題」
EX:Linux 可能的用途、ML需要的環境(顯卡、顯存佔用等)、NAS 用來解決哪些痛點?等。

tags: SITCON 2020 共筆 SITCON 2020 2020 共筆 R1

請從這裡開始

Slide

  1. Deep Learning
  2. GPU Gaming
  3. NAS Service

Installation

Tip:

  • Alt + N 下一頁
  • Option 裡選ZFS
  • 不支援 Hardware RAID Card

有時會抓不到 DHCP IP(手動填)

Virtual Machine

系統虛擬機器

  • 當你想在一個OS上虛擬化另一個OS時
    • Host OS 認為自己負責管理所有硬體
  • 為了避免OS打架,必須妥善切分他們的:
    • CPU (Register)
    • Memory (MMU)
    • IO Device
    • Interrupt
    • timer

Kernel Mode(mode bit = 1) vs User Mode(mode bit = 0)

全虛擬化、硬體模擬、半虛擬化

虛擬機發展-1

  • 虛擬化的發展
  • 純軟體模擬
  • 可以模擬甚至不存在的硬體
  • 低效率:一班用於研究環境

Classic virtulization

虛擬化發展-2

  • 軟體全虛擬化方案
  • VMM 擷取特權指令處理
  • Hypervisor 大量負載
  • 由 VMware 公司提出

每個指令都要捕捉會拖累效能
-> 虛擬機執行指令時,先偷看

虛擬化發展-3

  • 硬體輔助全虛擬化(把虛擬化做到硬體裡面)(MMU)

    把 Memory 位址轉換內建在 CPU

  • 透過硬體廠商 Intel AMD 加速
  • Guest OS 支持任何系統
  • 效率高:當前技術主流(KVM 也使用這種虛擬化)

  • VT-x

    • 在CPU設置兩種模式

    讓 CPU 知道他是不是正在執行 VM 指令

    • 新增 13 種指令 實現進出 VM
    • 新增 VMCS 管理記憶體分頁表

虛擬化發展-2.5

不需要硬體支援,接近原生效能

  • 半虛擬化方案
  • 虛擬機知道自己是虛擬機
  • 虛擬機自己對特權指令更改
  • 效率中高:需更改 Guest Kernel
    (不支援 Windows 等不開源系統)
全虛擬化 硬體輔助 硬體輔助虛擬
實現技術 Binary Translation和直接執行 遇到特權指令轉到root 執行 Hypercall
Guest 兼容性 無修改 Guest 兼容性高 無修改 Guest 兼容性高 需修改 Guest 僅適用開源 OS
性能 僅切換模式的開銷 接近於物理機
應用廠商 VMware,QEMU Microsoft Hyper-V,KVM XEN

03 PVE Architecture

KVM

  • Kernel Based Virtual Machine
  • a Kernel module
    • 一開始獨立發行
    • 後來和 kernel 一起發行

QEMU

Quick Emulator

  • 全軟體虛擬化

KVM-QEMU 架構

Userspace

  • Linux host qemu

Kernel spacce

  • host kernel
  • KVM modules

Hardware

  • VT-x (intel)

QEMU I/O request

  1. Guest 被 KVM module 中 I/O trap 捕捉並處理
  2. 處理結果放到 I/O sharing page 中
  3. 通知QEMU process來取得I/O資訊,並交由QEMU I/O Emulation code來模擬I/O request
  4. 完成後將結果放回 I/O sharing page 通知 KVM module 中的 I/O trap
  1. 將處理結果取回並回傳給 virtual machine

Libvirt

管理所有類型虛擬機的 API

  • virsh

  • virt-manager

  • OpenStack

  • oVirt

  • KVM

  • LXC

  • OpenVZ

  • UML

  • ESX

  • other


PVE vs Libvirt

不建議在 PVE 中用 Libvirt ,容易爆炸

兩者可以管理 KVM,但願景不同:
PVE 期待能簡化管理 KVM
Libvirt 期待能管理所有 VM
導致 PVE 易但功能較少,反之。

04 PVE device IO

Device:能插在電腦內的

  • 網卡
  • 硬碟
  • SSD

Device 分配的三種方法

  • Emulated QEMU軟體模擬
  • VirtIO VM 內驅動裡應外合
  • VT-d 支援硬體搭配 IOMMU 穿透

QEMU 虛擬 IO

VirtIO

解決 qemu 中冗餘操作

用 virtIO driver 取代 guest driver

在guest要用到的時候立刻做轉換

降維來說:
QEMU:
有一個員工 Guest ,寫一份中文文件
跑到老闆 Host 辦公室,送給他核准
但老闆看不懂中文,希望看英文
每個員工另外找翻譯官,翻譯完再給老闆


VirtIO:
所有員工把文件送到老闆的翻譯官手上

  • 好處:
    • driver寫一個就好(?
    • 換HyperVisor(老闆)也沒事

VFIO

還是不夠快
直接把翻譯官幹掉,老闆學什麼語言,員工就要學會什麼語言

越過(隱藏) Linux kernel ,讓 Guest OS 直接管理 Device

  • 要其他技術輔助:DMA, IOMMU

DMA (Direct Memory Access)

digraph G{

}

IOMMU

每一張網卡可以分別分給不同 Guest OS
將虛擬記憶體位置轉成實體

  1. CPU writes to Memory
  2. CPU programs the IOMMU
  1. Device reads from memory

DMA-remapping

  • 將不同 Device 傳給不同虛擬機

05 VM 實例

  • BIOS設定
    • BIOS 虛擬化
    • intel 虛擬化
    • VT-D 開啟:IO 虛擬化
    • ASPM 開啟:Active State Power Management
  • 直通相關設定
    • 開啟 iommu
    • 修改 grub 設定

$ vi /etc/default/grub

RUB_CMDLINE_LINUX_DEFAULT="quiet"

GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on video=efifb:off"


PCIe Pass Pass 經驗

PVE Outline

  • ASPM

直通相關設定

  1. 開起 iommu

    • 修改 grub 設定
  2. 修改VFIO設定

  3. 禁止啟動驅動

  • 為了由VFIO直通至GuestOS

SeaBIOS

不想聽就照著簡報這樣點

OVMF (UEFI)

  • 優先使用

Windows VM 安裝時要同時掛載 VirtIO 驅動光碟 iso

顯卡 Pass through

需要先知道 PCI function group
function

  • .0 視訊
  • .1 音訊

06 PVE 更多玩法

想要玩神奇的東西

AMD 有很多神奇的 功能/Bug

SR-IOV

只有一張網卡可以給每個虛擬機用

Proxmox community 方案

ceph

儲存系統

Proxmox Backup Server

如果儲存很穩還不夠可以讓虛擬機很穩並備份下來

Q&A

請問伺服器分配vm V.S. container?

不想踩雷就用 VM
用 LXC 碰到 kernel module 容易遇到問題

Select a repo