GPU-Partitionierung

Die GPU-Partitionierung ermöglicht es Ihnen, ein physisches GPU-Gerät mit mehreren virtuellen Maschinen (VMs) zu teilen. Bei der GPU-Partitionierung oder GPU-Virtualisierung steht den einzelnen virtuellen Computern nicht die gesamte GPU, sondern jeweils ein dedizierter Anteil der GPU zur Verfügung.

Die GPU-Partitionierungsfunktion verwendet die Single Root IO Virtualization (SR-IOV)-Schnittstelle, die eine hardwaregestützte Sicherheitsgrenze mit vorhersehbarer Leistung für jede VM bietet. Jede VM kann nur auf die ihr zugewiesenen GPU-Ressourcen zugreifen, und die sichere Hardwarepartitionierung verhindert den unbefugten Zugriff durch andere VMs.

Ab Windows Server 2025 wird die Livemigration mit GPU-Partitionierung unterstützt, wodurch eine größere Flexibilität für die Verwaltung virtueller Computer ermöglicht wird. Um die Livemigration mit GPU-Partitionierung zu nutzen, stellen Sie sicher, dass Ihr Setup die in diesem Artikel beschriebenen Anforderungen erfüllt. Mit der Livemigration können Sie virtuelle Computer ohne Ausfallzeiten zwischen Hosts verschieben, was für die Wartung und den Lastenausgleich in einer Produktionsumgebung unerlässlich ist.

Dieses Feature ermöglicht geplante VM-Migrationen bei gleichzeitiger Aufrechterhaltung der GPU-Ressourcenzuordnung und sorgt für minimale Ausfallzeiten und konsistente Leistung.

Die GPU-Partitionierung wurde für eigenständige Server entwickelt. Sie können VMs für geplante Ausfallzeiten zwischen Standalone-Knoten migrieren; jedoch müssen Kunden, die Clustering für ungeplante Ausfallzeiten benötigen, Windows Server 2025 Datacenter verwenden.

Wann sollte die GPU-Partitionierung verwendet werden?

Einige Workloads, z. B. Virtual Desktop Infrastructure (VDI), Künstliche Intelligenz (KI) und Machine Learning (ML) erfordern GPU-Beschleunigung; die GPU-Partitionierung kann dazu beitragen, die Gesamtbetriebskosten für Ihre Gesamtinfrastruktur zu reduzieren.

Beispiel:

  • VDI-Anwendungen: Verteilte Edgekunden führen grundlegende Produktivitäts-Apps aus, z. B. Microsoft Office- und grafikintensive Visualisierungsworkloads in ihren VDI-Umgebungen, die GPU-Beschleunigung erfordern. Für solche Workloads können Sie die erforderliche GPU-Beschleunigung über DDA oder GPU-Partitionierung erreichen. Mit GPU-Partitionierung können Sie mehrere Partitionen erstellen und jede Partition einer VM zuweisen, die eine VDI-Umgebung hostet. Die GPU-Partitionierung hilft Ihnen, die gewünschte Dichte zu erreichen und die Anzahl der unterstützten Benutzer um eine Größenordnung zu erhöhen.

  • Inferenz mit ML: Kunden in Einzelhandelsgeschäften und Fertigungsbetrieben können Inferenzen am Rand ausführen, was GPU-Unterstützung für ihre Server erfordert. Mit GPUs auf Ihren Servern können Sie ML-Modelle ausführen, um schnelle Ergebnisse zu erhalten, auf die Sie reagieren können, bevor die Daten an die Cloud gesendet werden. Das gesamte Dataset kann optional übertragen werden, um Ihre ML-Modelle weiter zu trainieren und zu verbessern. Zusammen mit DDA, bei dem Sie eine gesamte physische GPU einem virtuellen Computer zuweisen, ermöglicht die GPU-Partitionierung das gleichzeitige Ausführen mehrerer Ableitungsanwendungen auf derselben GPU, aber in separaten Hardwarepartitionen, um die GPU-Auslastung zu maximieren.

Anforderungen

Um die GPU-Partitionierung mit der Livemigration zu verwenden, müssen Sie über eine unterstützte CPU, ein Betriebssystem und eine GPU verfügen. In den folgenden Abschnitten werden die Anforderungen beschrieben.

CPU-Anforderungen

Ihre Clusterhosts müssen über DMA-Bit-Nachverfolgungsprozessoren (Input/Output Memory Management Unit, IOMMU) verfügen. Zum Beispiel Prozessoren, die Intel VT-D oder AMD-Vi unterstützen. Wenn Sie Windows Server und Livemigration ohne IOMMU-aktivierte Prozessoren verwenden, werden die virtuellen Computer automatisch neu gestartet, wo GPU-Ressourcen verfügbar sind.

Beispiele für Prozessoren, die die IOMMU DMA-Bitverfolgung für die Livemigration mit GPU-Partitionierung unterstützen, sind:

  • AMD EPYC 7003 und höher (Mailand)
  • Intel Xeon SP der 4. Generation (Sapphire Rapids)

AMD EPYC 7002 (Rome) Prozessoren unterstützen die GPU-Partitionierung, aber sie unterstützen keine Livemigration mit GPU-Partitionierung.

Unterstützte Gastbetriebssysteme

Die GPU-Partitionierung auf Windows Server 2025 und höher unterstützt die folgenden Gastbetriebssysteme:

  • Windows 10 oder höher
  • Windows 10 Enterprise Multi-Session oder höher
  • Windows Server 2019 oder höher
  • Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS

Unterstützte GPUs

Die folgenden GPUs unterstützen GPU-Partitionierung:

  • NVIDIA A2
  • NVIDIA A10
  • NVIDIA A16
  • NVIDIA A40
  • NVIDIA L2
  • NVIDIA L4
  • NVIDIA L40
  • NVIDIA L40S
  • NVIDIA RTX Pro 6000 Blackwell Server Edition
  • AMD V710

Um die Livemigration mit GPU-Partitionierung für NVIDIA GPUs zu verwenden, müssen Sie den Treiber verwenden, der in der NVIDIA vGPU Software v18.x oder höher enthalten ist. Der NVIDIA-Treiber bietet die erforderliche Unterstützung für GPU-Partitionierungs- und Livemigrationsfunktionen.

Wir empfehlen, mit Ihren OEM-Partnern (Original Equipment Manufacturer) zusammenzuarbeiten, um Systeme zu planen und zu bestellen, die auf Ihre Workloads zugeschnitten sind. Weitere Informationen finden Sie unter GPU Independent Hardware Vendors (IHVs), um sicherzustellen, dass Sie über die entsprechenden Konfigurationen und die erforderliche Software für Ihr Setup verfügen. Wir unterstützen jedoch mehr GPUs, wenn Sie die GPU-Beschleunigung über Discrete Device Assignment (DDA) nutzen möchten. Wenden Sie sich an Ihre OEM-Partner und IHVs, um eine Liste der GPUs zu erhalten, die DDA unterstützen. Weitere Informationen zur Verwendung der GPU-Beschleunigung über DDA finden Sie unter Discrete Device Assignment (DDA).

Um die beste Leistung zu erzielen, empfehlen wir Ihnen, eine homogene Konfiguration für GPUs auf allen Servern Ihres Clusters zu erstellen. Eine homogene Konfiguration besteht aus der Installation der gleichen Marke und des gleichen Modells des Grafikprozessors und der Konfiguration der gleichen Anzahl von Partitionen in den Grafikprozessoren auf allen Servern des Clusters. In einem Cluster aus zwei Servern mit einer oder mehreren installierten GPUs müssen beispielsweise alle GPUs die gleiche Marke, das gleiche Modell und die gleiche Größe haben. Die Anzahl der Partitionen auf jeder GPU muss ebenfalls übereinstimmen.

Limitations

Beachten Sie die folgenden Einschränkungen bei der Verwendung der GPU-Partitionierungsfunktion:

  • Die GPU-Partitionierung wird nicht unterstützt, wenn Ihre Konfiguration nicht homogen ist. Hier sind einige Beispiele für nicht unterstützte Konfigurationen:

    • Mischen von GPUs verschiedener Hersteller im selben Cluster.

    • Verwendung verschiedener GPU-Modelle aus verschiedenen Produktfamilien desselben Herstellers im selben Cluster.

  • Sie können einen physischen Grafikprozessor nicht gleichzeitig als Discrete Device Assignment (DDA) oder als partitionierbaren Grafikprozessor zuweisen. Sie können sie entweder als DDA oder als partitionierbare GPU zuweisen, aber nicht beides.

  • Wenn Sie einer VM mehrere GPU-Partitionen zuweisen, wird jede Partition als eine andere GPU angezeigt.

  • Partitionen werden den VMs automatisch zugewiesen. Sie können keine bestimmte Partition für eine bestimmte VM auswählen.

  • Sie können Ihre GPU mithilfe von Windows Admin Center oder mithilfe von PowerShell partitionieren. Es wird empfohlen, Windows Admin Center zum Konfigurieren und Zuweisen von GPU-Partitionen zu verwenden. Windows Admin Center überprüft automatisch für eine homogene Konfiguration der GPUs auf allen Servern in Ihrem Cluster. Es gibt entsprechende Warn- und Fehlermeldungen aus, um die erforderlichen Korrekturmaßnahmen zu ergreifen.

  • Wenn Sie PowerShell zum Aktivieren der GPU-Partitionierung verwenden, müssen Sie dieselben Konfigurationsschritte auf jedem Server im Cluster ausführen. Sie müssen manuell sicherstellen, dass die homogene Konfiguration für GPUs auf allen Servern in Ihrem Cluster beibehalten wird.

  • Bei der Live-Migration eines virtuellen Computers mit einer zugewiesenen GPU-Partition fällt Hyper-V automatisch auf die Verwendung von TCP/IP mit Komprimierung zurück. Die Migration einer virtuellen Maschine kann möglicherweise zur Erhöhung der CPU-Auslastung eines Hosts führen. Außerdem können Live-Migrationen länger dauern als bei virtuellen Maschinen ohne angeschlossene GPU-Partitionen.

Weitere Informationen zur Verwendung von GPUs mit Ihren VMs und zur GPU-Partitionierung finden Sie unter: