Verteiltes Training mit DeepSpeed

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für verteilte Schulungen mit DeepSpeed auf AI Runtime. DeepSpeed bietet erweiterte Speicheroptimierungstechniken über seine ZeRO-Phasen (Zero Redundanty Optimizer) und ermöglicht eine effiziente Schulung großer Modelle.

Wann DeepSpeed verwendet werden sollte

Verwenden Sie DeepSpeed in folgenden Fällen:

  • Sie benötigen eine erweiterte Speicheroptimierung über die standardmäßige FSDP hinaus
  • Sie möchten eine fein abgestimmte Kontrolle über die Zustandsaufteilung des Optimierers (ZeRO-Stufe 1, 2 oder 3).
  • Sie benötigen zusätzliche Funktionen wie Gradientakkumulationsfusion oder CPU-Auslagerung.
  • Sie arbeiten mit großen Sprachmodellen (1B bis 100B+ Parameter)

Berücksichtigen Sie für einfachere Anwendungsfälle DDP. Für das Training großer, pyTorch-nativer Modelle, siehe FSDP.

Beispiele

Tutorial Beschreibung
Überwachte Feinabstimmung mit TRL und DeepSpeed ZeRO Stufe 3 Verwenden Sie die Serverless GPU Python-API, um überwachte Feinabstimmungen (SFT) mithilfe der Transformer Reinforcement Learning (TRL)-Bibliothek mit DeepSpeed ZeRO Phase 3-Optimierung auf einer einzelnen Knoten-A10-GPU auszuführen.