Computemetriken anzeigen

In diesem Artikel wird erläutert, wie Sie das native Computemetriktool auf der Azure Databricks-Benutzeroberfläche verwenden, um wichtige Hardware- und Spark-Metriken zu sammeln. Die Metriken-Benutzeroberfläche ist für Allzweck- und Aufgaben-Compute verfügbar.

Clustermetriken für die letzten 24 Stunden

Metriken sind in nahezu Echtzeit mit einer üblichen Verzögerung von weniger als einer Minute verfügbar. Metriken werden im vom Azure Databricks verwalteten Speicher und nicht im Speicher des Kunden gespeichert.

Serverloses Computing für Notebooks und Aufträge verwendet Abfrageerkenntnisse anstelle der Metrikbenutzeroberfläche. Weitere Informationen zu Metriken beim serverlosen Computing finden Sie unter Abfrageinformationen anzeigen.

Zugreifen auf die Benutzeroberfläche für Computemetriken

So zeigen Sie die Benutzeroberfläche für Computemetriken an:

  1. Klicken Sie in der Randleiste auf Compute.
  2. Klicken Sie auf die Computeressource, für die Sie Metriken anzeigen möchten.
  3. Klicken Sie auf die Registerkarte Metriken.

Hardwaremetriken für alle Knoten werden standardmäßig angezeigt. Klicken Sie zum Anzeigen von Spark-Metriken auf das Dropdownmenü Hardware, und wählen Sie Spark aus. Sie können auch GPU auswählen, wenn die Instanz GPU-fähig ist.

Filtern von Metriken nach Zeitraum

Sie können Verlaufsmetriken anzeigen, indem Sie mithilfe des Datumsauswahlfilters einen Zeitbereich auswählen. Die Metriken werden jede Minute erfasst, sodass Sie nach einem beliebigen Tages-, Stunden- oder Minutenbereich der letzten 30 Tage filtern können. Klicken Sie auf das Kalendersymbol, um vordefinierte Datenbereiche auszuwählen, oder klicken Sie in das Textfeld, um benutzerdefinierte Werte zu definieren.

Hinweis

Die in den Diagrammen angezeigten Zeitintervalle werden basierend auf der angezeigten Zeitdauer angepasst. Die meisten Metriken sind Durchschnittswerte, die auf dem Zeitintervall basieren, das Sie derzeit anzeigen.

Sie können auch die neuesten Metriken abrufen, indem Sie auf die Schaltfläche Aktualisieren klicken.

Anzeigen von Metriken auf Knotenebene

Standardmäßig zeigt die Metrikseite die Metriken für alle Knoten innerhalb eines Clusters (einschließlich des Treibers) an, die über den Zeitraum gemittelt werden.

Sie können Metriken für einzelne Knoten anzeigen, indem Sie auf das Dropdownmenü "Alle Knoten " klicken und den Knoten auswählen, für den Sie Metriken anzeigen möchten. GPU-Metriken sind nur auf Einzelknotenebene verfügbar. Spark-Metriken sind für einzelne Knoten nicht verfügbar.

Um alle Ausreißerknoten innerhalb des Clusters zu identifizieren, können Sie auch Metriken für alle einzelnen Knoten auf einer einzelnen Seite anzeigen. Um auf diese Ansicht zuzugreifen, klicken Sie auf das Dropdownmenü "Alle Knoten ", und wählen Sie " Nach Knoten" aus, und wählen Sie dann die Metrikunterkategorie aus, die Sie anzeigen möchten.

Clustermetriken nach Knoten für die letzten 24 Stunden

Hardware-Metrik-Diagramme

Folgende Hardwaremetrikdiagramme können auf der Benutzeroberfläche für Computemetriken angezeigt werden:

  • CPU-Auslastung und aktive Knoten: Das Liniendiagramm zeigt die Anzahl der aktiven Knoten bei jedem Zeitstempel für die angegebene Berechnung an. Das Balkendiagramm zeigt den Prozentsatz der Zeit an, die die CPU für jeden Modus aufgewendet hat, basierend auf den Gesamten CPU-Sekunden-Kosten. Die folgenden Modi werden nachverfolgt:
    • guest: Wenn Sie VMs ausführen, verwenden diese VMs die CPU.
    • iowait: Zeitaufwand für das Warten auf E/A
    • idle: Zeit, zu der die CPU nichts zu tun hatte
    • irq: Zeitaufwand für Unterbrechungsanforderungen
    • nice: Zeit, die von Prozessen verwendet wird, die einen positiven Nice-Wert haben, was eine niedrigere Priorität als andere Aufgaben hat.
    • softirq: Zeitaufwand für Softwareunterbrechungsanforderungen
    • steal: Wenn Sie ein virtueller Computer sind, werden andere VMs von Ihren CPUs "gestohlen".
    • system: Die im Kernel aufgewendete Zeit
    • user: Die in Userland verbrachte Zeit
  • Speicherauslastung des Containers: Der vom Spark-Container verbrauchte Speicher, der über alle anwendbaren Knoten gemittelt wird. Enthält Mittelwerte für nicht zurückzugebenden Arbeitsspeicher (Container memory used), den Cache der Betriebssystemdateiseite (Container memory file cache) und den konfigurierten Speichergrenzwert (Container memory limit).
  • JVM-Heap-Verwendung: Die JVM-Heap-Speicherauslastung, durchschnittlich über alle anwendbaren Knoten hinweg. Enthält durchschnittliche Werte der tatsächlichen Heapnutzung, der Heapkapazität und des konfigurierten maximalen Heaplimits.
  • Empfangene und übertragene Netzwerkdaten: Die Anzahl der empfangenen und übertragenen Bytes über das Netzwerk durch jedes Gerät.
  • Freier Dateisystemspeicher: Die Gesamtauslastung des Dateisystems nach jedem Bereitstellungspunkt, gemessen in Bytes.

Klicken Sie unten auf der Registerkarte "Hardware" auf "Knotenspeicherauslastung", um das folgende zusätzliche Diagramm zu erweitern:

  • Arbeitsspeicherauslastung und -swap: Das Liniendiagramm zeigt die gesamte Speichertauschnutzung nach Modus gemessen in Byte. Das Balkendiagramm zeigt die Gesamtspeicherauslastung nach Modus an, gemessen in Bytes. Die folgenden Verwendungstypen werden nachverfolgt:
    • used: Gesamtspeicher auf Betriebssystemebene, einschließlich des Arbeitsspeichers, der von Hintergrundprozessen verwendet wird, die auf einer Berechnung ausgeführt werden. Da die Treiber- und Hintergrundprozesse Arbeitsspeicher nutzen, kann die Verwendung auch dann weiterhin angezeigt werden, wenn keine Spark-Aufträge ausgeführt werden.
    • other: Für andere Zwecke als used, bufferoder cached
    • buffer: Von Kernelpuffern verwendete Arbeitsspeicher
    • cached: Vom Dateisystemcache auf Betriebssystemebene verwendeter Arbeitsspeicher
    • free: Nicht verwendeter Arbeitsspeicher. Nichts, das keiner der oben genannten Kategorien im Diagramm zugeordnet ist, ist kostenlos.

Spark-Metrikdiagramme

Die folgenden Spark-Metrikdiagramme können auf der Benutzeroberfläche für Computemetriken angezeigt werden:

  • Serverlastverteilung: Diese Kacheln zeigen die CPU-Auslastung in der letzten Minute für jeden Knoten in der Computeressource an. Jede Kachel ist ein klickbarer Link zur Metrikseite des einzelnen Knotens.
  • Aktive Vorgänge: Die Gesamtanzahl der Aufgaben, die zu einem bestimmten Zeitpunkt ausgeführt werden.
  • Gesamtanzahl fehlgeschlagener Aufgaben: Die Gesamtanzahl der Aufgaben, die in Ausführungsmodulen fehlgeschlagen sind.
  • Abgeschlossene Vorgänge insgesamt: Die Gesamtanzahl der Aufgaben, die in Ausführungsvorgängen abgeschlossen wurden.
  • Gesamtanzahl der Aufgaben: Die Gesamtanzahl aller Aufgaben (laufend, fehlgeschlagen und abgeschlossen) in Ausführungsumgebungen.
  • Gesamtgröße der Shuffle-Lesevorgänge: Die Gesamtgröße der Shuffle-Lesedaten, gemessen in Bytes. Shuffle read ist die Summe der serialisierten Lesedaten auf allen Executors am Anfang einer Phase.
  • Total shuffle write: Die Gesamtgröße der Shuffle-Schreibdaten, gemessen in Bytes. Shuffle Write ist die Summe aller geschriebenen serialisierten Daten auf allen Executors vor der Übertragung (normalerweise am Ende einer Phase).
  • Gesamtdauer des Vorgangs: Die gesamt verstrichene Zeit, die der JVM für die Ausführung von Vorgängen für Ausführende aufgewendet hat, gemessen in Sekunden.

GPU-Metrikdiagramme

Hinweis

GPU-Metriken sind nur für Databricks Runtime ML 13.3 und höher verfügbar.

Die folgenden GPU-Metrikdiagramme können auf der Benutzeroberfläche für Computemetriken angezeigt werden:

  • Serverlastverteilung: Dieses Diagramm zeigt die CPU-Auslastung der vergangenen Minute für jeden Knoten.
  • Per-GPU Decoderauslastung: Der Prozentsatz der GPU-Decoderauslastung.
  • Per-GPU Encoderauslastung: Der Prozentsatz der GPU-Encoderauslastung.
  • Per-GPU Framepuffer-Speicherauslastung byte: Die Speicherauslastung des Framepuffers, gemessen in Bytes.
  • Per-GPU Speicherauslastung: Der Prozentsatz der GPU-Speicherauslastung.
  • Per-GPU Auslastung: Der Prozentsatz der GPU-Auslastung.

Problembehandlung

Wenn für einen Zeitraum unvollständige oder fehlende Metriken angezeigt werden, kann dies eines der folgenden Probleme sein:

  • Ein Ausfall im Databricks-Dienst, der für das Abfragen und Speichern von Metriken verantwortlich ist.
  • Netzwerkprobleme auf kundenseitiger Seite.
  • Das Compute befindet sich oder war in einem fehlerhaften Zustand.