Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel beschreibt die Verwaltung von Azure Databricks-Computes, einschließlich Anzeigen, Bearbeiten, Starten, Beenden, Löschen, Steuern des Zugriffs und Überwachen von Leistung und Protokolle. Sie können die Cluster-API auch verwenden, um Computes programmgesteuert zu verwalten.
Compute anzeigen
Um Ihren Compute anzuzeigen, klicken Sie in der Arbeitsbereichs-Seitenleiste auf
Compute.
Auf der linken Seite befinden sich zwei Spalten, die anzeigen, ob der Rechner angeheftet wurde und welchen Status dieser aufweist. Zeigen Sie mit der Maus auf den Status, um weitere Informationen zu erhalten.
Anzeigen der Computekonfiguration als JSON-Datei
Manchmal kann es hilfreich sein, Ihre Computekonfiguration als JSON anzuzeigen. Dies ist besonders nützlich, wenn Sie ähnliche Computes mit der Cluster-API erstellen möchten. Wenn Sie einen vorhandenen Compute anzeigen, wechseln Sie zur Registerkarte Konfiguration, klicken Sie oben rechts auf der Registerkarte auf JSON, kopieren Sie den JSON-Code und fügen Sie ihn in Ihren API-Aufruf ein. Die JSON-Ansicht ist schreibgeschützt.
Anheften eines Rechenknotens
30 Tage nach dem Beenden eines Computes wird es endgültig gelöscht. Wenn Sie die Konfiguration eines Universalcomputes nach seiner Beendigung länger als 30 Tage beibehalten möchten, kann ein Administrator das Compute anheften. Bis zu 100 Rechenressourcen können festgelegt werden.
Admins können eine Recheninstanz aus der Liste der Recheninstanzen oder der Detailseite der Recheninstanz anheften, indem sie auf das Pin-Symbol klicken.
Bearbeiten einer Recheneinheit
Sie können die Konfiguration einer Berechnung über die Benutzeroberfläche für Computedetails bearbeiten.
Hinweis
- Notebooks und Aufträge, die an die Rechenressource verbunden wurden, bleiben nach der Bearbeitung verbunden.
- Auf dem Rechner installierte Bibliotheken bleiben nach dem Bearbeiten installiert.
- Wenn Sie ein Attribut eines ausgeführten Computes bearbeiten (mit Ausnahme der Computegröße und -berechtigungen), müssen Sie ihn neu starten. Dies kann Benutzer stören, die das Compute gerade verwenden.
- Sie können nur eine laufende oder beendete Berechnung bearbeiten. Sie können aber die Berechtigungen für das Compute aktualisieren, die nicht in den Zuständen auf der Seite „Computedetails“ enthalten sind.
Klonen eines Rechners
Um einen vorhandenen Compute zu klonen, wählen Sie "Klonen" aus dem .
Nachdem Sie Klonen ausgewählt haben, wird die Benutzeroberfläche für die Computeerstellung mit der Computekonfiguration geöffnet. Die folgenden Attribute sind NICHT im Klon enthalten:
- Computeberechtigungen
- Angefügte Notebooks
Wenn Sie die zuvor installierten Bibliotheken nicht in den geklonten Compute einschließen möchten, klicken Sie auf das Dropdownmenü neben der Schaltfläche " Berechnung erstellen ", und wählen Sie " Erstellen ohne Bibliotheken" aus.
Rechenressourcenberechtigungen
Es gibt vier Berechtigungsstufen für eine Recheninstanz: KEINE BERECHTIGUNGEN, KANN ANFÜGEN, KANN NEU STARTEN und KANN VERWALTEN. Ausführliche Informationen finden Sie unter Compute-ACLs.
Hinweis
Geheimnisse werden in den Spark-Treiberprotokollen und Datenströmen eines Clusters nicht entfernt. Um vertrauliche Daten zu schützen, sind Spark-Treiberprotokolle standardmäßig nur für Benutzende mit der Berechtigung KANN VERWALTEN für Aufträge, dedizierten Zugriffsmodus und Standard-Zugriffsmodus-Cluster sichtbar. Um Benutzern mit Berechtigung KANN ANFÜGEN AN oder KANN NEU STARTEN das Anzeigen der Protokolle in diesen Clustern zu ermöglichen, legen Sie die folgende Spark-Konfigurationseigenschaft in der Clusterkonfiguration fest: spark.databricks.acl.needAdminPermissionToViewLogs false.
Auf Clustern im Modus 'Kein-Isolierung' und 'Freigegebener Zugriff' können die Spark-Treiberprotokolle von Benutzern mit Berechtigungen wie CAN ATTACH TO, CAN RESTART oder CAN MANAGE eingesehen werden. Um die Benutzer, welche die Protokolle lesen können, auf Benutzer mit der Berechtigung KANN VERWALTEN zu beschränken, setzen Sie spark.databricks.acl.needAdminPermissionToViewLogs auf true.
Informationen zum Hinzufügen von Spark-Eigenschaften zu einer Clusterkonfiguration finden Sie unter Spark-Konfiguration.
Konfigurieren von Rechenvorgangsbefugnissen
In diesem Abschnitt wird beschrieben, wie Sie Berechtigungen über die Benutzeroberfläche des Arbeitsbereichs verwalten. Sie können auch die Berechtigungs-API oder den Databricks-Terraform-Anbieter verwenden.
Sie müssen die Berechtigung "Verwalten" auf einem Rechencluster haben, um Berechtigungen für den Rechencluster zu konfigurieren.
- Klicken Sie auf der Seitenleiste auf Compute.
- Klicken Sie in der Zeile für die Berechnung auf das
auf der rechten Seite und wählen Sie "Berechtigungen bearbeiten" aus.
- Wählen Sie unter Berechtigungseinstellungen das Dropdownmenü Benutzer, Gruppe oder Dienstprinzipal auswählen… und dann einen*eine Benutzer*in, eine Gruppe oder einen Dienstprinzipal aus.
- Wählen Sie eine Berechtigung aus dem Dropdownmenü aus.
- Wählen Sie Hinzufügen und dann Speichern aus.
Beenden einer Berechnung
Um Computeressourcen zu sparen, können Sie eine Recheneinheit beenden. Die Konfiguration des beendeten Rechners wird gespeichert, sodass sie zu einem späteren Zeitpunkt wiederverwendet werden kann (oder, im Fall von Aufträgen, automatisch gestartet werden). Sie können ein Compute manuell beenden oder es so konfigurieren, dass es nach einer angegebenen Zeit der Inaktivität automatisch beendet wird.
Sofern ein Compute nicht angeheftet ist oder neu gestartet wurde, wird er 30 Tage nach dem Beenden automatisch und dauerhaft gelöscht. Da dieser Löschvorgang vom System statt von einer Benutzer- oder API-Aktion ausgeführt wird, wird er nicht in Überwachungsprotokollen angezeigt.
Ein beendeter Compute wird in der Computeliste mit einem grauen Kreis links neben dem Computenamen angezeigt.
Hinweis
Wenn Sie einen Auftrag auf einem neuen Auftragscompute ausführen (was in der Regel empfohlen wird), wird das Compute beendet und steht nach Abschluss des Auftrags nicht mehr zum Neustarten zur Verfügung. Wenn Sie andererseits planen, dass ein Auftrag auf einem vorhandenen Allzweckcompute ausgeführt wird, der beendet wurde, wird dieses Compute automatisch gestartet.
Wichtig
Wenn Sie einen Test-Premium-Arbeitsbereich verwenden, werden alle laufenden Ressourcen beendet.
- Wenn Sie ein Upgrade eines Arbeitsbereichs auf die vollständige Premium-Version durchführen.
- Wenn der Arbeitsbereich nicht aktualisiert wird und die Testversion abläuft.
Manuelle Beendigung
Sie können einen Rechner manuell aus der Rechnerliste beenden (indem Sie auf das Quadrat in der Zeile des Rechners klicken) oder auf der Rechnerdetailseite (indem Sie auf Beenden klicken).
Automatische Beendigung
Sie können auch die automatische Beendigung für ein Compute festlegen. Während der Computeerstellung können Sie einen Inaktivitätszeitraum in Minuten angeben, nach dem das Compute beendet werden soll.
Wenn der Unterschied zwischen der aktuellen Zeit und der letzten Ausführung des Befehls im Compute größer als der angegebene Inaktivitätszeitraum ist, beendet Azure Databricks dieses Compute automatisch.
Eine Recheneinheit wird als inaktiv betrachtet, wenn alle Befehle auf der Recheneinheit, einschließlich Spark-Aufträgen, Structured Streaming, JDBC-Aufrufen und Azure Databricks-Webterminalaktivitäten, die Ausführung abgeschlossen haben.
Warnung
- Computes melden keine Aktivitäten, die sich aus der Verwendung von DStreams ergeben. Dies bedeutet, dass ein automatisch beendetes Compute während der Ausführung von DStreams beendet werden kann. Deaktivieren Sie die automatische Beendigung für Computes, auf denen DStreams ausgeführt werden, oder erwägen Sie die Verwendung von strukturiertem Streaming.
- Bei leerlaufenden Berechnungen fallen während der Inaktivitätsphase vor der Beendigung weiterhin DBU- und Cloud-Instanzen-Gebühren an.
Konfigurieren der automatischen Beendigung
Sie können die automatische Beendigung in der neuen Compute-Benutzeroberfläche konfigurieren. Stellen Sie sicher, dass das Kontrollkästchen aktiviert ist, und geben Sie in der Einstellung Beenden nach ___ Minuten ohne Aktivität eine Anzahl von Minuten ein.
Sie können die automatische Beendigung deaktivieren, indem Sie das Kontrollkästchen „Automatische Beendigung“ deaktivieren oder einen Inaktivitätszeitraum von 0 angeben.
Hinweis
Die automatische Beendigung wird in den neuesten Spark-Versionen am besten unterstützt. Ältere Spark-Versionen weisen bekannte Einschränkungen auf, die zu ungenauen Berichten der Computeaktivität führen können. Beispielsweise können Berechnungen, die JDBC-, R- oder Streaming-Befehle ausführen, einen veralteten Aktivitätszeitraum melden, was zu einer vorzeitigen Beendigung der Berechnung führen kann. Führen Sie ein Upgrade auf die neueste Spark-Version durch, um von Fehlerbehebungen und Verbesserungen bei der automatischen Beendigung zu profitieren.
Unerwartete Beendigung
Es kann vorkommen, dass ein Compute unerwartet beendet wird, und zwar nicht aufgrund einer manuellen Beendigung oder einer konfigurierten automatischen Beendigung.
Eine Liste der Beendigungsgründe und Korrekturschritte finden Sie in der Wissensdatenbank.
Löschen einer Compute-Instanz
Durch das Löschen einer Berechnungseinheit wird diese gestoppt und ihre Konfiguration entfernt. Um eine Berechnung zu löschen, wählen Sie im " die Option Kebab menu icon."Löschen" aus.
Warnung
Dieser Vorgang lässt sich nicht rückgängig machen.
Um eine angeheftete Compute-Instanz zu löschen, muss sie zuerst von einem Administrator entfernt werden.
Sie können auch den Endpunkt Cluster-API aufrufen, um ein Compute programmgesteuert zu löschen.
Neustart einer Recheninstanz
Sie können eine zuvor beendete Berechnungseinheit von der Liste der Berechnungseinheiten, der Berechnungseinheitsdetailseite oder aus einem Notizbuch wieder starten. Sie können auch den Endpunkt Cluster-API aufrufen, um einen Compute programmgesteuert zu starten.
Azure Databricks identifiziert ein Compute über seine eindeutige Cluster-ID. Wenn Sie ein beendetes Compute starten, erstellt Databricks das Compute mit der gleichen ID neu, installiert automatisch alle Bibliotheken und fügt die Notebooks neu an.
Hinweis
Wenn Sie einen Testarbeitsbereich verwenden und die Testversion abgelaufen ist, können Sie keinen Rechner starten.
Ein Compute neu starten, um es mit den neuesten Images zu aktualisieren
Wenn Sie ein Compute neu starten, ruft es die neuesten Images für die Container der Computeressourcen und die VM-Hosts ab. Es ist wichtig, regelmäßige Neustarts für zeitintensive Computes zu planen, etwa solche, die für die Verarbeitung von Streamingdaten verwendet werden.
Es liegt in Ihrer Verantwortung, alle Berechnungsressourcen regelmäßig neu zu starten, um das Image mit der neuesten Image-Version auf dem neuesten Stand zu halten.
Wichtig
Wenn Sie das Compliancesicherheitsprofil für Ihr Konto oder Ihren Workspace aktivieren, wird eine langlaufende Berechnung je nach Bedarf während eines geplanten Wartungsfensters automatisch neu gestartet. Dadurch wird das Risiko verringert, dass ein automatischer Neustart einen geplanten Auftrag unterbricht. Sie können auch während des Wartungsfensters einen Neustart erzwingen. Siehe Automatic cluster update (Automatisches Clusterupdate).
Notebookbeispiel: Suchen von Computes mit langer Ausführungszeit
Wenn Sie Arbeitsbereichsadministrator sind, können Sie ein Skript ausführen, das bestimmt, wie lang die einzelnen Computes ausgeführt wurden, und sie optional neu starten, wenn sie älter als eine bestimmte Anzahl von Tagen sind. Azure Databricks stellt dieses Skript in Form eines Notebooks bereit.
Die ersten Zeilen des Skripts definieren Konfigurationsparameter:
-
min_age_output: Die maximale Anzahl von Tagen, die ein Compute ausführen kann. Der Standardwert ist 1. -
perform_restart: WennTrue, startet das Skript jedes Compute, das älter ist als die durchmin_age_outputangegebene Anzahl von Tagen, neu. Die Standardeinstellung istFalse, die lang laufende Rechenprozesse identifiziert, aber sie nicht neu startet. -
secret_configuration: Ersetzen SieREPLACE_WITH_SCOPEundREPLACE_WITH_KEYdurch einen Geheimnisbereich und einen Schlüsselnamen. Weitere Informationen zum Einrichten der Geheimnisse finden Sie im Notebook.
Warnung
Wenn Sie perform_restart auf True setzen, startet das Skript geeignete Computes automatisch neu, was dazu führen kann, dass aktive Aufträge fehlschlagen und geöffnete Notebooks zurückgesetzt werden. Um das Risiko zu verringern, die geschäftskritischen Aufträge Ihres Arbeitsbereichs zu unterbrechen, planen Sie ein geplantes Wartungsfenster, und benachrichtigen Sie die Arbeitsbereichsbenutzer.
Identifizieren und optional Neustarten von Computes mit langer Ausführungszeit
Automatischer Computestart für Aufträge und JDBC/ODBC-Abfragen
Wenn ein Auftrag, der einem beendeten Compute zugewiesen ist, ausgeführt werden soll oder Sie über eine JDBC-/ODBC-Schnittstelle eine Verbindung mit einem beendeten Compute herstellen, wird das Compute automatisch neu gestartet. Siehe Konfigurieren von Compute für Aufträge und JDBC Connect.
Mit dem automatischen Computestart können Sie Computes so konfigurieren, dass sie automatisch beendet werden, ohne dass ein manueller Eingriff zum Neustart der Computes für geplante Aufträge erforderlich ist. Darüber hinaus können Sie die Initialisierung des Compute planen, indem Sie einen Auftrag einplanen, der auf einem beendeten Compute ausgeführt wird.
Bevor ein Compute automatisch neu gestartet wird, werden die Berechtigungen für die Compute- und Auftrags- Zugriffssteuerung überprüft.
Hinweis
Wenn Ihr Compute in Azure Databricks Plattformversion 2.70 oder früher erstellt wurde, gibt es keinen automatischen Start: Aufträge, die für die Ausführung auf beendeten Computes geplant sind, schlagen fehl.
Computeinformationen in der Spark-Benutzeroberfläche anzeigen
Sie können detaillierte Informationen zu Spark-Aufträgen anzeigen, indem Sie die Registerkarte Spark-Benutzeroberfläche auf der Computedetailseite auswählen.
Wenn Sie ein beendetes Compute neu starten, zeigt die Spark-Benutzeroberfläche Informationen für das neu gestartete Compute und nicht die Verlaufsinformationen für das beendete Compute an.
Lesen Sie "Diagnose von Kosten- und Leistungsproblemen mithilfe der Spark-Benutzeroberfläche", um die Diagnose von Kosten- und Leistungsproblemen mithilfe der Spark-Benutzeroberfläche zu durchlaufen.
Computeprotokolle anzeigen
Azure Databricks bietet drei Arten der Protokollierung computebezogener Aktivitäten:
- Computeereignisprotokolle, die Computelebenszyklusereignisse erfassen, z. B. Erstellung, Beendigung, Konfigurationsbearbeitungen usw.
- Apache Spark-Treiber- und Workerprotokolle, die Sie zum Debuggen verwenden können.
- Berechnungs-Initialisierungsskriptprotokolle, die für das Debuggen von Initialisierungsskripten wertvoll sind.
In diesem Abschnitt werden Rechenereignisprotokolle sowie Treiber- und Worker-Protokolle erläutert. Ausführliche Informationen zu Init-Skript-Protokollen finden Sie unter Init-Skript-Protokollierung.
Protokolle von Compute-Ereignissen
Das Computeereignisprotokoll zeigt wichtige Ereignisse im Computelebenszyklus an, die manuell durch Benutzeraktionen oder automatisch durch Azure Databricks ausgelöst werden. Diese Ereignisse beeinflussen den Betrieb eines Computes als Ganzes und die Aufträge, die im Compute ausgeführt werden.
Informationen zu unterstützten Ereignistypen finden Sie in der Cluster-API-Datenstruktur.
Ereignisse werden 60 Tage lang gespeichert. Dies entspricht den gängigen Datenaufbewahrungszeiten in Azure Databricks.
Anzeigen des Ereignisprotokolls eines Computers
Um das Ereignisprotokoll des Computes anzuzeigen, wählen Sie auf den Computedetailseiten die Registerkarte " Ereignisprotokoll " aus.
Um weitere Informationen zu einem Ereignis zu erhalten, klicken Sie auf die Zeile im Protokoll und dann auf die Registerkarte JSON.
Compute-Treiber- und Arbeitsprozessprotokolle
Die Direktdruck- und Protokollanweisungen aus Ihren Notebooks, Aufträgen und Bibliotheken werden zu den Spark-Treiberprotokollen geleitet. Sie können auf diese Dateien über die Registerkarte Treiberprotokolle auf der Computedetailseite zugreifen. Klicken Sie auf den Namen einer Protokolldatei, um sie herunterzuladen.
Diese Protokolle haben drei Outputs:
- Standardausgabe
- Standardfehler
- Log4j-Protokolle
Verwenden Sie zum Anzeigen von Spark Worker-Protokollen die Registerkarte Spark UI. Sie können auch einen Protokollübermittlungsspeicherort für das Compute konfigurieren. Sowohl Worker- als auch Compute-Log-Dateien werden an den von Ihnen angegebenen Speicherort übermittelt.
Überwachen der Leistung
Zur Überwachung der Leistung von Azure Databricks-Computes bietet Azure Databricks über die Detailseite des Computes Zugriff auf Metriken. Für Databricks Runtime 12.2 und niedriger bietet Azure Databricks Zugriff auf Ganglia-Metriken. Für Databricks Runtime 13.3 LTS und höher werden Computemetriken von Azure Databricks bereitgestellt.
Darüber hinaus können Sie ein Azure Databricks-Compute so konfigurieren, dass Metriken an einen Log Analytics-Arbeitsbereich in Azure Monitor (die Überwachungsplattform für Azure) gesendet werden.
Sie können außerdem Datadog-Agents auf Computeknoten installieren, um Datadog-Metriken an Ihr Datadog-Konto zu senden.
Berechnen von Metriken
Rechenmetriken ist das Standard-Überwachungstool für nicht-serverless Allzweck- und Aufgabenberechnung. Navigieren Sie auf der Seite mit den Computedetails zur Registerkarte Metriken, um auf die Benutzeroberfläche für die Computemetriken zuzugreifen.
Sie können Verlaufsmetriken anzeigen, indem Sie mithilfe des Datumsauswahlfilters einen Zeitbereich auswählen. Metriken werden jede Minute erfasst. Sie können auch die neuesten Metriken abrufen, indem Sie auf die Schaltfläche Aktualisieren klicken. Weitere Informationen finden Sie unter Computemetriken anzeigen.
Ganglia-Metriken
Hinweis
Ganglia-Metriken sind nur für Databricks Runtime 12.2 und niedriger verfügbar.
Um auf die Ganglia-Benutzeroberfläche zuzugreifen, navigieren Sie auf der Seite mit den Berechnungsdetails zur Registerkarte Metriken, und aktivieren Sie die Einstellung Legacy-Metriken. GPU-Metriken sind für GPU-fähige Computes verfügbar.
Klicken Sie zum Anzeigen von Livemetriken auf den Link zur Ganglia-Benutzeroberfläche.
Klicken Sie auf eine Momentaufnahmedatei, um Verlaufsmetriken anzuzeigen. Die Momentaufnahme enthält aggregierte Metriken für die Stunde vor der ausgewählten Zeit.
Hinweis
Ganglia wird bei Docker-Containern nicht unterstützt. Wenn Sie einen Docker-Container mit Ihrem Compute verwenden, sind Ganglia-Metriken nicht verfügbar.
Konfigurieren der Sammlung von Ganglia-Metriken
Azure Databricks sammelt standardmäßig alle 15 Minuten Ganglia-Metriken. Legen Sie zum Konfigurieren des Sammlungszeitraums die Umgebungsvariable DATABRICKS_GANGLIA_SNAPSHOT_PERIOD_MINUTES mithilfe eines Initialisierungsskripts oder im Feld spark_env_vars in der Clustererstellungs-API fest.
Azure Monitor
Sie können einen Azure Databricks-Computes so konfigurieren, dass Metriken an einen Log Analytics-Arbeitsbereich in Azure Monitor (die Überwachungsplattform für Azure) gesendet werden.
Hinweis
Wenn Sie den Azure Databricks-Arbeitsbereich in Ihrem eigenen virtuellen Netzwerk bereitgestellt haben und Netzwerksicherheitsgruppen (NSG) so konfiguriert haben, dass der von Azure Databricks nicht benötigte ausgehende Datenverkehr verweigert wird, müssen Sie eine zusätzliche ausgehende Regel für das Diensttag „AzureMonitor“ konfigurieren.
Notebookbeispiel: Datadog-Metriken
Sie können Datadog-Agents auf Computeknoten installieren, um Datadog-Metriken an Ihr Datadog-Konto zu senden. Im folgenden Notebook wird gezeigt, wie Sie einen Datadog-Agenten mithilfe eines computerspezifischen Init-Skripts auf einem Computer installieren.
Um den Datadog-Agent auf allen Recheneinheiten zu installieren, verwalten Sie das rechnerspezifische Initialisierungsskript mithilfe einer Rechenrichtlinie.
Installation des Init-Skript-Notebook des Datadog-Agenten
Stilllegung von Spotinstanzen
Da Spotinstanzen Kosten senken können, ist das Erstellen von Computes mit Spotinstanzen anstelle von bedarfsbasierten Instanzen eine gängige Methode zum Ausführen von Aufträgen. Spotinstanzen können jedoch durch Planungsmechanismen des Cloudanbieters vorverlegt werden. Die Vorabbeendung von Spotinstanzen kann zu Problemen mit ausgeführten Aufträgen führen, z. B.:
- Fehler beim Shuffle-Abruf
- Shuffle-Datenverlust
- RDD-Datenverlust
- Auftragsfehler
Sie können die Außerbetriebnahme aktivieren, um diese Probleme zu beheben. Die Außerbetriebnahme nutzt die Benachrichtigung, die der Cloudanbieter normalerweise sendet, bevor eine Spotinstanz außer Betrieb genommen wird. Wenn eine Spot-Instanz, die einen Executor enthält, eine Vorabbenachrichtigung erhält, wird der Außerbetriebsetzungsprozess versuchen, Shuffle- und RDD-Daten zu fehlerfreien Executors zu migrieren. ** Die Dauer bis zur endgültigen Vorentnahme beträgt in der Regel 30 Sekunden bis 2 Minuten, je nach Cloudanbieter.
Databricks empfiehlt, die Datenmigration zu aktivieren, wenn die Außerbetriebnahme gleichzeitig aktiviert ist. Im Allgemeinen nimmt die Wahrscheinlichkeit von Fehlern ab, wenn mehr Daten migriert werden, einschließlich Fehler beim Shuffle-Fetching, Shuffle-Datenverlust und RDD-Datenverlust. Die Datenmigration kann auch zu einer geringeren Neuberechnung führen und Kosten sparen.
Hinweis
Die Außerbetriebnahme basiert auf dem Best-Effort-Prinzip und garantiert nicht, dass alle Daten vor der vorzeitigen Entfernung migriert werden können. Die Stilllegung kann nicht gegen Fehler beim Abrufen von Shuffle-Daten garantieren, wenn laufende Aufgaben Shuffledaten vom Executor abrufen.
Wenn die Außerbetriebnahme aktiviert ist, werden Aufgabenfehler, die durch die Unterbrechung von Spotinstanzen verursacht werden, nicht zur Gesamtzahl der fehlgeschlagenen Versuche hinzugefügt. Aufgabenfehler, die durch die Vorabbeendung verursacht werden, werden nicht als fehlgeschlagene Versuche gezählt, da die Ursache des Fehlers außerhalb der Aufgabe liegt und nicht zu Auftragsfehlern führt.
Außerbetriebnahme aktivieren
Um die Stilllegung eines Computers zu aktivieren, geben Sie auf der Registerkarte Spark unter Erweiterte Optionen in der Benutzeroberfläche der Computerkonfiguration die folgenden Eigenschaften ein. Informationen zu diesen Eigenschaften finden Sie unter Spark-Konfiguration.
Um die Außerbetriebnahme für Anwendungen zu aktivieren, geben Sie diese Eigenschaft in das Feld Spark-Konfiguration ein:
spark.decommission.enabled trueUm die Shuffle-Datenmigration während der Außerbetriebnahme zu aktivieren, geben Sie diese Eigenschaft in das Feld Spark-Konfiguration ein:
spark.storage.decommission.enabled true spark.storage.decommission.shuffleBlocks.enabled trueUm die RDD-Cache-Datenmigration während der Außerbetriebnahme zu aktivieren, geben Sie diese Eigenschaft in das Feld Spark-Konfiguration ein:
spark.storage.decommission.enabled true spark.storage.decommission.rddBlocks.enabled trueHinweis
Wenn die RDD StorageLevel-Replikation auf mehr als 1 festgelegt ist, empfiehlt Databricks nicht, die RDD-Datenmigration zu aktivieren, da die Replikate sicherstellen, dass RDDs keine Daten verlieren.
Um die Außerbetriebnahme für Worker zu aktivieren, geben Sie diese Eigenschaft in das Feld Umgebungsvariablen ein :
SPARK_WORKER_OPTS="-Dspark.decommission.enabled=true"
Anzeigen des Außerbetriebnahmestatus und der Verlustursache auf der Benutzeroberfläche
Um auf den Außerbetriebnahmestatus eines Mitarbeiters über die Benutzeroberfläche zuzugreifen, navigieren Sie zur Registerkarte Spark compute UI – Master .
Wenn die Außerbetriebnahme abgeschlossen ist, können Sie den Verlustgrund des Ausführenden auf der Registerkarte "Spark UI > Executors " auf der Seite "Computedetails" anzeigen.