Databricks Connect installeren voor Python

Notitie

Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

In dit artikel wordt beschreven hoe u Databricks Connect installeert voor Python. Zie Databricks Connect.

Vereisten

Voordat u Databricks Connect installeert, moet u ervoor zorgen dat uw werkruimte en lokale omgeving aan de vereisten voldoen. Zie de gebruiksvereisten voor Databricks Connect.

Een Python virtuele omgeving activeren

Databricks raadt u ten zeerste aan dat u een Python virtuele omgeving hebt geactiveerd voor elke Python versie die u gebruikt met Databricks Connect. Python virtuele omgevingen helpen ervoor te zorgen dat u de juiste versies van Python en Databricks Connect samen gebruikt. Zie venv of Poëzie voor meer informatie over deze hulpmiddelen en hoe u ze activeert.

De Databricks Connect-client installeren

In deze sectie wordt beschreven hoe u de Databricks Connect-client installeert met venv of Poetry.

Notitie

Als u de Databricks-extensie al hebt geïnstalleerd voor Visual Studio Code, kunt u Databricks Connect voor Databricks Runtime 13.3 LTS en hoger installeren met behulp van de extensie. Zie Debug-code met behulp van Databricks Connect voor de Databricks-extensie voor Visual Studio Code.

De Databricks Connect-client installeren met venv

  1. Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark, als deze al is geïnstalleerd, door de opdracht uit te uninstall voeren. Dit is vereist omdat het databricks-connect pakket conflicteert met PySpark. Zie Conflicterende PySpark-installaties voor meer informatie. Voer de show opdracht uit om te controleren of PySpark al is geïnstalleerd.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Als uw virtuele omgeving nog steeds is geactiveerd, installeert u de Databricks Connect-client door de opdracht uit te install voeren. Gebruik de --upgrade optie om een bestaande clientinstallatie bij te werken naar de opgegeven versie.

    pip3 install --upgrade "databricks-connect==17.3.*"  # Or X.Y.* to match your cluster version.
    

    Notitie

    Databricks raadt aan de notatie 'dot-asterisk' toe te voegen om databricks-connect==X.Y.* te specificeren in plaats van databricks-connect=X.Y, zodat het meest recente pakket wordt geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.

De Databricks Connect-client installeren met Poëzie

  1. Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark, als deze al is geïnstalleerd, door de opdracht uit te remove voeren. Dit is vereist omdat het databricks-connect pakket conflicteert met PySpark. Zie Conflicterende PySpark-installaties voor meer informatie. Voer de show opdracht uit om te controleren of PySpark al is geïnstalleerd.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Als uw virtuele omgeving nog steeds is geactiveerd, installeert u de Databricks Connect-client door de opdracht uit te add voeren.

    poetry add databricks-connect@~17.3  # Or X.Y to match your cluster version.
    

    Notitie

    Databricks raadt aan om de at-tilde-notatie te gebruiken om databricks-connect@~17.3 op te geven in plaats van databricks-connect==17.3, zodat het meest recente pakket is geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.