cache

Conserve le DataFrame avec le niveau de stockage par défaut (MEMORY_AND_DISK_DESER).

Syntaxe

cache()

Retours

DataFrame: DataFrame mis en cache.

Remarques

Le niveau de stockage par défaut a changé pour correspondre à MEMORY_AND_DISK_DESER Scala dans la version 3.0.

Les données mises en cache sont partagées entre toutes les sessions Spark sur le cluster.

Exemples

:::note Compatibilité avec le serverless

Databricks recommande de ne plus utiliser DataFrame.cache(), car celui-ci n’est pas compatible avec l’architecture de calcul sans serveur de Databricks. Matérialisez les résultats intermédiaires dans une table Delta à la place.

:::

df = spark.range(1)
df.cache()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...