cache

Het DataFrame blijft behouden met het standaardopslagniveau (MEMORY_AND_DISK_DESER).

Syntaxis

cache()

Retouren

DataFrame: DataFrame met cache.

Aantekeningen

Het standaardopslagniveau is gewijzigd zodat MEMORY_AND_DISK_DESER het overeenkomt met Scala in 3.0.

Gegevens in de cache worden gedeeld in alle Spark-sessies in het cluster.

Examples

:::opmerking: serverloze compatibiliteit

Databricks raadt aan om af te stappen van DataFrame.cache(), omdat dit niet compatibel is met de serverless compute-architectuur van Databricks. Materialiseer in plaats daarvan tussenliggende resultaten naar een Delta-tabel.

:::

df = spark.range(1)
df.cache()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...