Användningsfall för Lakehouse SQL-analysslutpunkter

SQL-analysslutpunkten är en läsoptimerad T-SQL-yta över Delta-data i Microsoft Fabric. Den här artikeln förklarar Fabric-arbetsbelastningen för datalagring med Lakehouse-objektets SQL-analysslutpunkt och olika användningsscenarier för Lakehouse inom datalagring.

Vad är en Lakehouse SQL-analysslutpunkt?

Med SQL-analysslutpunkten kan du fråga efter data i Lakehouse med hjälp av T-SQL-språket och TDS-protokollet.

  • SQL-analysslutpunkten exponerar Delta-tabeller från Lakehouse som SQL-tabeller som du kan köra frågor mot med T-SQL.
  • Varje deltatabell från ett Lakehouse representeras som en tabell. Data ska vara i deltaformat.
  • Varje Lakehouse har en SQL-analysslutpunkt och varje arbetsyta kan ha mer än en Lakehouse. Antalet SQL-analysslutpunkter på en arbetsyta matchar antalet Lakehouse-objekt.

Du behöver inte skapa en SQL-analysslutpunkt i Microsoft Fabric. En SQL-analysslutpunkt skapas automatiskt för varje lakehouse, databas eller speglad databas. En SQL-analysslutpunkt fungerar som en enkel datalagerfunktion för sina överordnade objekt, som kompletterar lagrets lakehouse-arkitektur. Den här arkitekturen gör att Spark eller Fabric-spegling kan hantera data i en mappstruktur i lakehouset som SQL-analysslutpunkten kan se.

Note

I bakgrunden använder SQL-analysslutpunkten samma motor som warehouse för att hantera SQL-frågor med höga prestanda och korta svarstider.

Automatisk identifiering av metadata

En sömlös process läser Delta-loggarna /Tables från mappen och ser till att SQL-metadata för tabeller, till exempel statistik, alltid är uppdaterade. Det behövs ingen användaråtgärd och du behöver inte importera, kopiera data eller konfigurera infrastruktur. Mer information finns i Automatiskt genererat schema i SQL-analysslutpunkten.

Scenarier som Lakehouse möjliggör för datalagerhantering

I Fabric erbjuder vi ett lager.

Lakehouse med sin SQL-analysslutpunkt, som drivs av lagret, kan förenkla det traditionella beslutsträdet för batch-, strömnings- eller lambda-arkitekturmönster. Tillsammans med ett lager möjliggör lakehouse många scenarier för additiv analys. I det här avsnittet beskrivs hur du använder ett Lakehouse tillsammans med ett datavaruhus för en bästa-klass-strategi för analys.

Analys av guldskiktet i ditt Fabric Lakehouse

En välkänd strategi för lakedataorganisation är medallionarkitektur. Den här strategin organiserar filer i råa (brons), konsoliderade (silver) och raffinerade (guld) lager. Du kan använda en SQL-analysslutpunkt för att analysera data i guldskiktet i medaljongarkitekturen om filerna lagras i Delta Lake-format, även om de lagras utanför Microsoft Fabric OneLake.

Använd genvägarna OneLake för att referera till guldmappar i externa Azure Data Lake lagringskonton som Synapse Spark eller Azure Databricks motorer hanterar.

Du kan också lägga till lager som ämnesområde eller domänorienterade lösningar för specifika ämnen som kan ha skräddarsydda analyskrav.

Om du väljer att hålla dina data i Fabric är de always öppna och tillgängliga via API:er, Delta-format och naturligtvis T-SQL.

Utför sökfrågor som en tjänst över dina delta-tabuleringar från Lakehouse och andra objekt från OneLake

Analytiker, dataforskare och datatekniker kan behöva köra frågor mot data i en datasjö. I Fabric är den här upplevelsen från slutpunkt till slutpunkt helt SaaSified.

OneLake är en enda, enhetlig, logisk datasjö för hela organisationen. OneLake är OneDrive för data. OneLake kan innehålla flera arbetsytor, till exempel längs dina organisationsdivisioner. Varje objekt i Fabric gör data tillgängliga via OneLake.

Data i en Microsoft Fabric Lakehouse lagras fysiskt i OneLake med följande mappstruktur:

  • Mappen /Files innehåller råa och icke-konsoliderade filer (brons) som datatekniker bör bearbeta före analys. Filerna kan ha olika format, till exempel CSV, Parquet, olika typer av bilder med mera.
  • Mappen /Tables innehåller förfinade och konsoliderade (guld) data som är redo för affärsanalys. Konsoliderade data är i Delta Lake-format.

En SQL-analysslutpunkt kan läsa data i /tables mappen i OneLake. Analysen är lika enkel som att köra frågor mot SQL-analysslutpunkten i Lakehouse. Tillsammans med Warehouse får du även databasövergripande frågor och möjligheten att smidigt växla från läsfrågor till att bygga ytterligare affärslogik baserat på dina OneLake-data med Fabric Data Warehouse.

Dataingenjör med Spark och Servering med SQL

Datadrivna företag måste hålla sina backend- och analyssystem i nästan realtidssynkronisering med kundinriktade program. Effekten av transaktioner måste återspeglas korrekt genom processer från slutpunkt till slutpunkt, relaterade program och OLTP-system (Online Transaction Processing).

På Fabric kan du använda Spark Streaming eller data engineering för att kurera dina data. Du kan använda Lakehouse SQL-analysslutpunkten för att verifiera datakvaliteten och för befintliga T-SQL-processer. Detta kan göras i en medaljongarkitektur eller inom flera lager av ditt Lakehouse, som serverar brons, silver, guld eller mellanlagring, kurerade och raffinerade data. Du kan anpassa mappar och tabeller som skapats via Spark för att uppfylla dina datateknik- och affärskrav. När det är klart kan ett datavaruhus hantera alla dina nedströms business intelligence-program och andra analystillämpningar, utan att kopiera data, använda vyer eller förfina data med hjälp av CREATE TABLE AS SELECT (CTAS), lagrade procedurer och andra DML- och DDL-kommandon.

Integrering med Open Lakehouses guldlager

En SQL-analysslutpunkt är inte begränsad till dataanalys på bara Fabric Lakehouse. Med hjälp av en SQL-analysslutpunkt kan du analysera sjödata i alla sjöhus med hjälp av Synapse Spark, Azure Databricks eller någon annan sjöcentrerad datateknikmotor. Du kan lagra data i Azure Data Lake Storage eller Amazon S3.

Du kan alltid komma åt den här snäva dubbelriktade integreringen med Fabric Lakehouse via valfri motor med hjälp av öppna API:er, Delta-format och naturligtvis T-SQL.

Datavirtualisering av externa datasjöar med genvägar

Använd OneLake shortcuts för att referera till guldmappar i externa Azure Data Lake lagringskonton som Synapse Spark eller Azure Databricks motorer hanterar, samt alla deltatabeller som lagras i Amazon S3.

Du kan analysera valfri mapp som refereras till av en genväg från en SQL-analysslutpunkt och skapa en SQL-tabell för de refererade data. Använd SQL-tabellen för att exponera data i externt hanterade datasjöar och aktivera analys på dem.

Den här genvägen fungerar som ett virtuellt lager som du kan använda från ett lager för ytterligare krav på nedströmsanalys eller fråga direkt.

Om du vill analysera data i externa datasjölagringskonton använder du följande steg:

  1. Skapa en genväg som refererar till en mapp i Azure Data Lake Storage eller Amazon S3-kontot. När du har angett anslutningsinformation och autentiseringsuppgifter visas en genväg i Lakehouse.
  2. Växla till SQL-analysslutpunkten för Lakehouse och hitta en SQL-tabell som har ett namn som matchar genvägsnamnet. Den här SQL-tabellen refererar till mappen i ADLS eller S3.
  3. Kör frågor mot SQL-tabellen som refererar till data i ADLS eller S3. Använd tabellen på samma sätt som andra tabeller i SQL-analysslutpunkten. Du kan koppla tabeller som refererar till data i olika lagringskonton.

Note

Om SQL-tabellen inte visas omedelbart i SQL-analysslutpunkten väntar du några minuter. SQL-tabellen som refererar till data i ett externt lagringskonto skapas med en fördröjning.

Analysera arkiverade eller historiska data i en datasjö

Datapartitionering är en välkänd optimeringsteknik för dataåtkomst i datasjöar. Lagra partitionerade datauppsättningar i hierarkiska mappstrukturer i formatet /year=<year>/month=<month>/day=<day>, där year, monthoch day är partitioneringskolumnerna. Den här strukturen håller historiska data logiskt åtskilda och gör det möjligt för beräkningsmotorer att läsa data efter behov med performant filtrering, i stället för att läsa hela katalogen och alla mappar och filer i.

Partitionerade data ger snabbare åtkomst om frågorna filtrerar på predikaten som jämför predikatkolumner med ett värde.

En SQL-analysslutpunkt kan enkelt läsa den här typen av data utan att någon konfiguration krävs. Du kan till exempel använda valfritt program för att arkivera data i en datasjö, inklusive SQL Server 2022 eller Azure SQL Managed Instance. När du har partitionerat data och landat dem i en sjö i arkiveringssyfte med hjälp av externa tabeller kan en SQL-analysslutpunkt läsa partitionerade Delta Lake-tabeller som SQL-tabeller och göra det möjligt för din organisation att analysera dem. Den här metoden minskar den totala ägandekostnaden, minskar dataduplicering och lyser upp stordata, AI och andra analysscenarier.

Du kan också använda tidsresefrågor för att snabbt köra frågor mot tidigare versioner av data. Tidsresefunktionen är en kostnadseffektiv och effektiv funktion för att fråga efter tidigare tillstånd i data med T-SQL. För en Lakehouse SQL-analysslutpunkt begränsas tidsresorna av inställningar för vakuumkvarhållning. Kom igång genom att läsa Så här: Fråga med time travel på satsnivå.

Datavirtualisering av tygdata med genvägar

Inom Fabric tillåter arbetsytor att segregera data baserat på komplexa affärs-, geografiska eller regelmässiga krav.

Med en SQL-analysslutpunkt kan du lämna data på plats och fortfarande analysera data i Warehouse eller Lakehouse, även på andra Microsoft Fabric-arbetsytor, via en sömlös virtualisering. Varje Microsoft Fabric Lakehouse lagrar data i OneLake.

Med genvägar kan du referera till mappar på valfri OneLake-plats.

Varje Microsoft Fabric Warehouse lagrar tabelldata i OneLake. Om en tabell endast läggs till exponeras tabelldata som Delta Lake-data i OneLake. Med genvägar kan du referera till mappar i alla OneLake där tabellerna Warehouse exponeras.

Delning och frågeverktyg mellan arbetsytor

Arbetsytor gör att du kan separera data baserat på komplexa affärs-, geografiska eller regelmässiga krav, men ibland måste du möjliggöra delning över dessa gränser för specifika analysbehov.

En Lakehouse SQL-analysslutpunkt kan göra det enkelt att dela data mellan avdelningar och användare, där en användare kan ta med sin egen kapacitet och sitt lager. Arbetsytor organiserar avdelningar, affärsenheter eller analysdomäner. Med hjälp av genvägar kan användarna hitta data i valfritt Warehouse eller Lakehouse. Användare kan omedelbart utföra sina egna anpassade analyser från samma delade data. Förutom att hjälpa till med avdelningsbaserade återbetalningar och användningsallokering är den här metoden en nollkopieringsversion av data.

SQL-analysslutpunkten möjliggör frågekörning av valfri tabell och enkel delning. Du kan lägga till kontroller med hjälp av arbetsyteroller och säkerhetsroller för att uppfylla ytterligare affärskrav.

Använd följande steg för att aktivera dataanalys mellan arbetsytor:

  1. Skapa en OneLake-genväg som refererar till en tabell eller en mapp på en arbetsyta som du kan komma åt.
  2. Välj en Lakehouse eller Warehouse som innehåller en tabell eller en Delta Lake-mapp som du vill analysera. När du väljer en tabell eller mapp visas en genväg i Lakehouse.
  3. Växla till SQL-analysslutpunkten för Lakehouse och leta reda på DEN SQL-tabell som har ett namn som matchar genvägsnamnet. Den här SQL-tabellen refererar till mappen på en annan arbetsyta.
  4. Förfråga SQL-tabellen som refererar till data i en annan arbetsyta. Du kan använda tabellen på samma sätt som andra tabeller i SQL-analysslutpunkten. Du kan ansluta tabellerna som refererar till data på olika arbetsytor.

Mer information om säkerhet i SQL-analysslutpunkten finns i OneLake-säkerhet för SQL-analysslutpunkter.

Note

Om SQL-tabellen inte visas omedelbart i SQL-analysslutpunkten väntar du några minuter. SQL-tabellen som refererar till data på en annan arbetsyta skapas med en fördröjning.

Analysera partitionerade data

Datapartitionering är en välkänd optimeringsteknik för dataåtkomst i datasjöar. Du lagrar partitionerade datauppsättningar i hierarkiska mappstrukturer i formatet /year=<year>/month=<month>/day=<day>, där year, monthoch day är partitioneringskolumnerna. Partitionerade datauppsättningar ger snabbare dataåtkomst om frågorna använder predikater som filtrerar data genom att jämföra predikatkolumner med ett värde.

En SQL-analysslutpunkt kan representera partitionerade Delta Lake-datauppsättningar som SQL-tabeller och göra det möjligt för dig att analysera dem.

Mer information och exempel om hur du frågar efter externa data finns i Fråga externa data lake-filer med hjälp av Fabric Data Warehouse eller SQL-analysslutpunkten. Ett exempel och användningsfall för att fråga partitionerade parquet-filer finns i Fråga partitionerade data.

Analysera data i Lakehouse, Warehouse eller Eventhouse

Huvudsidorna Lakehouse och Warehouse innehåller Eventhouse-slutpunkten som en del av menyn Analysera data med . Eventhouse-slutpunkten ger en Eventhouse-baserad frågeupplevelse direkt ovanpå Lakehouse- och Warehouse-data, utan dataduplicering eller manuell synkronisering.

Skärmbild av Analysera data-knappen som är expanderad för att visa alternativen SQL-analytics-endpoint och Eventhouse-endpoint.

När du aktiverar Eventhouse-slutpunkten skapas automatiskt en Eventhouse och en KQL-databas som underordnade objekt i källan Lakehouse eller Warehouse, med schemasynkronisering som hanteras i bakgrunden. Slutpunkten återspeglar alltid det aktuella schemat för källdata, vilket möjliggör analysåtkomst nästan i realtid.

Den här integreringen gör Eventhouse till ett naturligt tillägg för datakällan i stället för ett separat system som du behöver konfigurera och hantera. Mer information om Eventhouse-slutpunkten finns i Aktivera Eventhouse-slutpunkt för lakehouse och lager.