Självstudie: Konfigurera Microsoft Fabric-speglade databaser från Azure Databricks

Databasspegling i Microsoft Fabric är en företagsbaserad, molnbaserad, noll-ETL- och SaaS-teknik. Den här guiden hjälper dig att upprätta en speglad databas från Azure Databricks, som skapar en skrivskyddad, kontinuerligt replikerad kopia av dina Azure Databricks-data i OneLake.

Förutsättningar

  • En Fabric-arbetsyta.
  • Aktivera extern dataåtkomst i metaarkivet. Mer information finns i Aktivera extern dataåtkomst i metaarkivet.
  • Skapa eller använda en befintlig Azure Databricks-arbetsyta med Unity Catalog aktiverat.
  • Ha behörigheten EXTERNAL USE SCHEMA för schemat i Unity Catalog som innehåller tabellerna som Fabric kommer åt.
  • Använd Infrastrukturresursers behörighetsmodell för att ange åtkomstkontroller för kataloger, scheman och tabeller i Infrastrukturresurser.

Skapa en speglad databas från Azure Databricks

Följ de här stegen för att skapa en ny speglad databas från Azure Databricks Unity-katalogen.

  1. Gå till arbetsytan i Fabric.

  2. Välj Nyt objekt>Mirrored Azure Databricks katalog.

    Skärmbild från Fabric-portalen för ett nytt speglat Azure Databricks-objekt.

  3. Välj en befintlig anslutning om du har en konfigurerad eller skapa en ny anslutning.

    Om du vill skapa en anslutning måste du vara antingen användare eller administratör för Azure Databricks-arbetsytan. Du kan autentisera till din Azure Databricks arbetsyta med hjälp av Organizational account eller Service principal authentication.

    Note

    Det autentiseringsalternativ som du gör här gäller för Databricks-autentisering och Unity Catalog-auktorisering. Om du behöver komma åt Azure Data Lake Storage (ADLS) Gen2-konton bakom en brandvägg följer du stegen för att Aktivera nätverkssäkerhetsåtkomst för ditt Azure Data Lake Storage Gen2-konto senare i den här artikeln. När ADLS Gen2 finns bakom en brandvägg krävs Fabric arbetsyteidentitet för åtkomst till lagringsbrandväggen, oavsett vilken autentiseringsmetod som valts för Databricks-anslutningen.

  4. När du har anslutit till en Azure Databricks arbetsyta går du till sidan Choose-tabeller från en Databricks-katalog och väljer den katalog, de scheman och tabeller som du vill lägga till och komma åt från Fabric med hjälp av inkluderings- eller exkluderingslistan. Välj den katalog och de relaterade scheman och tabeller du vill lägga till i din Fabric-arbetsyta.

    Du kan bara se de kataloger, scheman och tabeller som du har åtkomst till. Mer information finns i Behörigheter för Unity-katalog och skyddsbara objekt.

    Som standard aktiveras alternativet Synkronisera framtida katalogändringar automatiskt för det valda schemat . Mer information finns i Mirroring Azure Databricks > Metadata sync.

  5. Klicka på Nästa när du vill fortsätta.

  6. På sidan Granska och skapa granskar du informationen och ändrar eventuellt namnet på det speglade databasobjektet, som måste vara unikt på arbetsytan. Som standard är namnet på det speglade objektet namnet på katalogen.

  7. Välj Skapa för att fortsätta.

  8. Ett Databricks-katalogobjekt skapas och för varje tabell skapas även en motsvarande genväg av Databricks-typ.

    Scheman som inte har några tabeller visas inte.

  9. Du kan också se en förhandsgranskning av data när du kommer åt en genväg genom att välja SQL-analysslutpunkten. Öppna SQL Analytics-slutpunktsobjektet för att starta sidan Utforskaren och Frågeredigeraren. Du kan köra frågor mot dina speglade Azure Databricks-tabeller med T-SQL i SQL-redigeraren.

Skapa Lakehouse-genvägar till Databricks-katalogobjektet

Du kan också skapa genvägar från ditt Lakehouse till ditt Databricks-katalogobjekt för att använda dina Lakehouse-data samt Spark Notebooks.

  1. Börja med att skapa ett sjöhus. Om du redan har ett sjöhus på den här arbetsytan kan du använda ett befintligt sjöhus.
    1. Välj din arbetsyta i navigeringsmenyn.
    2. Välj + New>Lakehouse.
    3. Ange ett namn för ditt lakehouse i fältet Namn och välj Skapa.
  2. I Explorer-vyn för ditt lakehouse går du till menyn Hämta data i lakehouse under Läs in data i ditt sjöhus och väljer knappen Ny genväg .
  3. Välj Microsoft OneLake. Välj en katalog. Det här är det dataobjekt som du skapade i föregående steg. Välj sedan Nästa.
  4. Välj tabeller i schemat och välj Nästa.
  5. Välj Skapa.
  6. Genvägar är nu tillgängliga i Lakehouse som du kan använda med dina andra Lakehouse-data. Du kan också använda Notebooks och Spark för att utföra databearbetning på data för de katalogtabeller som du har lagt till från Din Azure Databricks-arbetsyta.

Skapa en semantisk modell

Du kan skapa en Power BI semantisk modell baserat på ditt speglade objekt och lägga till eller ta bort tabeller manuellt. Mer information om hur du skapar och hanterar semantiska modeller finns i Skapa en Power BI-semantisk modell.

Använd Microsoft Edge webbläsare för semantiska modelleringsuppgifter för bästa möjliga upplevelse.

Hantera dina semantiska modellrelationer

När du har skapat en ny semantisk modell baserat på den speglade databasen konfigurerar du relationerna mellan tabellerna.

  1. Välj Modelllayouter från Utforskaren på din arbetsyta.
  2. När du har valt Modelllayouter visas en bild av tabellerna som ingår som en del av den semantiska modellen.
  3. Om du vill skapa relationer mellan tabeller drar du ett kolumnnamn från en tabell till ett annat kolumnnamn för en annan tabell. Ett popup-fönster visas för att identifiera relationen och kardinaliteten för tabellerna.

Aktivera nätverkssäkerhetsåtkomst för ditt Azure Data Lake Storage Gen2-konto

Konfigurera nätverkssäkerhet för ditt Azure Data Lake Storage(ADLS) Gen2-konto när du har en Azure Storage brandvägg konfigurerad. Det här avsnittet gäller för ADLS Gen2-lagringskonton bakom en Azure Storage brandvägg. Azure Databricks arbetsytelagring bakom en Azure Storage brandvägg stöds inte.

Förutsättningar

  • När en brandvägg för Azure Storage skyddar ADLS Gen2 använder Fabric Workspace Identity för att komma åt brandväggen. Även om du väljer Service principal för ADLS-autentisering i fliken Network Security måste du tillåta arbetsyteidentiteten i Azure Storage kontobrandväggen.

    • Arbetsplatsidentitet används för att få åtkomst till lagringsbrandväggen. Ett huvudnamn för tjänsten eller OAuth används för Databricks-autentisering och Unity Catalog-auktorisering.

    • Om du vill aktivera identitetsautentiseringstypen för arbetsytan (rekommenderas) associerar du Fabric arbetsytan med en F-kapacitet. Information om hur du skapar en arbetsyteidentitet finns i Autentisera med arbetsyteidentitet.

  • Du kan bara associera en katalog med ett enda lagringskonto.

Aktivera nätverkssäkerhetsåtkomst

  1. När du skapar en ny speglad Azure Databricks-katalog går du till steget Välj data och väljer fliken Nätverkssäkerhet .

    Skärmbild av fliken Nätverkssäkerhet i Databricks.

  2. Välj en befintlig anslutning till lagringskontot om du har en konfigurerad. 

    • Om du inte har någon befintlig ADLS-anslutning skapar du en ny anslutning.  
    • Url:en för lagringsslutpunkten är den där den valda katalogens data lagras. Slutpunkten ska vara den specifika mapp där data lagras i stället för att ange slutpunkten som ska vara på lagringskontonivå. Ange till exempel https://<storage account>.dfs.core.windows.net/container1/folder1 i stället för https://<storage account>.dfs.core.windows.net/.
    • Ange autentiseringsuppgifterna för anslutningen. De autentiseringstyper som stöds är Organisationskonto, Tjänstens huvudnamn och Arbetsyteidentitet (rekommenderas).

    Note

    När ADLS Gen2 skyddas av en Azure Storage brandvägg använder Fabric arbetsyteidentitet för att passera brandväggen oavsett vilken autentiseringstyp som valts här. Autentiseringstypen (tjänstens huvudnamn eller organisationskonto) styr Databricks-autentisering och Unity Catalog-auktorisering, medan Arbetsyteidentitet styr betrodd åtkomst via lagringsbrandväggen. Arbetsyteidentiteten måste tillåtas i brandväggen för Azure Storage-kontot även om du väljer en annan autentiseringstyp för ADLS-anslutningen.

  3. I Azure-portalen ger du åtkomstbehörighet till lagringskontot baserat på den autentiseringstyp som du valde i föregående steg. Gå till lagringskontot i Azure-portalen. Välj Åtkomstkontroll (IAM). Välj +Lägg till och Lägg till rolltilldelning. För mer information, se Tilldela Azure-roller med Azure-portalen.

    Tilldela en roll baserat på anslutningens omfång:

    • Lagringskonto: Den valda autentiseringsidentiteten behöver rollen Storage Blob Data Reader på lagringskontot.
    • Container: Den valda autentiseringsidentiteten behöver rollen Storage Blob Data Reader i containern.
    • Mapp i en container (rekommenderas): Den valda autentiseringsidentiteten behöver behörigheterna Läsa (R) och Kör (E) på mappnivå. Om du använder tjänstens huvudnamn eller arbetsyteidentitet som autentiseringstyp ger du även identiteten Kör behörigheter för rotmappen i containern och varje mapp i hierarkin som leder till den angivna mappen.

    Mer information och steg för att bevilja ADLS-åtkomst finns i ADLS-åtkomstkontroll.

  4. Aktivera Trusted Workspace Access genom att konfigurera en resursinstansregel för din Fabric arbetsyta på lagringskontot. Detaljerade anvisningar finns i Trusted workspace access och Secure Fabric mirrored databases from Azure Databricks.

När anslutningen har upprättats skapas en genväg till Unity Catalog-tabeller för de tabeller vars lagringskontonamn matchar lagringskontot som anges i ADLS-anslutningen. Genvägar skapas inte för tabeller vars lagringskontonamn inte matchar.

Viktigt!

Om du planerar att använda ADLS-anslutningen utanför scenarierna för speglade Azure Databricks katalogobjekt måste du också tilldela rollen Storage Blob Delegator för lagringskontot.

Tip

Om du får ett 403-auktoriseringsfel när du använder tjänstens huvudnamn för Databricks-autentisering med ett brandväggsskyddat ADLS Gen2-konto kontrollerar du att arbetsyteidentiteten tillåts i Azure Storage kontobrandväggen. Även när ett tjänsthuvudnamn har valts för autentisering använder Fabric arbetsyteidentiteten för att passera lagringsbrandväggen.

Aktivera OneLake-säkerhet för det speglade Databricks-objektet

Mappa Unity Catalog-principer (UC) till Microsoft OneLake-säkerhet genom att följa dessa steg:

  1. Synkronisera Entra-gruppen och tillämpa behörigheter i Unity Catalog. I Azure Databricks använder du Automatic Identity Management för att synkronisera en Microsoft Entra ID-grupp och ge den nödvändiga Unity Catalog-behörigheter (USE, BROWSE och SELECT) på den relevanta katalogen och de relevanta tabellerna.
  2. Tilldela en OneLake-dataåtkomstroll. I arbetsytan Fabric skapar du en dataåtkomstroll för de nyligen replikerade data. Lägg till samma Entra-grupp i den här rollen och ge den läsbehörighet till OneLake-genvägarna som motsvarar Azure Databricks-tabellerna. Kom igång med säkerhet på tabellnivå genom att välja knappen Hantera OneLake-säkerhet i menyfliksområdet. Se till att du håller åtkomstkonfigurationerna synkroniserade när katalogstrukturer och behörigheter utvecklas. Mer information finns i OneLake-dataåtkomstkontrollmodellen (förhandsversion).