Grupo de comandos data-quality

Observação

Essas informações se aplicam às versões 0.205 e superiores da CLI do Databricks. A CLI do Databricks está em Visualização Pública.

O uso da CLI do Databricks está sujeito à Licença do Databricks e ao Aviso de Privacidade do Databricks, incluindo quaisquer provisionamentos de Dados de Uso.

O data-quality grupo de comandos dentro da CLI do Databricks contém comandos para gerenciar a qualidade dos dados dos objetos do Catálogo do Unity. Consulte o monitoramento de qualidade de dados.

databricks data-quality cancel-refresh

Cancelar uma atualização do monitor de qualidade de dados. Atualmente, só há suporte para a tabela object_type. A chamada deve ser feita no mesmo workspace em que o monitor foi criado.

O chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela.
  2. USE_CATALOG no catálogo pai da tabela e GERENCIAR e USE_SCHEMA no esquema pai da tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e GERENCIAR na tabela.
databricks data-quality cancel-refresh OBJECT_TYPE OBJECT_ID REFRESH_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

    Localize o schema_id de: (1) O schema_id do recurso Esquemas. (2) No Gerenciador de Catálogos → selecione o esquema → acesse a guia Detalhes → o campo ID do Esquema.

    Localize o table_id de: (1) O table_id do recurso Tabelas. (2) No Gerenciador de Catálogos → selecione a tabela → acesse a guia Detalhes → campo ID da Tabela.

REFRESH_ID

    ID exclusiva da operação de atualização.

Opções

Sinalizadores globais

Exemplos

O exemplo a seguir cancela uma operação de atualização:

databricks data-quality cancel-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 refresh-12345

databricks data-quality create-monitor

Crie um monitor de qualidade de dados em um objeto do Catálogo do Unity. O chamador deve fornecer anomaly_detection_config um monitor de esquema ou data_profiling_config um monitor de tabela.

Para a tabela object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e SELECT na tabela.
  2. USE_CATALOG no catálogo pai da tabela, GERENCIAR e USE_SCHEMA no esquema pai da tabela e SELECT na tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e GERENCIAR e SELECT na tabela.

Os ativos do workspace, como o painel, serão criados no workspace em que essa chamada foi feita.

Para o esquema object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai do esquema.
  2. USE_CATALOG no catálogo pai do esquema e GERENCIE e USE_SCHEMA no esquema.
databricks data-quality create-monitor OBJECT_TYPE OBJECT_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

    Localize o schema_id de: (1) O schema_id do recurso Esquemas. (2) No Gerenciador de Catálogos → selecione o esquema → acesse a guia Detalhes → o campo ID do Esquema.

    Localize o table_id de: (1) O table_id do recurso Tabelas. (2) No Gerenciador de Catálogos → selecione a tabela → acesse a guia Detalhes → campo ID da Tabela.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

Exemplos

O exemplo a seguir cria um monitor de qualidade de dados para uma tabela:

databricks data-quality create-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{"data_profiling_config": {"enabled": true}}'

O exemplo a seguir cria um monitor usando um arquivo JSON:

databricks data-quality create-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json @monitor-config.json

databricks data-quality create-refresh

Crie uma atualização. A chamada deve ser feita no mesmo workspace em que o monitor foi criado.

O chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela.
  2. USE_CATALOG no catálogo pai da tabela e GERENCIAR e USE_SCHEMA no esquema pai da tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e GERENCIAR na tabela.
databricks data-quality create-refresh OBJECT_TYPE OBJECT_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

    Localize o schema_id de: (1) O schema_id do recurso Esquemas. (2) No Gerenciador de Catálogos → selecione o esquema → acesse a guia Detalhes → o campo ID do Esquema.

    Localize o table_id de: (1) O table_id do recurso Tabelas. (2) No Gerenciador de Catálogos → selecione a tabela → acesse a guia Detalhes → campo ID da Tabela.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

Exemplos

O exemplo a seguir cria uma atualização para um monitor de tabela:

databricks data-quality create-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

O exemplo a seguir cria uma atualização usando JSON:

databricks data-quality create-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{}'

databricks data-quality delete-monitor

Exclua um monitor de qualidade de dados no objeto catálogo do Unity.

Para a tabela object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela.
  2. USE_CATALOG no catálogo pai da tabela e GERENCIAR e USE_SCHEMA no esquema pai da tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e GERENCIAR na tabela.

Importante

As tabelas de métricas e o painel não serão excluídos como parte dessa chamada; esses ativos devem ser limpos manualmente (se desejado).

Para o esquema object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai do esquema.
  2. USE_CATALOG no catálogo pai do esquema e GERENCIE e USE_SCHEMA no esquema.
databricks data-quality delete-monitor OBJECT_TYPE OBJECT_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

    Localize o schema_id de: (1) O schema_id do recurso Esquemas. (2) No Gerenciador de Catálogos → selecione o esquema → acesse a guia Detalhes → o campo ID do Esquema.

    Localize o table_id de: (1) O table_id do recurso Tabelas. (2) No Gerenciador de Catálogos → selecione a tabela → acesse a guia Detalhes → campo ID da Tabela.

Opções

Sinalizadores globais

Exemplos

O exemplo a seguir exclui um monitor de qualidade de dados:

databricks data-quality delete-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

databricks data-quality get-monitor

Leia um monitor de qualidade de dados em um objeto do Catálogo do Unity.

Para a tabela object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela.
  2. USE_CATALOG no catálogo pai da tabela e GERENCIAR e USE_SCHEMA no esquema pai da tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e SELECT na tabela.

Para o esquema object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai do esquema.
  2. USE_CATALOG no catálogo pai do esquema e USE_SCHEMA no esquema.

As informações retornadas incluem valores de configuração na entidade e na entidade pai, bem como informações sobre ativos criados pelo monitor. Algumas informações (por exemplo, dashboard) podem ser filtradas se o chamador estiver em um workspace diferente do local em que o monitor foi criado.

databricks data-quality get-monitor OBJECT_TYPE OBJECT_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

    Localize o schema_id de: (1) O schema_id do recurso Esquemas. (2) No Gerenciador de Catálogos → selecione o esquema → acesse a guia Detalhes → o campo ID do Esquema.

    Localize o table_id de: (1) O table_id do recurso Tabelas. (2) No Gerenciador de Catálogos → selecione a tabela → acesse a guia Detalhes → campo ID da Tabela.

Opções

Sinalizadores globais

Exemplos

O exemplo a seguir obtém informações sobre um monitor de qualidade de dados:

databricks data-quality get-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

databricks data-quality get-refresh

Obtenha informações de atualização do monitor de qualidade de dados. A chamada deve ser feita no mesmo workspace em que o monitor foi criado.

Para a tabela object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela.
  2. USE_CATALOG no catálogo pai da tabela e GERENCIAR e USE_SCHEMA no esquema pai da tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e SELECT na tabela.

Para o esquema object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai do esquema.
  2. USE_CATALOG no catálogo pai do esquema e USE_SCHEMA no esquema.
databricks data-quality get-refresh OBJECT_TYPE OBJECT_ID REFRESH_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

    Localize o schema_id de: (1) O schema_id do recurso Esquemas. (2) No Gerenciador de Catálogos → selecione o esquema → acesse a guia Detalhes → o campo ID do Esquema.

    Localize o table_id de: (1) O table_id do recurso Tabelas. (2) No Gerenciador de Catálogos → selecione a tabela → acesse a guia Detalhes → campo ID da Tabela.

REFRESH_ID

    ID exclusiva da operação de atualização.

Opções

Sinalizadores globais

Exemplos

O exemplo a seguir obtém informações sobre uma atualização:

databricks data-quality get-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 refresh-12345

databricks data-quality list-refresh

Listar atualizações do monitor de qualidade de dados. A chamada deve ser feita no mesmo workspace em que o monitor foi criado.

Para a tabela object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela.
  2. USE_CATALOG no catálogo pai da tabela e GERENCIAR e USE_SCHEMA no esquema pai da tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e SELECT na tabela.

Para o esquema object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai do esquema.
  2. USE_CATALOG no catálogo pai do esquema e USE_SCHEMA no esquema.
databricks data-quality list-refresh OBJECT_TYPE OBJECT_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

    Localize o schema_id de: (1) O schema_id do recurso Esquemas. (2) No Gerenciador de Catálogos → selecione o esquema → acesse a guia Detalhes → o campo ID do Esquema.

    Localize o table_id de: (1) O table_id do recurso Tabelas. (2) No Gerenciador de Catálogos → selecione a tabela → acesse a guia Detalhes → campo ID da Tabela.

Opções

--page-size int

    Número máximo de atualizações a serem retornadas por página.

--page-token string

    Token para recuperar a próxima página de resultados.

Sinalizadores globais

Exemplos

O exemplo a seguir lista todas as atualizações de um monitor:

databricks data-quality list-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890

O exemplo a seguir lista atualizações com paginação:

databricks data-quality list-refresh table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --page-size 10

databricks data-quality update-monitor

Atualize um monitor de qualidade de dados no objeto catálogo do Unity.

Para a tabela object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai da tabela.
  2. USE_CATALOG no catálogo pai da tabela e GERENCIAR e USE_SCHEMA no esquema pai da tabela.
  3. USE_CATALOG no catálogo pai da tabela, USE_SCHEMA no esquema pai da tabela e GERENCIAR na tabela.

Para o esquema object_type, o chamador deve ter um dos seguintes conjuntos de permissões:

  1. GERENCIE e USE_CATALOG no catálogo pai do esquema.
  2. USE_CATALOG no catálogo pai do esquema e GERENCIE e USE_SCHEMA no esquema.
databricks data-quality update-monitor OBJECT_TYPE OBJECT_ID UPDATE_MASK OBJECT_TYPE OBJECT_ID [flags]

Argumentos

OBJECT_TYPE

    O tipo do objeto monitorado. Pode ser um dos seguintes: schema ou table.

OBJECT_ID

    A UUID do objeto de solicitação. É schema_id para esquema e table_id para tabela.

UPDATE_MASK

    A máscara de campo para especificar quais campos atualizar como uma lista separada por vírgulas. Valor de exemplo: data_profiling_config.custom_metrics,data_profiling_config.schedule.quartz_cron_expression.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

Exemplos

O exemplo a seguir atualiza a configuração de um monitor:

databricks data-quality update-monitor table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 "data_profiling_config.schedule.quartz_cron_expression" table a1b2c3d4-e5f6-7890-a1b2-c3d4e5f67890 --json '{"data_profiling_config": {"schedule": {"quartz_cron_expression": "0 0 12 * * ?"}}}'

Sinalizadores globais

Sinalizadores globais

--debug

  Indica se deve habilitar o registro em log de depuração.

-h ou --help

    Exiba ajuda para a CLI do Databricks ou o grupo de comandos relacionado ou o comando relacionado.

--log-file corda

    Uma cadeia de caracteres que representa o arquivo onde serão gravados os logs de saída. Se esse sinalizador não for especificado, o padrão será gravar logs de saída no stderr.

--log-format formato

    O tipo de formato de log, text ou json. O valor padrão é text.

--log-level corda

    Uma cadeia de caracteres que representa o nível de formato de log. Se não for especificado, o nível de formato de log será desabilitado.

-o, --output tipo

    O tipo de saída do comando, text ou json. O valor padrão é text.

-p, --profile corda

    O nome do perfil no arquivo ~/.databrickscfg, que deverá ser usado para executar o comando. Se esse sinalizador não for especificado, se existir, o perfil nomeado DEFAULT será usado.

--progress-format formato

    O formato para exibir logs de progresso: default, append, inplace ou json

-t, --target corda

    Se aplicável, o destino do pacote a ser usado