文章 › 查看内容

最近实践｜如何快速查询 BI 中某张物理表被哪些数据集引用

177 0 产品实操 2026-3-31 19:23 发布者: 观小松观远数据

本文基于观远 BI 元数据库中的 data_source 表，先提取模型查询 SQL，再在 ETL 中解析物理表名，生成“物理表 - 数据集”映射表，并通过页面筛选器支持按表名快速查询当前 BI 引用关系。 ...

最近实践｜如何快速查询 BI 中某张物理表被哪些数据集引用

适用产品：观远 BI

适用版本：6.6 以上

简介：

在数据库治理场景里，经常需要快速回答一个问题：某张物理表当前在 BI 中还被哪些数据集引用。如果完全依赖人工逐个翻查数据集，效率较低，也不方便持续排查。

这次实践基于元数据库中的 data_source 表，先提取数据集模型中的查询 SQL，再从 SQL 中解析出物理表名，最终生成一张“物理表 - 数据集”映射表，并搭建一个支持输入表名快速检索的页面。

最终效果是：输入表名，即可查看当前 BI 中命中的数据集名称，适合数据库表下线评估、资源盘点和数据集治理排查。

涉及数据集：

本次方案使用 1 个元数据输入数据集和 1 个 ETL 输出数据集。

1、元数据输入数据集

元数据库只读账号的获取方式，可直接参考帮助中心文档：

GuanOps 运维服务平台

本文中使用该元数据库账号连接 UAT 环境，并读取 data_source 表，核心保留字段如下：

name：BI 中的数据集名称
config：数据集模型配置 JSON
ds_id：数据集 ID

本次实践对象：

数据集名称：元数据_data_source_新建_20260326_1841
查询 SQL：select * from data_source

2、ETL 输出数据集

ETL 将输入数据集中的 config 字段解析后，输出为便于查询和展示的宽表。

输出数据集名称：元数据_物理表数据集映射_输出_20260330_1015
输出字段：表名、数据集名称、数据集ID、模型查询SQL

数据处理：

1、元数据来源说明

元数据库账号来源不在 ETL 中单独配置，而是先按帮助中心中的 GuanOps 说明获取元数据库只读账号，再新建一个输入数据集读取 data_source 表。这样做的好处是：

输入来源清晰，便于后续复用
ETL 只关注加工逻辑，不直接承担连库配置
后续如果需要替换账号或环境，只需要调整输入数据集

2、新建 ETL 并引入输入数据集

本次 ETL 采用“输入数据集 -> SQL 节点 -> 输出数据集”的标准链路，输入节点直接引入 元数据_data_source_新建_20260326_1841。

ETL节点流程示意

3、提取模型查询 SQL 并解析物理表名

data_source.config 中保存了数据集模型结构，本次从 $.tableQuery.query 路径提取查询 SQL，再通过正则抓取 from 或 join 后面的首个物理表名。

本次 ETL 中保留的 SQL 注释如下，可直接作为导出逻辑给用户复用：

-- 从元数据 data_source 中提取模型查询 SQL，并解析 FROM/JOIN 后的物理表名
SELECT
  regexp_extract(lower(get_json_object(config, '$.tableQuery.query')), '(?:from|join)\s+([a-z0-9_\.]+)', 1) AS `表名`,
  name AS `数据集名称`,
  ds_id AS `数据集ID`,
  get_json_object(config, '$.tableQuery.query') AS `模型查询SQL`
FROM input1
WHERE config IS NOT NULL
  AND trim(config) <> ''
  AND get_json_object(config, '$.tableQuery.query') IS NOT NULL
  AND trim(get_json_object(config, '$.tableQuery.query')) <> ''

说明：