SE の雑記

SQL Server の情報をメインに Microsoft 製品の勉強内容を日々投稿

Azure Purview を触ってみる

leave a comment

データと分析によって未来を形作る で発表された Azure Purview (Preview) を触れていなかったので、軽くですが使ってみました。

Azure Purview を活用することで、企業が保有しているデータを自動的に検出 / 分類 / データ系列の付与を行うことができ、企業が保有しているデータ項目の管理と検索性の向上をすることができるようになります。

2021/1 時点では、データソースは Azure 上のデータサービスと Power BI を設定することができ、それ以外のデータサービスに格納されているデータをデータ資産 (アセット) として登録することはできません。
(Azure Data Factory や、Power BI のデータセットとして、上記以外をデータソースとして使用している場合、系列として、データの取り込みのフローを確認することはできます)

Purview により、これらのデータソースに格納されている (または、データソースこれから格納する) データ資産による、データカタログを作成することが容易にできるようになります。

Azure Purview は現在プレビュー中のサービスであり、フィードバックについては Azure Purview で受け付けていますので、使用していて気になった点などは、こちらからフィードバックすると良いかと。

すでに、かなりの数のフィードバックがありますので、ほかの方がどのような観点で Purview を検証しているかの参考にもなるかと思います。

Azure Purview とは?

Azure Purview (Code Name : Project Babylon) ですが、ADC Gen 2、Azure Information Protection、Azure Purview はどのように関連していますか? で記載されていますが、以前は、Azure Datacatalog Gen2 (ADC Gen2) として機能の提供が行われていたものとなります。

Azure Purview はもともと ADC Gen 2 として開始されましたが、以来ずっとその範囲が拡大されてきました。 現在、ADC Gen 2 の高度なカタログ機能を、Azure Information Protection のデータ分類、ラベル付け、コンプライアンス ポリシー適用機能と組み合わせて使用できるようになりました。 今日では、データ ガバナンスの幅広い業界定義により厳密に適合しています。

Whats the difference between Azure Data Catalog and Azure Purview でも触れられていますが、以前は ADC Gen2 として話されていた内容は、Azure Purview という機能として提供されることになりました。

Azure では、既に Azure Data Catalog (ADC) として、企業が保有しているデータをデータソースとして活用し、データカタログを作成するための機能が提供されています。
ADC も引き続き利用することができサポートも継続されますが、今後のデータカタログのソリューションとしては、Azure Purivew に焦点があてられると ADC Gen 1 を使用している顧客はどうなりますか? に記載されていますので、今後、機能が拡張されるのは Purview になるのでしょうね。

Microsoft のカタログ ソリューション分野では、Azure Purview がすべての製品イノベーションの焦点となっています。 ADC Gen 1 は引き続きサポートされます。

ADC の場合、データカタログは 1 組織に 1 個となっていましたが、Purview は複数 (既定の制限では、Purview アカウントはテナント辺り 3) 作成することができ、データカタログの作成の柔軟性も Purview の方が向上しているようです。

Purview の制限については、Azure Purview を使用する、リソースのクォータの管理と引き上げ に記載されていますので、テナント単位で作成可能なリソース数等はこの情報から確認することができます。

Azure Purview の基本的な構成要素

基本的な構成要素としては、次のようになります。

 

データソース (Data Source)

データソースはデータカタログを作成する際の情報ソースとする対象です。

企業が保有しているデータをデータソースとして登録し、そのデータソース内の項目を Purview に資産として取り込みます。
冒頭でも記載しましたが、2021/1 時点で、データソースとして登録が可能なものは次の画像の内容となります。

Purview はセルフホステッド統合ランタイムをサポートしていますので、オンプレミスの SQL Server に関してもデータソースとして登録を行うことができます。

image

登録を行ったデータソースを定期的にスキャンすることで、各データソースが保有しているデータの項目を Purview に登録します。

コレクション (Collection)

登録を行ったデータソースは、いずれかのコレクションに所属することになります。
コレクションは階層化することができ、どのデータソースがどのコレクションに所属しているかはマップビューで可視化することができます。

image

複数のコレクションを作成しても、データカタログとしては一つの情報として、格納されているようで、論理的な管理単位としてコレクションを活用する形になるのではないでしょうか。

データソースのコレクションは、登録後に変更することもできますので、データソースの増加に合わせて、コレクションを整理することもできるかと思います。

データ資産 (Data Asset)

データソースに格納されているデータをスキャンすることで、Purview にデータ資産として自動的に登録が行われます。
このデータ資産がデータカタログ内のデータとして使用されます。

登録されているデータ資産は、Purview の「Browse assets」等から確認することができます。

 

image

Purview では、データ資産を検索する機能もありますので、検索結果から絞り込みをしながら含まれているデータを確認することもできます。

検索を * で実行することで、すべてのアセットを確認することもできますので、データカタログにどのような項目が含まれているかの確認も可能です。

image

 

データ系列 (Lineage)

ETL のような処理によって、データの取り込みを行っている場合は、データの派生元 / 派生先の相関を把握したいということがあるのではないでしょうか。
データの相関をデータ系列として確認することができ、どのような流れでデータ資産が登録されているのかを把握することができます。

データ系列については、Azure Purview Data Catalog クライアントのデータ系列 で次のように説明されています。

この記事では、Azure Purview Data Catalog のデータ系列の概要について説明します。 また、データ システムをカタログと統合してデータの系列を取得する方法についても詳しく説明します。 Purview では、次のように、組織のデータ資産のさまざまな部分から、さまざまな準備段階のデータの系列を取得できます。

  • さまざまなプラットフォームからステージングされる完全な生データ
  • 変換および準備されたデータ
  • 視覚化プラットフォームによって使用されるデータ

Azure Data Factory / Azure Data Share の データ処理システム を Purview に統合する、Power BI をデータソースとして登録することで、データ系列を活用することができます。

Data Factory と Data Share の統合

Purview のテナント内のサブスクリプションの Data Factory / Data Share については、外部接続として、Purview に接続することができます。(Synapse Workspace の Integrate については、現時点では登録できず、パイプラインの登録は Data Factory に限定されています)

image

 

これによりに データ処理システム に記載されている、次のアクションが行われた際に、Purview に情報がプッシュされるようになります。
(外部接続として、Purview に接続を行った以降に、アクションが実行されることで、Purview に情報が連携されるようになります)

image

 

次の画像は、S3 からデータをコピーするコピーアクティビティが含まれている Data Factory を接続したものとなります。

image

現時点では、データソースとして S3 を登録することはできないのですが、Data Factory 内で S3 を使用している場合は、Data Factory を Purview に接続することで、コピーアクティビティ内で使用されている情報をデータ資産として登録することが可能です。

登録されている S3 のデータ資産を確認したものが次の画像となります。

image

S3 内のファイルを、Data Factory のアクティビティを使用して、S3AccessLog という SQL Database のテーブルに登録を行っているということが Purview で確認することができます。

Data Factory の情報を Purview に取り込むことで、アクティビティも資産として登録が行われ、既に登録済みの資産に対してのデータの準備で使用されているのかをデータ系列からグラフィカルに確認ができるようになります。

 

これは、Data Share を接続している場合も同じです。
Data Share により、どのようなデータ共有を行っているのかを、Purview で確認することができるようになります。
image

Power BI をデータ系列として使用

データ系列については Power BI をデータソースとして登録している場合にも活用できます。
Power BI のダッシュボード / レポート / データセット / データフローもデータ系列を使用することができます。

image

先ほどと同様に、どのようなデータを使用してダッシュボードが構成されているのかを Purview 上で可視化するということも可能です。

image

分類 (Classifications)

登録したデータ資産には、自動的にラベルが付与されます。
Purview の設定としては、データソースのスキャンの設定を行う際に指定する「スキャンルールセット」によって、分類のルールが決まります。

システムデフォルトで、データソースごとのスキャンルールセットが提供されており、自分でルールセットを作成しなくても、基本的な分類を実施することが可能です。

image

スキャンルールセットは自分で作成することもでき、作成する際には、スキャン時に使用する分類のルールを指定することができます。

image

分類のルールもカスタマイズすることができるようになっており、どのようなパターンに合致した場合に、どのような分類として設定を行うかを指定することができます。
データパターンに正規表現を指定することができますが、Purview ではスキャンを実施した際に、データ項目のメタデータだけでなく、実際のデータの確認も行うことで、自動的な分類の実現を行っているようです。
image

スキャン時に指定したスキャンルールの分類ルールによって、スキャンを行う際に自動的に分類を行うことができます。
分類については、データ資産が登録された後に手動でメンテナンスを行うこともできます。

洞察 (Insights)

取り込んだ情報にどのようなものがあるのかの洞察を Purview 内で確認することができます。
基本的な資産の洞察については Purview が標準で提供しているレポートで確認することができます。

image

どのようなデータ資産が登録されており、どのような分類が行われているかについては、データ資産単位で確認をせず、洞察で提供されているレポートから全体を把握しながらブレークダウンすることができます。

ビジネス用語集

企業内で固有の用語も多々あるかと思います。
そのような用語集を Purview に登録し、データ資産に付与することで情報を拡張することができます。

データ資産には、作成したビジネス用語集を複数関連付けることができます。
image

関連付けを行うと、データ資産の「Glossary terms」から、内容を確認することができるようになります。

image

これにより、そのデータのもつ情報に対しての付加情報を設定することができ、Contacts をビジネス用語集に設定しておくことで、そのデータに対しての問い合わせ先を設定することもできるようになります。

ビジネス用語集を活用することで、データ資産を活用しやすい形で情報のカスタマイズを行うことができます。

 

利用可能なデータソースについて

ADC の場合、データソースの登録はアプリケーションを起動して設定を行っていたため、様々なデータソースをサポートしていました。

Purview では、Purview Studio という、Synapse や Data Factory で使用しているような UI を持つ Web サイトで、データソースの登録を行うことになります。

image

データソースの登録から、PaaS を利用することになり、サポートされているデータソースについては、ADC と比較すると限定的となります。

サポートされているデータソースについては、次のドキュメントに記載されています。

Purview で利用可能なデータソースは、基本的に Azure 内のリソース / 統合ランタイム経由でオンプレミスの SQL Server / Power BI / Teradata (Preview) となっています。

image

これらのリソースをデータソースとして登録し、データソース内に含まれている項目をデータ資産として登録します。

統合ランタイムの使用

統合ランタイムをインストールした環境からアクセス可能なオンプレミスの SQL Server のデータについても、資産として登録を行うことができます。

統合ランタイムについては、Azure Data Factory (ADF) / Synapse Analytics などで使用されている、セルフホステッド統合ランタイム の最新バージョンを使用することになります。(古いバージョンの統合ランタイムは Purview をサポートしていないため、最新バージョンを使用する必要があります。)

ADF / Synapse のために既にインストールしている統合ランタイムを Purview で使用することはできません。
統合ランタイムを使用するためには、Purview 専用の環境を用意する必要があります。

認証方式

各リソースへのアクセスに利用される認証方法についても、Azure Purview でサポートされているデータ ソースとファイルの種類 で記載されていますが、MSI を利用することでセキュアにアクセスすることが可能です。

資格情報については Key Vault に格納したシークレットを活用する ことになりますので、Purview を使用する際には、Key Vault も一緒に作成することになることが大半ではないでしょうか。

データソースへの接続方式

現時点では、Private Endpoint についてはサポートされていません。
そのため、データソースへの接続方式については考慮しておく必要があります。

Private Endpoint については  Support for ADLSGen2 and SQLDB/Pools over private endpoints でフィードバックが既に上がっていますので、こちらの情報を定期的に確認すると良いかと思います。

データソースにアクセスするスキャンスケジュールの設定

データソースに登録を行った後は、対象のデータソースから資産をどのような間隔で取得するかのスキャン スケジューリングの設定を行います。
スキャンスケジュールの設定を行う際に、どのような分類のルールを用いてスキャンを行うかを設定することになります。
(ルールは設定後も変更できますので、作成済みのスキャンに新しく作成したルールを設定することもできます)

image

スキャンが実行されたタイミングで、各データソースの持つ情報がデータ資産として Purview に登録がされ、データカタログとして、データソースが保有している情報を活用することができるようになります。

image

スキャンはスケジュール設定だけでなく、手動でも実行することができ、手動実行時に、増分 / フルスキャンのどちらかを行うかを選択することができます。

image

データソースごとに、完全 / 増分スキャンのサポート状況が異なっており、どのような取り込みが行えるかはデータソースに依存するようです。

SQL DB / SQL Server などはフルスキャンのみをサポートしているのですが、フルスキャンを実行しても、テーブル内の全レコードにアクセスをしているわけではなさそうです。

増分オブジェクトの判断ができるか否かでスキャン方法が変わっているのでしょうかね。

 

スキャンスケジュールの設定

スキャンスケジュールについては、次のような UI による設定となっています。

月次 / 週次を基本タクトとし、毎月の特定の日, 曜日または、週の特定の曜日というような設定となっており、一つのスケジュールでは、最短でも 7 日間隔での設定となるようです。
image

 

一つのデータソースに対して、複数のスキャンスケジュールの設定を行うことができます。

日次でスキャンを行いたい場合には、各曜日向けのスキャン設定を用意して定期的にデータカタログへのスキャン実施の検討を行う必要がありそうです。

 

手元にあるいくつかの情報をデータソースとして登録して触ってみたところなので、データ資産の活用という観点で Purview を触ることはできていませんが、データ活用の特定の領域では強力なサービスとなるかと思いますので、今後も情報をキャッチアップしていきたいと思います。

Share

Written by Masayuki.Ozawa

12月 30th, 2020 at 5:29 pm

Posted in Azure Purview

Tagged with

Leave a Reply