Synapse Analytics の Dedicated SQL Pool (専用 SQL プール) に対して、データローディングを行う際には、いくつかのポイントがあり、特性を意識したデータローディングを実施しないと、パフォーマンスが大幅に低下する恐れがあります。
本投稿ではどのようなアプローチを行えばよいのかについてまとめておきたいと思います。
SQL Server の情報をメインに Microsoft 製品の勉強内容を日々投稿
Synapse Analytics の Dedicated SQL Pool (専用 SQL プール) に対して、データローディングを行う際には、いくつかのポイントがあり、特性を意識したデータローディングを実施しないと、パフォーマンスが大幅に低下する恐れがあります。
本投稿ではどのようなアプローチを行えばよいのかについてまとめておきたいと思います。
Build 2021 の SQL Server ベースの環境の発表については、Build 2021 のタイミングで発表された SQL Server / SQL Database のアップデート に Synapse も含めて書いてみましたが、Synapse 単体でもいくつかのドキュメントの更新が行われていますので、Synapse Analytics のみで、一度アップデートの内容を把握しておきたいと思います。
Ignite 2021 で、発表された内容の中に Synapse Pathway がありました。
Synapse Pathway は Azure Synapse Analytics の専用 SQL プールに移行するための、SQL のコード変換を行うことができるツールとなっています。
2021/3/10 時点では、次の環境のオブジェクトの変換を行うことができるようになっています。
今後、Amazon Redshift / Google BigQuery / Teradata のサポートも予定されているようですね。
日本語化されたドキュメントも Azure Synapse Pathway プレビューの概要 で公開されましたので、SQL Server からの変換を使用して、機能を試してみたいと思います。
Synapse Pathway はクラウドサービスではなく、スタンドアロンのツールとして提供されており、実行環境にツールをインストールする必要があります。
モジュールのダウンロード / インストール方法は本投稿では触れていません。
ツールの導入方法については、、Azure Synapse Pathway プレビューのダウンロード を参照してください。
インストーラーをダウンロードしてセットアップをぽちぽちするとインストールされます。
Synapse Analytics は Azure Data Factory のようなパイプラインの実行機能を持っており、クラウドベースの ETL の実行を行うことができます。
Synapse Analytics と Data Factory のパイプラインの違いについては、Data integration in Azure Synapse Analytics versus Azure Data Factory に記載されており、いくつかの違いがあります。
Monitoring についても機能差があり、Synapse のパイプラインは Azure Monitor に統合が行われていません。
これにより、現時点では、パイプライン (またはトリガー) の実行状況の取得方法が、Data Factory とは異なります。
また、Azure Monitor と統合がされていないことにより、診断設定の利用可否も変わってくるかと思います。