Synapse Analytics at SE の雑記

Archive for the ‘Synapse Analytics’ tag

Synapse Analytics (Synapse Studio) でファイアウォール設定の挙動を確認する際のメモ

leave a comment

Synapse Analytics のファイアウォール設定や、プライベートエンドポイント経由でのアクセスを、Synapse Studio で確認していて、一部の項目がうまく表示されない場合などの調査時のメモを。

ファイアウォールで「Azure サービスおよびリソースに、このワークスペースへのアクセスを許可する」をオフにして、アクセスを厳しくしている場合の調査に使っていました。

Read the rest of this entry »

Written by Masayuki.Ozawa

2月 14th, 2021 at 11:01 pm

Posted in Synapse Analytics

Tagged with Synapse Analytics

Synapse Analytics のパイプライン / トリガーの実行状況の取得

leave a comment

Synapse Analytics は Azure Data Factory のようなパイプラインの実行機能を持っており、クラウドベースの ETL の実行を行うことができます。

Synapse Analytics と Data Factory のパイプラインの違いについては、Data integration in Azure Synapse Analytics versus Azure Data Factory に記載されており、いくつかの違いがあります。

Monitoring についても機能差があり、Synapse のパイプラインは Azure Monitor に統合が行われていません。
これにより、現時点では、パイプライン (またはトリガー) の実行状況の取得方法が、Data Factory とは異なります。

また、Azure Monitor と統合がされていないことにより、診断設定の利用可否も変わってくるかと思います。

Read the rest of this entry »

Written by Masayuki.Ozawa

12月 29th, 2020 at 10:41 pm

Posted in Data Factory,Synapse Analytics

Tagged with Data Factory, Synapse Analytics

Synapse Analytics の Serverless SQL pool の分散クエリ処理エンジンについて

leave a comment

しばやん先生が Hack Azure! #4 – Synapse と Cosmos で実現するサーバーレスデータ分析フォローアップで紹介していますが、Synapse Analytics の Serverless SQL pool の分散クエリ処理エンジン (Distributed Query Processing Engine : DQP) については、POLARIS として、Microsoft Research から、「POLARIS: The Distributed SQL Engine in Azure Synapse」として、論文が公開されています。

論文を読むのはしんどいのですが、VLDB 2020 では、動画の公開も行われていましたので、こちらも合わせながら、ざっくりと眺めてみました。

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 11th, 2020 at 9:00 am

Posted in Synapse Analytics

Tagged with Synapse Analytics

Synapse Analytics の SQL on-demand の DB を跨いだクエリの実行について

leave a comment

Synapse Analytics (Workspace) の SQL on-demand (Serverless SQL Pool) では、次の形態の DB を利用することができます。

SQL on-demand 用のデータベース
- OPENROWSET により、Data Lake / Synapse Link のデータを検索
- SQL on-demand のメタデータオブジェクトを格納するためのデータベース
共有データベース
- Spark Pool と SQL on-demand でテーブルを共有するためのデータベース

従来の、Azure SQL Database では「論理サーバー」を使用した環境の場合、サーバーはエンドポイントとなっていました。
エンドポイント内に複数のデータベースを作成することはできるのですが、各データベースは独立したリソースで動作しているため、データベースを跨いだクエリの実行にはかなり制限がありました。

SQL on-demand の場合、Azure SQL Database の論理サーバーモデルとは異なり、データベースを跨いだクエリの実行ができるようです。

Azure Synapse SQL でサポートされる Transact-SQL 機能で、サポートされる T-SQL の機能が記載されているのですが、SQL on-demand では、データベース間のクエリはサポートとなっています。

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 3rd, 2020 at 10:27 pm

Posted in Synapse Analytics

Tagged with Synapse Analytics

Synapse Analytics の SQL on-demand の共有メタデータテーブルの照合順序について

leave a comment

SQL on-demand (Serverless SQL Pool) では、共有メタデータテーブルという形で Spark Pool で作製した Parquet フォーマットを使用したテーブルを、SQL on-demand で参照することができます。

先日投稿した、Synapse Analytics の Serverless SQL Pool (SQL on-demand) でテキストを参照する際の文字コードの設定 (おまけで Synapse Link for Cosmos DB) でも Synapse Analytics の照合順序に触れましたが、共有メタデータテーブルでも照合順序はポイントとなる点がありますので、触れておきたいと思います。

ドキュメントについては、SQL オンデマンド (プレビュー) で Apache Spark for Azure Synapse の外部テーブル定義を同期するを参照すると良いかと。

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 2nd, 2020 at 10:17 am

Posted in Synapse Analytics

Tagged with Synapse Analytics

Synapse Analytics の SQL on-demand と Query Acceleration にはどのような違いがあるのか

leave a comment

Synapse Analytics の SQL on-demand(Serverless SQL Pool) と、Azure Storage の Query Acceleration では、Azure Storage 上のファイルに対して、SQL を実行することが可能です。

どちらもファイル対して、SQL を実行する機能ではありますが、これらの機能ではどのような違いがあるのか気になったので簡単にではありますが比較してみました。

ツールによりデータを取得するか、SDK からクエリを実行してデータを取得するかという、そもそものユースケースに違いがありますので、あまり比較しても意味はないかもしれませんが、ざっとした比較では次のようになるかと。

	SQL on-demand	Query Acceleration
検索対象として利用可能な Azure ストレージ	Azure BLOB ストレージ Azure Data Lake Storage Gen2	Azure BLOB ストレージ Azure Data Lake Storage Gen2 (Synapse Link で Cosmos DB に接続可)
クエリの実行方法	TDS データは TDS で取得	SDK データは Stream オブジェクトで取得
サポートする SQL	一般的な検索の SQL をサポートデータソース間の JOIN が可能	限定的な SQL をサポート単一データソースによる検索
データのエクスポート	TDS を利用可能なツール CETAS	Stream オブジェクトをコードで操作
検索対象のファイル	CSV JSON Parquet	CSV JSON
一つのクエリで検索可能なファイル	ディレクトリワイルドカード	単一ファイル
メタデータによる検索するファイルのフィルター	filename() 関数 filepath() 関数	メタデータ BLOB インデックスタグ

Ignite 2020 の What’s New in Azure Storage では、Query Acceleration に関しては、次のような解説が行われていました。

「Deeply integrated into Azure Synapse Analytics for improved performance and cost」と説明がされています。
具体的にどのように Synaspe Anaytics と統合されているのかまでは解説されていないのですが、Synapse Analytics で使用されている Polaris という分散 SQL エンジンが内部的には使用されているのかもしれませんね。

Read the rest of this entry »

Written by Masayuki.Ozawa

10月 22nd, 2020 at 10:59 pm

Posted in Synapse Analytics

Tagged with Synapse Analytics

Synapse Link for Cosmos DB を SQL Ondemand で操作する場合のメモ

leave a comment

Synapse Link for Cosmos DB を SQL Ondemand (Serverless SQL Pool) で操作する場合のメモを。

SQL Ondemand なのか、Serverless SQL Pool なのかがよくわからないので、どちらでもヒットするようにしています (遠い目)

ドキュメントとしては次の内容をベースとしています。

Read the rest of this entry »

Written by Masayuki.Ozawa

10月 20th, 2020 at 8:51 am

Posted in Cosmos DB,Synapse Analytics

Tagged with Cosmos DB, Synapse Analytics

Synapse Analytics の Serverless SQL Pool (SQL on-demand) でテキストを参照する際の文字コードの設定 (おまけで Synapse Link for Cosmos DB)

leave a comment

Synapse Analytics の Serverless SQL Pool (SQL on-demand) では、BLOB / ADL Gen2 上のファイルに対してクエリを実行することができます。

同様の内容を実現する機能としては、Azure Data Lake Storage のクエリアクセラレーションがあります。
こちらについては、しばやん先生が Azure Data Lake Storage の Query Acceleration が GA になったので試したら最高だったで機能の解説をされています。

この機能の比較をするために検証していたときに「そういえば、Serverless SQL Pool で、テキストを読むとき文字コードって何にする必要があったっけ？」と思い、軽く検証してみました。

今回は Shift-JIS / UTF8? / UTF16 LE の 3 パターンで検証しています。

使用しているデータは、本ブログのアクセスログを CSV に出力したものです。

シンプルな構成にするのであれば、次のような構成をしておけばいいのではないでしょうか。

ファイルは UTF8 のエンコードを使用する
データベースの照合順序は _UTF8 を使用する
- 日本語環境の SQL Server の照合順序と同様にするのであれば、次の照合順序のいずれかを使用しておけば、最新のUnicode を考慮した文字コード体系になる
  - Japanese_XJIS_100_CI_AS_SC_UTF8
  - Japanese_XJIS_140_CI_AS_UTF8
    - Synapse SQL でのデータベースの照合順序のサポートでは、140 系はサポートされていないということになっていますが、本投稿を書いているタイミングでは、設定はできます。(サポート対象なのかは要確認ですが)
- 基本的な検索であれば、任意の照合順序に「_UTF8」を設定したものであれば、ある程度カバーできるはず
検索条件で、文字列リテラルを使用する場合、「N’xxxxx’」の Unicde 変数で検索を行う。

Read the rest of this entry »

Written by Masayuki.Ozawa

10月 18th, 2020 at 12:20 am

Posted in Synapse Analytics

Tagged with Synapse Analytics

Synapse の BroadcastMove / ShuffleMove の動作について

leave a comment

Synapse Analytics では、データの移動について、

BroadcastMoveOperation
ShuffleMoveOperation

という 2 種類の操作を目にする機会が多いかと思います。

これらの動作については、次のドキュメントなどに情報が記載されています。

Synapse の SQL Pool に関しては、Analytics Platform System (APS) という、以前は、Parallel Data Warehouse (PDW) と呼ばれていたシステムがベースになっており、基本的な考え方については、並列データウェアハウスコンポーネント-分析プラットフォームシステムの情報も参考になるケースがあります。

クエリの操作については、Analytics Platform System Appliance Update 5 Documentation and Client Tools からダウンロードできるドキュメントが今でも一番情報が記載されているのではないでしょうか。

このドキュメント内には、BroadcastMoveOperation と ShuffleMoveOperation についても記載されています。

BroadcastMoveOperation
- 分散データをレプリケートされたテーブルに移動する
- この操作は、ディストリビューションと互換性のない結合を実行しているときに使用される機会がある。
- この操作を実行するために、各ディストリビューションは、該当の行をすべてのComputeノードにブロードキャストする。
- その結果、各Computeノードは、自分の行に他のComputeノードから受け取ったすべての行を加えて、レプリケートされたテーブルを作成する。
ShuffleMoveOperation
- 分散されたテーブルを再配布する。
- 再配布されたテーブルは、元の分散テーブルとは異なる分散カラムを持ち、これは、互換性のない結合や互換性のない集約を実行している場合に使用されることがある。
- この操作を実行するために、DMSは、各行を分散先のテーブルの分布列に従って正しい計算ノードに移動する。
- 既に正しいComputeノードに格納されている行は、この操作中はコピーされない。