2020 10月 22 at SE の雑記

Synapse Analytics の SQL on-demand(Serverless SQL Pool) と、Azure Storage の Query Acceleration では、Azure Storage 上のファイルに対して、SQL を実行することが可能です。

どちらもファイル対して、SQL を実行する機能ではありますが、これらの機能ではどのような違いがあるのか気になったので簡単にではありますが比較してみました。

ツールによりデータを取得するか、SDK からクエリを実行してデータを取得するかという、そもそものユースケースに違いがありますので、あまり比較しても意味はないかもしれませんが、ざっとした比較では次のようになるかと。

	SQL on-demand	Query Acceleration
検索対象として利用可能な Azure ストレージ	Azure BLOB ストレージ Azure Data Lake Storage Gen2	Azure BLOB ストレージ Azure Data Lake Storage Gen2 (Synapse Link で Cosmos DB に接続可)
クエリの実行方法	TDS データは TDS で取得	SDK データは Stream オブジェクトで取得
サポートする SQL	一般的な検索の SQL をサポートデータソース間の JOIN が可能	限定的な SQL をサポート単一データソースによる検索
データのエクスポート	TDS を利用可能なツール CETAS	Stream オブジェクトをコードで操作
検索対象のファイル	CSV JSON Parquet	CSV JSON
一つのクエリで検索可能なファイル	ディレクトリワイルドカード	単一ファイル
メタデータによる検索するファイルのフィルター	filename() 関数 filepath() 関数	メタデータ BLOB インデックスタグ

Ignite 2020 の What’s New in Azure Storage では、Query Acceleration に関しては、次のような解説が行われていました。

「Deeply integrated into Azure Synapse Analytics for improved performance and cost」と説明がされています。
具体的にどのように Synaspe Anaytics と統合されているのかまでは解説されていないのですが、Synapse Analytics で使用されている Polaris という分散 SQL エンジンが内部的には使用されているのかもしれませんね。

Read the rest of this entry »

月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SE の雑記

Archive for 10月 22nd, 2020

Synapse Analytics の SQL on-demand と Query Acceleration にはどのような違いがあるのか

検索

アーカイブ

最近の投稿

カテゴリー