SE の雑記

SQL Server の情報をメインに Microsoft 製品の勉強内容を日々投稿

Archive for the ‘Synapse Analytics’ Category

Synapse Analytics のサーバーレス SQL プールのコスト対象となるデータ処理数の基本的な考え方

leave a comment

Synapse Analytics のサーバーレス SQL プールは、メタデータ以外のデータは保持せず、検索対象となるデータは外部ストレージ (サービス) が対象となります。

そのため、利用時のコストは「データ処理数」となり、クエリ実行時には少量データの処理に対しても、最低 10MB の料金がかかることになります。(DMV に対しての検索はコストは発生していないようではあります)

image

検証で使用している場合は、2023年6月30日までの無料枠である、1TB 以内に収まるかと思いますが、実運用で大量データを使用する場合、クエリでどの程度処理が行われるかを把握することは重要となります。

本投稿では、サーバーレス SQL プールのコスト対象となるデータ処理数の基本的な考え方についてまとめておきたいと思います。
今回の対象は Azure ストレージからの情報取得となっており、Synapse Link については調査できていません。

今回は手元の CSV ファイルを使用して検証をしましたが、検証のために、手元にある程度のボリュームのまとまったデータがない場合は、Azure Open Datasets で公開されているデータを使用してみてもよいかもしれません。

Read the rest of this entry »

Written by Masayuki.Ozawa

4月 13th, 2023 at 9:34 am

Posted in Synapse Analytics

Tagged with

Azure Machine Learning Studio のデータセットとしてサーバーレス SQL プールを使用する

leave a comment

Azure Machine Learning Studio で、機械学習モデルを作成する際のデータセットとして、次のようなデータストアを選択することができるのですが、この中には Synapse Analytics は含まれていません。

image

SQL Database の論理サーバー内に専用 SQL プール (Dedicated SQL Pool) を使用した場合は、論理サーバーの下に DB が作成されますので、接続のエンドポイントとしては「~.database.windows.net」を使用することができますので、データストアの種類として「Azure SQL Database」を選択しても戸惑うことなくデータストアを作成できるのではないでしょうか。

Read the rest of this entry »

Written by Masayuki.Ozawa

4月 14th, 2022 at 1:24 pm

Posted in Synapse Analytics

Tagged with

SQL Server-based environment updates

leave a comment

Read the rest of this entry »

Written by Masayuki.Ozawa

3月 22nd, 2022 at 10:53 am

Dedicated SQL Pool でデータローディングを最適化するときの基本アプローチ

one comment

Synapse Analytics の Dedicated SQL Pool (専用 SQL プール) に対して、データローディングを行う際には、いくつかのポイントがあり、特性を意識したデータローディングを実施しないと、パフォーマンスが大幅に低下する恐れがあります。

本投稿ではどのようなアプローチを行えばよいのかについてまとめておきたいと思います。

Read the rest of this entry »

Written by Masayuki.Ozawa

6月 13th, 2021 at 7:56 pm

Posted in Synapse Analytics

Tagged with

Build 2021 で発表された Synapse Analytics のアップデート

one comment

Build 2021 の SQL Server ベースの環境の発表については、Build 2021 のタイミングで発表された SQL Server / SQL Database のアップデート に Synapse も含めて書いてみましたが、Synapse 単体でもいくつかのドキュメントの更新が行われていますので、Synapse Analytics のみで、一度アップデートの内容を把握しておきたいと思います。

Read the rest of this entry »

Written by Masayuki.Ozawa

5月 30th, 2021 at 11:04 pm

Posted in Synapse Analytics

Tagged with

Synapse の専用 SQL プールへの移行に活用できる Synapse Pathway を試してみる

leave a comment

Ignite 2021 で、発表された内容の中に Synapse Pathway がありました。

Synapse Pathway は Azure Synapse Analytics の専用 SQL プールに移行するための、SQL のコード変換を行うことができるツールとなっています。

2021/3/10 時点では、次の環境のオブジェクトの変換を行うことができるようになっています。

  • IBM Netezza
  • Microsoft SQL Server
  • Snowflake

今後、Amazon Redshift / Google BigQuery / Teradata のサポートも予定されているようですね。

image

日本語化されたドキュメントも Azure Synapse Pathway プレビューの概要 で公開されましたので、SQL Server からの変換を使用して、機能を試してみたいと思います。

Synapse Pathway はクラウドサービスではなく、スタンドアロンのツールとして提供されており、実行環境にツールをインストールする必要があります。

モジュールのダウンロード / インストール方法は本投稿では触れていません。
ツールの導入方法については、、Azure Synapse Pathway プレビューのダウンロード を参照してください。
インストーラーをダウンロードしてセットアップをぽちぽちするとインストールされます。

Read the rest of this entry »

Written by Masayuki.Ozawa

3月 10th, 2021 at 12:03 pm

Posted in Synapse Analytics

Tagged with

Synapse Analytics (Synapse Studio) でファイアウォール設定の挙動を確認する際のメモ

leave a comment

Synapse Analytics のファイアウォール設定や、プライベートエンドポイント経由でのアクセスを、Synapse Studio で確認していて、一部の項目がうまく表示されない場合などの調査時のメモを。

ファイアウォールで「Azure サービスおよびリソースに、このワークスペースへのアクセスを許可する」をオフにして、アクセスを厳しくしている場合の調査に使っていました。
image

Read the rest of this entry »

Written by Masayuki.Ozawa

2月 14th, 2021 at 11:01 pm

Posted in Synapse Analytics

Tagged with

Synapse Analytics のパイプライン / トリガーの実行状況の取得

leave a comment

Synapse Analytics は Azure Data Factory のようなパイプラインの実行機能を持っており、クラウドベースの ETL の実行を行うことができます。

Synapse Analytics と Data Factory のパイプラインの違いについては、Data integration in Azure Synapse Analytics versus Azure Data Factory に記載されており、いくつかの違いがあります。

image

Monitoring についても機能差があり、Synapse のパイプラインは Azure Monitor に統合が行われていません。
これにより、現時点では、パイプライン (またはトリガー) の実行状況の取得方法が、Data Factory とは異なります。

また、Azure Monitor と統合がされていないことにより、診断設定の利用可否も変わってくるかと思います。

Read the rest of this entry »

Written by Masayuki.Ozawa

12月 29th, 2020 at 10:41 pm

Synapse Analytics の Serverless SQL pool の分散クエリ処理エンジンについて

leave a comment

しばやん先生が Hack Azure! #4 – Synapse と Cosmos で実現するサーバーレスデータ分析 フォローアップ で紹介していますが、Synapse Analytics の Serverless SQL pool の分散クエリ処理エンジン (Distributed Query Processing Engine : DQP) については、POLARIS として、Microsoft Research から、「POLARIS: The Distributed SQL Engine in Azure Synapse」として、論文が公開されています。

論文を読むのはしんどいのですが、VLDB 2020 では、動画の公開も行われていましたので、こちらも合わせながら、ざっくりと眺めてみました。

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 11th, 2020 at 9:00 am

Posted in Synapse Analytics

Tagged with

Synapse Analytics の SQL on-demand の DB を跨いだクエリの実行について

leave a comment

Synapse Analytics (Workspace) の SQL on-demand (Serverless SQL Pool) では、次の形態の DB を利用することができます。

  • SQL on-demand 用のデータベース
    • OPENROWSET により、Data Lake / Synapse Link のデータを検索
    • SQL on-demand のメタデータオブジェクトを格納するためのデータベース
  • 共有データベース
    • Spark Pool と SQL on-demand でテーブルを共有するためのデータベース

従来の、Azure SQL Database では「論理サーバー」を使用した環境の場合、サーバーはエンドポイントとなっていました。
エンドポイント内に複数のデータベースを作成することはできるのですが、各データベースは独立したリソースで動作しているため、データベースを跨いだクエリの実行にはかなり制限がありました。

SQL on-demand の場合、Azure SQL Database の論理サーバーモデルとは異なり、データベースを跨いだクエリの実行ができるようです。

Azure Synapse SQL でサポートされる Transact-SQL 機能 で、サポートされる T-SQL の機能が記載されているのですが、SQL on-demand では、データベース間のクエリはサポートとなっています。

image

 

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 3rd, 2020 at 10:27 pm

Posted in Synapse Analytics

Tagged with