SE の雑記

SQL Server の情報をメインに Microsoft 製品の勉強内容を日々投稿

Archive for the ‘Synapse Analytics’ Category

Azure Machine Learning Studio のデータセットとしてサーバーレス SQL プールを使用する

leave a comment

Azure Machine Learning Studio で、機械学習モデルを作成する際のデータセットとして、次のようなデータストアを選択することができるのですが、この中には Synapse Analytics は含まれていません。

image

SQL Database の論理サーバー内に専用 SQL プール (Dedicated SQL Pool) を使用した場合は、論理サーバーの下に DB が作成されますので、接続のエンドポイントとしては「~.database.windows.net」を使用することができますので、データストアの種類として「Azure SQL Database」を選択しても戸惑うことなくデータストアを作成できるのではないでしょうか。

Read the rest of this entry »

Written by Masayuki.Ozawa

4月 14th, 2022 at 1:24 pm

Posted in Synapse Analytics

Tagged with

SQL Server-based environment updates

leave a comment

Read the rest of this entry »

Written by Masayuki.Ozawa

3月 22nd, 2022 at 10:53 am

Dedicated SQL Pool でデータローディングを最適化するときの基本アプローチ

one comment

Synapse Analytics の Dedicated SQL Pool (専用 SQL プール) に対して、データローディングを行う際には、いくつかのポイントがあり、特性を意識したデータローディングを実施しないと、パフォーマンスが大幅に低下する恐れがあります。

本投稿ではどのようなアプローチを行えばよいのかについてまとめておきたいと思います。

Read the rest of this entry »

Written by Masayuki.Ozawa

6月 13th, 2021 at 7:56 pm

Posted in Synapse Analytics

Tagged with

Build 2021 で発表された Synapse Analytics のアップデート

one comment

Build 2021 の SQL Server ベースの環境の発表については、Build 2021 のタイミングで発表された SQL Server / SQL Database のアップデート に Synapse も含めて書いてみましたが、Synapse 単体でもいくつかのドキュメントの更新が行われていますので、Synapse Analytics のみで、一度アップデートの内容を把握しておきたいと思います。

Read the rest of this entry »

Written by Masayuki.Ozawa

5月 30th, 2021 at 11:04 pm

Posted in Synapse Analytics

Tagged with

Synapse の専用 SQL プールへの移行に活用できる Synapse Pathway を試してみる

leave a comment

Ignite 2021 で、発表された内容の中に Synapse Pathway がありました。

Synapse Pathway は Azure Synapse Analytics の専用 SQL プールに移行するための、SQL のコード変換を行うことができるツールとなっています。

2021/3/10 時点では、次の環境のオブジェクトの変換を行うことができるようになっています。

  • IBM Netezza
  • Microsoft SQL Server
  • Snowflake

今後、Amazon Redshift / Google BigQuery / Teradata のサポートも予定されているようですね。

image

日本語化されたドキュメントも Azure Synapse Pathway プレビューの概要 で公開されましたので、SQL Server からの変換を使用して、機能を試してみたいと思います。

Synapse Pathway はクラウドサービスではなく、スタンドアロンのツールとして提供されており、実行環境にツールをインストールする必要があります。

モジュールのダウンロード / インストール方法は本投稿では触れていません。
ツールの導入方法については、、Azure Synapse Pathway プレビューのダウンロード を参照してください。
インストーラーをダウンロードしてセットアップをぽちぽちするとインストールされます。

Read the rest of this entry »

Written by Masayuki.Ozawa

3月 10th, 2021 at 12:03 pm

Posted in Synapse Analytics

Tagged with

Synapse Analytics (Synapse Studio) でファイアウォール設定の挙動を確認する際のメモ

leave a comment

Synapse Analytics のファイアウォール設定や、プライベートエンドポイント経由でのアクセスを、Synapse Studio で確認していて、一部の項目がうまく表示されない場合などの調査時のメモを。

ファイアウォールで「Azure サービスおよびリソースに、このワークスペースへのアクセスを許可する」をオフにして、アクセスを厳しくしている場合の調査に使っていました。
image

Read the rest of this entry »

Written by Masayuki.Ozawa

2月 14th, 2021 at 11:01 pm

Posted in Synapse Analytics

Tagged with

Synapse Analytics のパイプライン / トリガーの実行状況の取得

leave a comment

Synapse Analytics は Azure Data Factory のようなパイプラインの実行機能を持っており、クラウドベースの ETL の実行を行うことができます。

Synapse Analytics と Data Factory のパイプラインの違いについては、Data integration in Azure Synapse Analytics versus Azure Data Factory に記載されており、いくつかの違いがあります。

image

Monitoring についても機能差があり、Synapse のパイプラインは Azure Monitor に統合が行われていません。
これにより、現時点では、パイプライン (またはトリガー) の実行状況の取得方法が、Data Factory とは異なります。

また、Azure Monitor と統合がされていないことにより、診断設定の利用可否も変わってくるかと思います。

Read the rest of this entry »

Written by Masayuki.Ozawa

12月 29th, 2020 at 10:41 pm

Synapse Analytics の Serverless SQL pool の分散クエリ処理エンジンについて

leave a comment

しばやん先生が Hack Azure! #4 – Synapse と Cosmos で実現するサーバーレスデータ分析 フォローアップ で紹介していますが、Synapse Analytics の Serverless SQL pool の分散クエリ処理エンジン (Distributed Query Processing Engine : DQP) については、POLARIS として、Microsoft Research から、「POLARIS: The Distributed SQL Engine in Azure Synapse」として、論文が公開されています。

論文を読むのはしんどいのですが、VLDB 2020 では、動画の公開も行われていましたので、こちらも合わせながら、ざっくりと眺めてみました。

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 11th, 2020 at 9:00 am

Posted in Synapse Analytics

Tagged with

Synapse Analytics の SQL on-demand の DB を跨いだクエリの実行について

leave a comment

Synapse Analytics (Workspace) の SQL on-demand (Serverless SQL Pool) では、次の形態の DB を利用することができます。

  • SQL on-demand 用のデータベース
    • OPENROWSET により、Data Lake / Synapse Link のデータを検索
    • SQL on-demand のメタデータオブジェクトを格納するためのデータベース
  • 共有データベース
    • Spark Pool と SQL on-demand でテーブルを共有するためのデータベース

従来の、Azure SQL Database では「論理サーバー」を使用した環境の場合、サーバーはエンドポイントとなっていました。
エンドポイント内に複数のデータベースを作成することはできるのですが、各データベースは独立したリソースで動作しているため、データベースを跨いだクエリの実行にはかなり制限がありました。

SQL on-demand の場合、Azure SQL Database の論理サーバーモデルとは異なり、データベースを跨いだクエリの実行ができるようです。

Azure Synapse SQL でサポートされる Transact-SQL 機能 で、サポートされる T-SQL の機能が記載されているのですが、SQL on-demand では、データベース間のクエリはサポートとなっています。

image

 

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 3rd, 2020 at 10:27 pm

Posted in Synapse Analytics

Tagged with

Synapse Analytics の SQL on-demand の共有メタデータ テーブルの照合順序について

leave a comment

SQL on-demand (Serverless SQL Pool) では、共有メタデータテーブル という形で Spark Pool で作製した Parquet フォーマットを使用したテーブルを、SQL on-demand で参照することができます。

先日投稿した、Synapse Analytics の Serverless SQL Pool (SQL on-demand) でテキストを参照する際の文字コードの設定 (おまけで Synapse Link for Cosmos DB) でも Synapse Analytics の照合順序に触れましたが、共有メタデータテーブルでも照合順序はポイントとなる点がありますので、触れておきたいと思います。

ドキュメントについては、SQL オンデマンド (プレビュー) で Apache Spark for Azure Synapse の外部テーブル定義を同期する を参照すると良いかと。

Read the rest of this entry »

Written by Masayuki.Ozawa

11月 2nd, 2020 at 10:17 am

Posted in Synapse Analytics

Tagged with