SE の雑記

SQL Server の情報をメインに Microsoft 製品の勉強内容を日々投稿

Build 2021 で発表された Synapse Analytics のアップデート

leave a comment

Build 2021 の SQL Server ベースの環境の発表については、Build 2021 のタイミングで発表された SQL Server / SQL Database のアップデート に Synapse も含めて書いてみましたが、Synapse 単体でもいくつかのドキュメントの更新が行われていますので、Synapse Analytics のみで、一度アップデートの内容を把握しておきたいと思います。

アップデートの内容

Synapse のアップデートについては、次のような内容が発表されました。

Spark 3.0 のサポート

アナウンス

Synapse の Spark Pool で Spark 3.0 のランタイムがプレビューとして利用可能になりました。
最終的な GA のタイミングでは 3.1 のブランチをベースとしたバージョンとなるようです。

これに伴い、Azure Synapse runtimes のドキュメントも Spark 3.0 が含まれたものに更新されています。

Spark 3.0 の機能強化については、Spark 3.0 のリリースノート で触れられており、様々な機能強化のメリットが Synapse Analytics の Spark Pool でも受けられるようになります。

Spark 2.4 の Spark Pool では、Delta Lake 0.6.1 のサポートでしたが、3.0 になったことで、Delta Lake 0.8 がサポートされるようになりました。(GA 時には、Spark 3.1 になるようなのでその際には、1.0 系を使用することができるようになるのかと)

Delta Lake 0.8 の変更点については Delta Lake 0.8.0 Released を確認するとよさそうです。(1.0 のリリースドキュメント も公開されています)

NVIDIA GPU アクセラレーション

アナウンス

Synapse Analytics の Spark Pool (Spark 3.0) で GPU を活用するという選択肢が追加されます。(現在はリクエスト制のプレビュー)

GPU クラスターを使用することで、データエンジニアリング / データ準備 / 機械学習の性能向上につながるようですね。
機械学習を使用しない Spark の一部の処理にも効果があるようですので、機械学習以外の環境への適用も可能なようですね。

 

Serverless SQL プールの Delta Lake のサポート

アナウンス

Synapse の Feedback として Add support for "Delta Lake" file format in Azure Data Lake Store / HDFS の要望が以前より出ており、今回のタイミングで Serverless SQL プールで Delta Lake サポートが追加されました。

Spark プール以外で、Delta Lake へのアクセスについては、Using Delta Tables in Azure Synapse Dedicated/Serverless SQL Pools / How to read Apache Delta Lake format in serverless Synapse SQL pools などで、議論や実装の取り組みが行われていましたが、今回ネイティブでサポートされるようになりました。

Serverless SQL プールの OPENROWSET で 「FORMAT=’DELTA’」が使用できるようになったことで、Delta Lake に直接アクセスすることが可能となりました。
また、OPENROWSET を使用した、ビューを作成しておくことで、Delta Lake を直接読み込むことができないアプリケーションに対しても、SQL Server へのアクセスができるインタフェースがあれば、Serverless SQL プールを介して Delta Lake 上のデータを提供できるようになります。

Delta Lake 関連のドキュメントについては、次のようなものが公開されており、既存のドキュメントも Delta Lake 対応に更新されています。

Delta Lake については、Azure のドキュメントであれば、Databricks のドキュメントでいろいろと触れられているかと思いますが、Synapse でも次のようなドキュメントで触れられています。

  • Delta Lake とは
    • Data Lake に Delta Lake を使用することで、どのような機能が活用できるようになるについて触れられています。
  • Linux Foundation Delta Lake の概要
    • Spark を使用した Delta Lake の操作について触れられています。

Synapse Link for Dataverse

アナウンス

Dataverse を Dataverse の環境と同一リージョンの Synapse ワークスペースにリンクすることができるようになりました。
設定方法については次のドキュメントに記載されています。

ドキュメントに記載されていますが「データレイクへのエクスポート」機能が、Build 2021 のタイミングで名称が変更され、従来の ADL Gen2 だけでなく、Synapse Analytics ワークスペースを対象にして、Dataverse のデータを継続的にエクスポートすることで、Serverless SQL プール経由で Dataverse のデータを活用することができるようになります。

 

まとめ

Spark / Delta Lake はそろそろ学習しないとですねぇ。。。。

Written by Masayuki.Ozawa

5月 30th, 2021 at 11:04 pm

Posted in Synapse Analytics

Tagged with

Leave a Reply

Share via
Copy link
Powered by Social Snap