Build 2019 でアナウンスの合った、Azure Data Factory (ADF) の Mapping Data Flow と Wrangling Data Flow についてメモを残しておこうかと。
Azure Data Factory では、パイプラインの他に、次の 2 種類のデータフローを作成することができます。
- Mapping Data Flow
- Wrangling Data Flow
Mapping Data Flow については Build 以前に使用できるようになっていましたが Wrangling Data Flow は Build での発表かと。
Mapping Data Flow についは Public Preview ですので、こちらはすぐに使用できるかと。
従来までの ADF は、ノンコーディングで使用する場合は、ETL ではなく、EL での用途が多かったのではないでしょうか。
変換については、Azure Batch や、SSIS パッケージ等を使用することで実装する必要があったのではないかと思います。
Mapping Data Flow はノンコーティングでデータの変換を行うことができます。
ドキュメントとしては次のようなものが公開されています。
- Azure Data Factory のデータ フローを作成する
- Azure Data Factory の Mapping Data Flow について
- Azure Data Factory の Mapping Data Flow の参照変換
Mapping Data Flow は Data Flow のオブジェクトとして作成ができ、次の画像のように、様々な変換処理を利用することができます。
ADF 単体で SSIS の変換タスクのようなことができるようになっていますね。
実装については こちら のドキュメントに記載されています。
Mapping Data Flow は、GUI で簡単に変換処理を設定できるものとなりますが、設定した内容は、Databrics により実行されるようになっており、スケールアウトされた環境として処理が実行されるようです。
既存の列の加工や、新しい列の追加については、式を設定することで設定できるよういなっていますので、条件を指定して加工をすることもできます。
作成した Mapping Data Flow は、パイプラインに組み込むことができますので、フローの流れの中に変換処理を入れることができます。
新しく追加された Wrangling Data Flow については、現状は Private Preview ですので、すぐに試すことはできません。
検索していたところ Wrangling Data Flow というドキュメントが公開されていました。
このドキュメントは Build で ADF のスピーカーだった方の Github のリポジトリのようですね。
Wrangling Data Flow ですが、Power Query M 言語 により、データの加工ができるフローのようです。
上述のドキュメントを確認すると、実際の画面も確認することができます。
PowerBI のような操作感でデータの前処理 / 後処理をすることができるようですね。
最終的には Spark として実行されるようで、この部分でも Databrics が使われていそうですね。
今回、導入された Data Flow によって、ADF でのデータの加工の容易性が向上するのではないでしょうか。