2019 3月 21 at SE の雑記

SQL Server の情報をメインに Microsoft 製品の勉強内容を日々投稿

Archive for 3月 21st, 2019

Big Data Cluster のスケールアウトデータマートへのデータ投入の基本的な考え方

PySpark を使用して Big Data Cluster のストリーミング処理を書いてみる

チュートリアルで提供されているストリーミング処理はは、Scala で記述された「mssql-spark-lib-assembly-1.0.jar」なのですが、PySpark で書くとどうなるだろうと思って勉強がてら書いてみた際の内容です。
Microsoft の公式の技術文書ですと、Big Data Cluster に流用できる内容は、Azure HDInsight / Azure Databricks あたりになりますが、欲しい情報がなく、手探りでいろいろとやっていました。
Microsoft 関連のドキュメントとして、HDInsight Spark クラスターを使用して Azure SQL Database のデータを読み書きするあたりが今回の内容に近いのですが、

注意

現在、Spark から SQL Database へのデータのストリーミングは Scala と Java においてのみサポートされているので、この記事では、Spark (Scala) カーネルを使います。 SQL からの読み取りや SQL への書き込みは Python を使って行うこともできますが、この記事での一貫性を保つため、3 つの操作すべてに Scala を使います

と書かれているように、Scala を使用した例となっています。
Spark の勉強と、Python を使用した場合の情報を探すのに手間取り、書いたアプリケーションの内容の割には、とても時間がかかりました… orz
Read the rest of this entry »

Written by Masayuki.Ozawa

3月 21st, 2019 at 11:22 am

Posted in SQL Server

Tagged with Big Data Cluster, SQL Server, SQL Server 2019

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

SE の雑記

Archive for 3月 21st, 2019

Big Data Cluster のスケールアウトデータマートへのデータ投入の基本的な考え方

PySpark を使用して Big Data Cluster のストリーミング処理を書いてみる

検索

アーカイブ

最近の投稿

カテゴリー