SE の雑記

SQL Server の情報をメインに Microsoft 製品の勉強内容を日々投稿

Archive for 3月, 2019

Managed Instance の機能アップデート状況を確認してみる (2019/3/30 時点)

leave a comment

Managed Instance (MI) の機能アップデートですが、Feedback サイトにいくつか興味深いものが上がっており、私のセミナーの中でも紹介をさせていただいています。
Ignite で発表されたものの状況も少しきなったので、投稿時点の状況を調べてみました。
MI の機能アップデートの状況については、 REST API のプロパティにも先行で追加されているケースがありますので、こちらも併せてみておくとよさそうですね。
Read the rest of this entry »

Written by Masayuki.Ozawa

3月 30th, 2019 at 4:49 pm

Posted in Managed Instance

Tagged with

SQL Server 2019 CTP 2.4 がリリースされました

leave a comment

だいたい月次リリースで SQL Server 2019 の CTP がリリースされているのですが、2.4 がリリースされました。
まさか 3 月に 2 回 CTP がリリースされるとは…。

新機能の詳細はこちら。

データベースエンジン回りと、SSAS に機能向上が行われています。
データベースエンジン
Big Data Cluster
詳細は Release notes for big data clusters on SQL Server の CTP 2.4 の情報から。

  • Big Data Cluster の GPU サポート
    • Spark で TensorFlow を使用して深層学習を実行するための GPU サポートについてのガイダンスが公開されました。
      Deploy a big data cluster with GPU support and run TensorFlow
    • ガイダンスでは AKS を GPU インスタンスを使用して構築し、そのうえで Big Data Cluster の構築を行っています。
      • Big Data Cluster を使用する場合に設定するレポジトリが GPU 向けの設定となっているようです
  • 外部データソースの手動作成
    • CTP 2.3 までは、DataPool / Storage Pool の外部データソースが作成されていたのですが、CTP 2.4 から作成されなくなったため、手動で作成をする必要があります。
      External tables
    • model に事前に設定しておいてあげると、新規 DB 作成時に反映されて楽かもしれませんね。
  • Data Pool に対して INSERT INTO SELECT のサポート
    • CTP 2.3 までは、T-SQL を使用して Data Pool に対してデータを投入する際には、「sp_data_pool_table_insert_data」というストアドプロシージャを使用していたのですが、CTP 2.4 からは、ストアドプロシージャが廃止され、INSERT INTO SELECT により、Data Pool に対してデータ収集を行う方法となったようです。
      Tutorial: Ingest data into a SQL Server data pool with Transact-SQL
    • ある程度のまとまった行数を挿入する場合、複数の DB にレコードが分散されていました。
      (テスト時は、2700~3800 行ぐらいが分散単位となっていました)
  • Spark のバージョンが 2.4 にバージョンアップ
    • CTP 2.3 までは、Spark は 2.3.x が使用されていたのですが、2.4 が使用されるようになりました。
  • 外部テーブルに対して Compute Pool の利用の制御
    • 通常、外部テーブルへのアクセスについては、Master Instance から実行されます。
      これを Compute Pool 経由でアクセスするように実行するオプションが追加されました
      • OPTION(DISABLE SCALEOUTEXECUTION)
      • OPTION(FORCE SCALEOUTEXECUTION)

データベースエンジン

  • 文字列の切り捨てメッセージの動作の変更
  • クエリの実行プラン取得方法の機能向上
    • どちらも軽量クエリプロファイリングの使用時に、実際の実行計画に相当する情報を取得するための方法となり、軽量クエリプロファイリング v3 の一貫として追加されているようです。
      Lightweight query execution statistics profiling infrastructure v3
    • 拡張イベント : query_post_execution_plan_profile の追加
      • 軽量プロファイリングに基づいて取得された実行プランを、拡張イベントで収集するためには、このイベントを使用するようです。
    • DMV : sys.dm_exec_query_plan_stats の追加
      • 軽量プロファイリングに基づいて最後に実行された実際のクエリ実行プランを調べるための方法のようです。
        • 使用するためにはトレースフラグ 2451 が必要となります
  • 透過的データ暗号化 (TDE) の一時停止 / 再開のサポート

SSAS

  • 表形式モデルの多対多のリレーションシップのサポート (互換性レベル 1470 が必要)
  • メモリ設定のリソースガバナンス

Written by Masayuki.Ozawa

3月 28th, 2019 at 9:45 am

Posted in SQL Server

Tagged with ,

MS ブログの移転先 (2019/3/31時点)

leave a comment

Microsoft のシステムの刷新が行われているようで、MSDN / TechNet ブログが他の場所に移行されているようです。
日本のブログについては、TechNet フォーラム / MSDN フォーラムに移行されているパターンが多そうです。
把握できている範囲で、今後の情報取得先をまとめておこうかと。
(フォーラムについては、サポート等の用語が入っているフォーラムを抽出して、URL を機械的に生成したものですので間違っていたらすみません。。。)
SQL Server 関連で Tech Community に移行されたものについては、Welcome to the New SQL Server Blog! で対応が公開されています。
Read the rest of this entry »

Written by Masayuki.Ozawa

3月 24th, 2019 at 9:26 am

Posted in その他

Big Data Cluster のスケールアウトデータマートへのデータ投入の基本的な考え方

leave a comment

Big Data Cluster (BDC) はスケールアウトデータマートとしてのデータストアを持っています。

CTP 2.3 時点では、スケールアウトデータマートへのデータ投入は標準機能として、T-SQL と Spark ジョブを使用した、2 パターンが用意されています。

  1. チュートリアル:Transact SQL を使用した SQL Server のデータ プールにデータを取り込む
  2. チュートリアル:Spark ジョブの SQL Server のデータ プールにデータを取り込む

どちらのパターンでも基本的な操作方法は同じですが、少し特殊な形での利用となっていますので、まとめてみたいと思います。
Read the rest of this entry »

Written by Masayuki.Ozawa

3月 21st, 2019 at 10:39 pm

PySpark を使用して Big Data Cluster のストリーミング処理を書いてみる

leave a comment

チュートリアルで提供されているストリーミング処理はは、Scala で記述された「mssql-spark-lib-assembly-1.0.jar」なのですが、PySpark で書くとどうなるだろうと思って勉強がてら書いてみた際の内容です。
Microsoft の公式の技術文書ですと、Big Data Cluster に流用できる内容は、Azure HDInsight / Azure Databricks あたりになりますが、欲しい情報がなく、手探りでいろいろとやっていました。
Microsoft 関連のドキュメントとして、HDInsight Spark クラスターを使用して Azure SQL Database のデータを読み書きする あたりが今回の内容に近いのですが、

注意

現在、Spark から SQL Database へのデータのストリーミングは Scala と Java においてのみサポートされているので、この記事では、Spark (Scala) カーネルを使います。 SQL からの読み取りや SQL への書き込みは Python を使って行うこともできますが、この記事での一貫性を保つため、3 つの操作すべてに Scala を使います

と書かれているように、Scala を使用した例となっています。
Spark の勉強と、Python を使用した場合の情報を探すのに手間取り、書いたアプリケーションの内容の割には、とても時間がかかりました… orz
Read the rest of this entry »

Written by Masayuki.Ozawa

3月 21st, 2019 at 11:22 am