SQL Server 2019 の新機能である Big Data Cluster は Kubernetes 上に展開された SQL Server on Linux をインタフェースとして、Hadoop のエコシステムを活用することができるデータ分析基盤になります。
いままで触ってこなかったソフトウェアが大量に含まれていたので、軽くまとめた一覧を。
コンポーネントが多いので、HDInsight のように、まとまった情報が欲しいですね。
役割 |
ソフト |
バージョン |
URL |
実行基盤 |
Kubernetes |
1.10 以降 |
|
リバースプ |
nginx |
nginx version: nginx/1.10.3 (Ubuntu) |
|
データ |
Apache Hadoop |
Hadoop 2.9.1 |
|
|
Apache Hive |
1.2.1 |
https://cwiki.apache.org/confluence/display/Hive/LanguageManual |
|
Apache Livy |
0.5.0 |
|
|
Apache Spark |
2.3.1 |
https://spark.apache.org/ |
認証 |
Apache Knox |
1.1.0 |
|
|
Apache Ranger |
0.7.0.2.6.4.0-9 |
|
ログ収集 |
Fluent Bit |
Fluent-Bit v0.13.5 |
|
|
Kibana |
6.3.1 |
|
|
Elastic Search |
6.3.2 |
https://www.elastic.co/jp/products/elasticsearch https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html |
|
Grafana |
Version 5.2.2 |
|
|
InfluxDB |
1.5.3 |
|
|
Telegraf |
1.6.0 |
https://www.influxdata.com/ |
|
Collectd |
5.5.1 |
|
プロセス |
Supervisor |
3.2.0 |