Redash の次にくるのは superset!! - Airbnb 謹製の BI ツールが OSS で
Redash (re:dash) 流行ってますね。
最近 Github をにわかに賑わせている OSS が superset です。
superset とは
公式説明によると
data exploration platform
とのことですが、僕の感覚的にはこれはつまり、いわゆる Business Intelligence (以下 BI) Tool です。そう、Tableau のような。
- OSS (Apache 2.0)
- サーバーサイドは Python で書かれている
- Flask や pandas、SQLAlchemy などを利用
- さまざまなデータソースに対応 (MySQL, Redshift、SparkSQL など)
- グラフ描画の種類が豊富
- Role や Permission についてある程度細かく設定可能
- Airbnb Engineering チーム謹製
superset ざっと見
インストール方法は公式ドキュメントのとおりです。
あるいは Docker image を利用します。
初期設定をすませて、SQLite 上に展開されているサンプルデータセットを使ったダッシュボードにアクセスしてみると
ふぁっ!? (二度見
ふぁー (椅子からすべり落ちる
...
ごく簡単な利用方法としては、対象のデータソース (最も単純な場合、データーベースの中の1テーブル) を選択し、Filter や Group By 対象のカラムを選択し、描画したいグラフのパターンを選択してグラフを生成します。
例えば以下は、サンプルデータセットの誕生日データの円グラフです。
グラフの種類を選択できます。
棒グラフに変更。
謎の Words Cloud。
SQL 記述の支援ツールもついていて、クエリ結果はその場で確認できます。
Redash の違いと superset の可能性
superset をまだ使い込んでいるわけではないうえでの感想である点をご了承ください。
印象としては、Redash はなにはともあれ SQL が起点だったのに対して、superset は GUI でできることが非常に多いです。視覚表現も豊かで (実用度はさておき) 楽しくなるようなダッシュボードを組み立てられます。
重複する部分もあるとは思うのですが、
- Redash: いちど SQL から組み立てた指標とグラフを定期的にモニタリングしていくのに便利
- superset: Filter や Group By をいじりながら、インタラクティブにデータを探索してくのに便利
という使い分けになるのかなぁという気がしています。
サービスやプロダクトの改善のために社内でダッシュボードを構築する気運は高まるいっぽうです。BI 界隈の動きとしては、ここ数年勢いの止まらない Tableau の他にも、Google Data Studio や Amazon QuickSight など大型のツールも登場してきています。
superset は OSS ということもあり、社内ダッシュボード構築をまず始めてみるにはこれでいいのでは!? と思わせるようなインパクトがあります。
流行ると思います。
IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集
- 作者: Cyrille Rossant,菊池彰
- 出版社/メーカー: オライリージャパン
- 発売日: 2015/12/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
- 作者: Jenny Zhang
- 出版社/メーカー: Packt Publishing
- 発売日: 2017/01/05
- メディア: Kindle版
- この商品を含むブログを見る