沼津暮らし

沼津で暮らしているウェブエンジニアが雑多に書くブログ

ビッグデータについてまとめていきたいと思う

ビッグデータが理解しきれずこのタイトルをつけてしまって後悔している。

この記事ではデータ関連について書いた記事をまとめたいと思います。

ビッグデータとは?

ビッグデータ - Wikipedia

wikiでは大量にデータがあるので従来の手法では扱うことが困難なデータと書いている。

僕が得意なのはデータを集め、それを加工する部分なのでここに記載されている検索や可視化などは初心者と変わらないです。

最初はデータを扱うための手段や関連した部分のOSSとの連携を中心に記事を書ければと思います。

データ関連

schema-on-read から schema-on-write への変化

カラムナーフォーマットとHDFSのファイル数とデータサイズの葛藤

Double をより小さく保存する方法を探す

gzip のバッファサイズの最適値を調べてみる ベンチマークで推移を調査

スキーマレスとは? 何となく理解できるけど定義が無い気がする

クエリエンジン関連

Hive , Presto , Drill のプッシュダウンの考察

Apache Drill

Apache Drill をインストールする

 

Apache Spark

Apache SparkのFileFoarmatでデータソースを追加する方法を試す