Less is more.

学んだことなどについて書きます。

「Apache Hive Essentials」を読んだ

業務でHiveを使う機会が出てきたので、Apache Hive Essentialsを読みました。  

 オライリーのHive本にするか迷ったんだけど、発行年が古かったので最近発行で良さそうなの探してこれにしました。

プログラミング Hive

プログラミング Hive

 

 

どんな本?

Hiveの概要からインストール、パフォーマンス関連などの一通りの内容が簡潔にわかりやすく説明されていたのでHive初心者が概要を知るのにはよかったです。

英語も平易で読むのにそれほど時間はかかりませんでした。

ただ集約関数などのクエリの例がわかりにくい部分があったのが少し残念でした。(境界値の例が不足していたりで例としてわかりにくかった)

 

役に立った部分

Performance Considerationの章がクエリプランの見方やファイルのフォーマット、圧縮方法などが説明されていて設計、運用時に役立ちそうです。

またJoinの章の下記も知らなかったので参考になりました。

 

 パフォーマンスとOOM回避のために大きなテーブルをJOINの右端にする方が良い

もしくはヒント句(/*+ STREAMABLE (table_name) */)を使う

 

逆に集約関数とかクエリとかはSQL知っていれば流し読みで良いかなという内容でした。

 

200ページ無い薄い本なので概要についてざっと見るには良い本ですが、もう少し内部構造とか知りたい場合はオライリーの本読んだ方が良さそうだと思いました。