このすみノート

Webエンジニアが技術や趣味を書くブログです。

大規模データの分散処理を学ぶ。ビッグデータを支える技術を読んだ感想

紀伊国屋で先行販売していたので買ってみました。

全体の感想としては、非常に読みやすい本です。「Hadoopとは何?」レベルの私でも、読み進めることがでました。

何故ビッグデータを支える技術が必要なのか?

一般的なシステムであれば、RDBを選択するでしょう。しかしながら、大量のデータ書き込みや複雑な統計解析などが必要とされる場合、RDBではどうしても性能がボトルネックになります。

そこで、Hadoopによる分散処理や、書き込み性能や柔軟性を高めたNoSQLといった技術が登場することになるのです。

データを蓄積と探索する

データは、主に蓄積するプロセスと加工するプロセスに分けることができます。蓄積とはデータを溜めることですが、単純に貯めていくとストレージ容量がパンクしてしまったり、データが溜まり続けることによって性能劣化を引き起こす可能性があります。

探索(加工)プロセスでは、データを探索し、加工してBIツールなどで表示するためのデータを生成します。加工プロセスは、蓄積された大量のデータを元に実行する必要があるため、どうしても時間がかかってしまいます。

ビッグデータを蓄積するためには、それ相応のシステムが必要であり、ビッグデータから必要となる情報を高速に取り出すためにも、それ相応のシステムが必要です。

感想

ビッグデータの基礎知識から始まって「データ探索」「分散処理」「データの蓄積」「パイプラインによるリアルタイムデータ処理」の一連の流れを解説した本です。

6章で実践編があるものの、対象データの特性によって必要となるデータ分析は変わると思います。また、そこまで深く入り込んだ実践という程でもないので、この本を読めばデータ分析ができるようになるかと言うと、そこまでではない気がしています。

ただ、AIにしろ機械学習にしろ多くのデータを必要としますし、データを上手に扱えないエンジニアはハンデを背負うことになりますので、ごく一般的なエンジニアであっても知っておいて損はない内容かなと思いました。

何せ、難しいと感じているHadoopやビッグデータ周りの技術を平易に解説した本なわけですから、これは中々に貴重な書籍かもしれません。

更新履歴

  • 2024/06/16 軽微な修正