書評『LightGBM予測モデル実装ハンドブック』(と、わたしが書評とブログを書く理由)

はじめに

LightGBMをはじめとする勾配ブースティング決定木って、Kaggleでも人気のアルゴリズムですし、テーブルデータを扱う場合は第一選択ですよね。でも使いこなすにはパラメータチューニングや特徴量エンジニアリングが必要だなあ…ということで本書を手に取りました。特定のアルゴリズムに特化した書籍ってそんなに多くないと思うので、攻めたなあと思いました。

2023年6月に出た新しい本です。

Amazonの説明

本書は実践知を基にLightGBMの仕組みや実務への活用方法をハンズオン形式で学ぶ技術書です。LightGBMはレコード数が1,000万件を越える大規模データでも数時間でモデル学習でき、予測精度が高く、実装がシンプルという開発運用に適した特徴を兼ね揃えた機械学習アルゴリズムです。

本書の目標は以下の2つです。

目標1 LightGBMの理解ためには、逆説的ですが「LightGBM以外」の仕組みを具体的に理解する必要があると、筆者は考えています。そこで、本書は機械学習の基礎となる「線形回帰」、勾配ブースティングの基礎となる「決定木(回帰木)」の仕組みを最初に整理し、続いて、回帰木→勾配ブースティング→XGBoost→LightGBMとアルゴリズムごとの工夫(前提条件)を数式を交えて理解する構成にしています。

目標2 実務活用は探索的データ解析(EDA)、クロスバリデーション、特徴量エンジニアリング、ハイパーパラメータ最適化の精度改善の実装を通じて、実務で役立つ考え方や運用で注意すべき点を学べるようにハンズオンします。また、実務は精度の改善と並んで、予測値の説明性が大事になります。そこで、予測値を特徴量の貢献度で分解し、予測値の原因を分析します。

全体の感想

せっかくLightGBMに特化した本なのに、内容は機械学習入門編といった感じで、この本を読んでもLightGBMを使いこなせるわけではないと思いました。特徴量エンジニアリングやOptunaを使ったパラメータチューニングについても触れられていますが、紹介といった感じで詳しく知るには不十分な分量です。LightGBMを使いこなすためのテクニック本と思って購入したので、ちょっと残念です。

本の構成もあまりよくないと思っていて、各章で回帰分析や決定木が繰り返し出てきます。LightGBMの本なのだから、この辺は既知のものとしてしまってよかったのではないでしょうか。LightGBMの理論については、なんと最終章に説明があって、本の締めとしてすっきりしない構成だと思います。最初にLightGBMの理論やアルゴリズムについて説明して(飛ばして実務を読んでも理解できる構成だとなおよい)、その後はLightGBMを使いこなすためのテクニックをふんだんに盛り込んでほしかったな…

機械学習初学者にとっては、scikit-learnのアルゴリズムをいろいろ学びつつ、機械学習のテクニックについてinputする本がいいと思っていて、そういう構成の良書は他にもたくさんあるのですよね。本書は機械学習中級者にとっては得るところが少ないし、初心者にとっては他にもっと効率よく学べる本があるという感じで、どういう人をターゲットにしているのかわからないなあ。LightGBMを冠する本ならば、パラメータチューニングや特徴量エンジニアリングについて深く理解でき、テーブルデータの扱いが身につくようなものが期待されていると思うんですよね。

ただ、機械学習の説明性というところで、SHAPを用いて特徴量を解釈するところがあって、それは参考になりそうだなと思いました。

いまは、典型的なデータの扱いやライブラリの使い方についてはChatGPTに聞くとある程度書いてくれちゃうので、そういうことではなくデータの取り扱いのような、経験が必要な技術について解説している本が欲しいんですよ。

そういう意味で言うと、わたしはKaggle対策本を読むといいのかもしれません。

名著と名高い『Kaggleで勝つデータ分析の技術』は積読してあるので、読んでみます。

Pythonで動かして学ぶ!Kaggleデータ分析入門』も、評判がいいですね。

ということで、個人的にはちょっとがっかり…だったのですが、テーブルデータの分析から始めてみたい初心者の人には新しくていいと思いますので、ご興味のある方は読んでみてください。

おまけ・わたしが書評とブログを書く理由

本って、読んでみるまでいい本かどうかわからないですよね〜新しい本だとAmazonのレビューもありませんし。目次を読んでみるとよさそうかどうかだいたいわかることもあるのですが、文体が好みかどうかとか、説明がわかりやすいかどうかは本文を読まないとわからない。

あ、本を書店で購入する人は立ち読みできるので、購入するか判断できていいですね。わたしは物理的に本を増やしたくなくて、本はできるだけKindleで購入しているので、中身がわからないのです。とはいえ紙本派の人でも、このような専門書は販売している書店も少ないので、通販サイトで買う人が多そうな気がします。

そういうときに書評ブログあるといいかな、というのがブログを書く理由の一つです。高価な本で買うかどうか迷うときはタイトルをgoogle検索することがあります。

ブログを始めた一番の理由は「アウトプットしてみたいから」だったのですが、最近は「ブログを書くために本を読もう」「ブログを書くためにもっとインプットしよう」と思えていて、モチベーションがアップしたので、ブログを始めて本当に良かったです。

10月に応用情報を受けるつもりなので、そろそろ試験勉強に集中しないといけないな〜と思っています。需要があるかどうかわかりませんが、自分の勉強のために、応用情報の勉強で学んだことを整理してちょこちょこブログにアップしようかな。

1ヶ月に2,3冊のペースで書評を書くことを目標にしていますが、今後は書評だけでなくものづくりもしていきたいな〜と思っています。マイペースにブログを更新していきますので、読んでいただけると嬉しいです。

コメント

タイトルとURLをコピーしました