インプレス[コンピュータ・IT]ムック グランドマスター三冠のKaggleノートブック開発術
インプレス / 2025年02月19日 / 全361ページ
著者はKaggleの3つのカテゴリーでグランドマスターを獲得。本書では、これまでに培った技術をもとに、さまざまなデータ分析の手法を解説。Kaggleの基本機能から、分析・可視化の基礎、地理情報や画像データの分析、テキスト分析、時系列データ処理、ディープフェイク動画検出などを取り上げます。また、LangChainとLLMを使ったRAGシステムの構築も解説。データサイエンス/機械学習プラットフォーム&コミュニティのKaggleにおいて、本書を手がかりに、データ分析技術を幅広く習得しつつ、コンテストへの挑戦も目指していきましょう。
目次
- 口絵
- 本扉
- サンプル・正誤表・免責など
- まえがき
- 著者紹介、レビュー担当者紹介
- 謝辞
- はじめに
- 本書の内容
- 目次
- 第1章 Kaggleとその基本機能
- 1.1 Kaggleプラットフォーム
- 1.2 Kaggle Competitions
- 1.3 Kaggle Datasets
- 1.4 Kaggle Code
- 1.5 Kaggle Discussions
- 1.6 Kaggle Learn
- 1.7 Kaggle Models
- 1.8 本章のまとめ
- 第2章 Kaggleノートブック作成の準備
- 2.1 Kaggle Notebooksとは何か2.2 ノートブックを作成する方法
- 口絵
- 本扉
- サンプル・正誤表・免責など
- まえがき
- 著者紹介、レビュー担当者紹介
- 謝辞
- はじめに
- 本書の内容
- 目次
- 第1章 Kaggleとその基本機能
- 1.1 Kaggleプラットフォーム
- 1.2 Kaggle Competitions
- 1.3 Kaggle Datasets
- 1.4 Kaggle Code
- 1.5 Kaggle Discussions
- 1.6 Kaggle Learn
- 1.7 Kaggle Models
- 1.8 本章のまとめ
- 第2章 Kaggleノートブック作成の準備
- 2.1 Kaggle Notebooksとは何か2.2 ノートブックを作成する方法
- 2.3 ノートブックの機能を探索する2.3.1 基本的な機能
- 2.3.2 高度な機能
- 2.4 Kaggle APIを使ったノートブックの作成、更新、ダウンロード、監視
- 2.5 本章のまとめ
- 第3章 Kaggleという旅の始まり―タイタニック号事件の分析
- 3.1 タイタニック号の悲劇3.2 データを検査する
- 3.2.1 データを理解する
- 3.2.2 データを分析する
- 3.3 単変量解析を行う
- 3.4 多変量解析を行う
- 3.5 乗客の名前から意味のある情報を抽出する
- 3.6 複数のプロットを表示するダッシュボードを作成する
- 3.7 ベースラインモデルを構築する
- 3.8 本章のまとめ
- 3.9 参考資料
- 第4章 単変量二変量地理空間分析の方法―パブとスターバックス
- 4.1 イギリスのパブ4.1.1 データ品質のチェック
- 4.1.2 データ探索
- 4.2 世界中のスターバックス4.2.1 予備的なデータ分析
- 4.2.2 単変量解析と二変量解析
- 4.2.3 地理空間分析
- 4.3 ロンドンのパブとスターバックス
- 4.3.1 データの前処理
- 4.3.2 地理空間分析
- 4.4 本章のまとめ
- 4.5 参考資料
- 第5章 データ分析に基づくストーリーと仮説検証―発展途上国向け小口融資とMeta Kaggle
- 5.1 Data Science for Good: Kiva Crowdfundingコンペティション
- 5.2 Kivaコンペティションの分析:データが増えるほど、洞察は深まる5.2.1 借り手の人口統計を理解する
- 5.2.2 MPIと他の要因との相関を探る
- 5.2.3 レーダーチャートで貧困の次元を可視化する
- 5.2.4 最後に5.3 データセットごとに異なるストーリーを伝える
- 5.3.1 プロット5.3.2 実際の推移
- 5.3.3 結論
- 5.4 本章のまとめ5.5 参考資料
- 第6章 画像データ分析―ミツバチの亜種を予測
- 6.1 データ探索6.1.1 データ品質をチェックする
- 6.1.2 画像データを探索する
- 6.1.3 場所
- 6.1.4 日付と時刻
- 6.1.5 亜種
- 6.1.6 健康状態
- 6.1.7 その他6.1.8 結論
- 6.2 亜種の分類6.2.1 データを分割する
- 6.2.2 データ拡張
- 6.2.3 ベースラインモデルを構築する
- 6.2.4 モデルを反復的に改善する
- 6.3 本章のまとめ
- 6.4 参考資料
- 第7章 テキスト分析―単語埋め込み、双方向LSTM、Transformer
- 7.1 データ探索
- 7.1.1 目的変数7.1.2 センシティブな特徴量
- 7.2 コメントテキストを分析する
- 7.2.1 トピックモデリング
- 7.2.2 固有表現抽出(NER)
- 7.2.3 品詞タグ付け
- 7.3 モデルを準備する
- 7.3.1 語彙を構築する
- 7.3.2 埋め込みインデックスと埋め込み行列
- 7.3.3 語彙のカバレッジを確認する
- 7.3.4 語彙のカバレッジを反復的に改善する
- 7.4 ベースラインモデルを構築する
- 7.5 Transformerベースのソリューション
- 7.6 本章のまとめ7.7 参考資料
- 第8章 音響信号の分析による模擬地震の予測
- 8.1 LANL Earthquake Predictionコンペティション8.2 信号データのフォーマット
- 8.3 コンペティションデータを探索する
- 8.3.1 ソリューションのアプローチ
- 8.4 特徴量エンジニアリング8.4.1 トレンド特徴量と従来のSTA/LTA
- 8.4.2 FFTベースの特徴量
- 8.4.3 集約関数を使って計算された特徴量
- 8.4.4 ヒルベルト変換とハン窓を使って計算された特徴量
- 8.4.5 移動平均に基づく特徴量
- 8.5 ベースラインモデルを構築する
- 8.6 本章のまとめ8.7 参考資料
- 第9章 ディープフェイク動画を探す
- 9.1 Deepfake Detection Challengeコンペティション
- 9.2 コンペティションのユーティリティスクリプト9.2.1 動画データを可視化するユーティリティスクリプト
- 9.2.2 顔と体を検出するユーティリティスクリプト
- 9.3 メタデータを探索する
- 9.4 動画データを探索する9.4.1 サンプルファイルを可視化する
- 9.4.2 物体検出を実行する
- 9.5 本章のまとめ
- 9.6 参考資料
- 第10章 Kaggleモデルで生成AIの能力を引き出す
- 10.1 Kaggle Models
- 10.2 基盤モデルのプロンプトを作成する10.2.1 モデルの評価とテスト
- 10.2.2 モデルの量子化
- 10.3 LangChainを使ってマルチタスクアプリケーションを構築する
- 10.4 Kaggle Modelsを使ったコード生成
- 10.5 RAGシステムを作成する
- 10.6 本章のまとめ
- 10.7 参考資料
- 第11章 旅の終わり―存在感を保ち、トップであり続けるために
- 11.1 成功したGrandmasterから学ぶ
- 11.2 ノートブックの定期的な見直しと改善
- 11.3 他のユーザーの貢献を評価し、あなたならではのタッチを加える
- 11.4 スピードが命:完璧になるまで待たない11.5 寛大であれ:知識を共有する
- 11.6 コンフォートゾーンから飛び出す
- 11.7 感謝の気持ちを持つ11.8 本章のまとめ
- 11.9 参考資料
- 索引
- 翻訳書プロフィール
- 奥付
※このデジタル雑誌には目次に記載されているコンテンツが含まれています。それ以外のコンテンツは、本誌のコンテンツであっても含まれていません のでご注意ください。
※電子版では、紙の雑誌と内容が一部異なる場合や、掲載されないページがある場合があります。