『データ分析の基礎』生成AIではじめる統計・データサイエンス
本研究会で監修した,生成AIを活用した統計・データサイエンスの基礎が学習できる本が発売されます。
ChatGPTのような,データ分析を対話型で実行し分析の深堀りを支援する生成AIが登場したことで,これまでとは異なるアプローチでデータ分析が可能になりました。
本書では,このようなChatGPTの活用法を具体的な実行事例で紹介し,会話を通じてデータ分析をどのように行えるかを学んでいきます。
従来の統計ツールとは一線を画す新しいデータ分析の形を体験し,デジタル時代の新しいデータに基づく思考法を身につけるきっかけとなる,データ分析の入門書です。
高等学校や大学での授業実践を通して,培われた内容が詰まった1冊となっておりますので,是非一度ご覧ください。
また,本ページでは、本書の読者の皆さまが、本書に沿って操作を練習するためのサンプルデータを提供しています。
もくじ
- 第1章 データの理解とChatGPTの力
- 第2章 ChatGPTと学ぶ統計学基礎
- 第3章 データ分析と可視化
- 第4章 データサイエンスの基本モデル活用 ~重回帰分析、主成分分析、クラスタリングを用いた探究事例を例にして~
- 第5章 検証のためのPythonを用いたコーディング環境構築入門
- 第6章 データおよびデータ分析倫理とGPT使用上の注意点
本書で使用しているデータのダウンロードについて
日本統計学会統計教育分科会 (編集),JDSSP 高等学校データサイエンス教育研究会 (編集)の『データ分析の基礎-生成AIではじめる統計・データサイエンス』(東京図書)で用いているデータは,下記のようにサンプルデータのダウンロードが可能です.
本書の読者の皆さまが,本書に沿って操作を練習するためのサンプルデータを提供しています.
なお,以下の注意事項にご注意ください.
-
提供データは,本書で使用しているものと必ずしも同一ではありません.
-
書籍に登場するデータの趣旨を生かして操作練習しやすいように,一部の列名やカテゴリは書籍に合わせて調整していますが,加工・再構成した架空のデータも含まれます.そのため,分析結果は書籍内と異なる場合がありますが,手順の学習や操作の練習を目的としたものであること,本データを使用して行った分析や判断の結果について,著者および出版社は一切の責任を負わないことを予めご理解の上,ご利用ください.
-
本サンプルデータは,書籍の購入者による個人学習目的に限り利用可能です.
-
データの転載・再配布・二次利用はご遠慮ください.
データのダウンロードについて
第1章 データの理解とChatGPTの力
第2章 ChatGPTと学ぶ統計学基礎
第3章 データ分析と可視化
第1節 散布図行列
115ページ,119ページの散布図行列で使用した気象データ
115ページおよび119ページの散布図行列で使用した神戸市の気象データは,気象庁のウェブサイト「過去の気象データ検索」からダウンロードしたデータをもとに作成しています.
データの入手方法:
1.気象庁ウェブサイトの「過去の気象データ・ダウンロード」ページにアクセスします.
2.「地点」「項目」「期間」「表示オプション」を選択します.
・地点の選択例: 兵庫県 > 神戸
・項目の選択例: 月別値 > 平均気温,降水量の合計,日照時間等
・期間の選択例: 2020年1月から2021年12月まで
3.「CSVファイルをダウンロード」ボタンをクリックしてデータを取得します.
本書での使用データについて:
・115ページ: 上記手順でダウンロードした日ごとの気象データを,月ごとの平均値に集計したものを使用しています.データには,平均気温 (Average Temp),月降水量の合計 (Rainfall),月間日照時間 (Sunshine),平均風速 (WindSpeed) が含まれます.
【提供データ名: 115p_data.xlsx】
・119ページ: 115ページのデータに,月ごとに季節を分類する「season」列(11月~1月: 1,2月~4月: 2,5月~7月: 3,8月~10月: 4)を追加したものを使用しています.
【提供データ名: 119p_data.xlsx】
第2節 ツリーマップ,第3節 サンバーストチャート
124ページおよび125ページで使用した都道府県別の出生数に関するデータは,独立行政法人統計センターが提供する「SSDSE-市区町村」のデータセットから,「出生率」に関する項目を抽出して使用しました 。
データの出典:
・独立行政法人 統計センター: SSDSE-市区町村(SSDSE-B)
(URL: https://www.nstac.go.jp/use/literacy/SSDSE/ )
第4節 サンキーダイアグラム
128ページで使用したサンキーダイアグラムのデータは,著者らが独自に作成したものです.Source(A~E)からTarget(D~H)への移動量(Value)を示したデータとなります.
【提供データ名: 128p_data.xlsx】
第4章 データサイエンスの基本モデル活用 ~重回帰分析、主成分分析、クラスタリングを用いた探究事例を例にして~
第2節 重回帰分析を用いたスマートフォン価格の分析事例
【 スマートフォン価格データ.csv 】
(出典:https://www.kaggle.com/datasets/rkiattisak/mobile-phone-price/data)
*一部加工済みのデータとなります.
第3節 主成分分析を用いた企業の財務分析事例
【 企業の財務データ.csv 】
第4節 クラスタリングを用いたアンケート分析事例
(出典:https://data.tourism.metro.tokyo.lg.jp/policy/)
*一部加工済みのデータとなります.
第5章 検証のためのPythonを用いたコーディング環境構築入門
第3節 体力測定データの分析
分析用疑似データセットと参考コードファイル
第4節 Github公開データセットの活用:フィギュアスケートのジャンプの分析事例
(出典:https://github.com/ryota-skating/FS-Jump3D )
第6章 データおよびデータ分析倫理とGPT使用上の注意点
編集
- 日本統計学会統計教育分科会
- JDSSP高等学校データサイエンス教育研究会