『データ分析の基礎』生成AIではじめる統計・データサイエンス

         

本研究会で監修した,生成AIを活用した統計・データサイエンスの基礎が学習できる本が発売されます。

ChatGPTのような,データ分析を対話型で実行し分析の深堀りを支援する生成AIが登場したことで,これまでとは異なるアプローチでデータ分析が可能になりました。

本書では,このようなChatGPTの活用法を具体的な実行事例で紹介し,会話を通じてデータ分析をどのように行えるかを学んでいきます。

従来の統計ツールとは一線を画す新しいデータ分析の形を体験し,デジタル時代の新しいデータに基づく思考法を身につけるきっかけとなる,データ分析の入門書です。

高等学校や大学での授業実践を通して,培われた内容が詰まった1冊となっておりますので,是非一度ご覧ください。

また,本ページでは、本書の読者の皆さまが、本書に沿って操作を練習するためのサンプルデータを提供しています。

もくじ

  • 第1章 データの理解とChatGPTの力
  • 第2章 ChatGPTと学ぶ統計学基礎
  • 第3章 データ分析と可視化
  • 第4章 データサイエンスの基本モデル活用 ~重回帰分析、主成分分析、クラスタリングを用いた探究事例を例にして~  
  • 第5章 検証のためのPythonを用いたコーディング環境構築入門
  • 第6章 データおよびデータ分析倫理とGPT使用上の注意点

本書で使用しているデータのダウンロードについて

日本統計学会統計教育分科会 (編集),JDSSP 高等学校データサイエンス教育研究会 (編集)の『データ分析の基礎-生成AIではじめる統計・データサイエンス』(東京図書)で用いているデータは,下記のようにサンプルデータのダウンロードが可能です.

本書の読者の皆さまが,本書に沿って操作を練習するためのサンプルデータを提供しています.

なお,以下の注意事項にご注意ください.

データのダウンロードについて

第1章 データの理解とChatGPTの力

第2章 ChatGPTと学ぶ統計学基礎

第3章 データ分析と可視化

第1節 散布図行列

115ページ,119ページの散布図行列で使用した気象データ

115ページおよび119ページの散布図行列で使用した神戸市の気象データは,気象庁のウェブサイト「過去の気象データ検索」からダウンロードしたデータをもとに作成しています.

データの入手方法:

1.気象庁ウェブサイトの「過去の気象データ・ダウンロード」ページにアクセスします.

2.「地点」「項目」「期間」「表示オプション」を選択します.

・地点の選択例: 兵庫県 > 神戸

・項目の選択例: 月別値 > 平均気温,降水量の合計,日照時間等

・期間の選択例: 2020年1月から2021年12月まで

3.「CSVファイルをダウンロード」ボタンをクリックしてデータを取得します.

本書での使用データについて:

115ページ: 上記手順でダウンロードした日ごとの気象データを,月ごとの平均値に集計したものを使用しています.データには,平均気温 (Average Temp),月降水量の合計 (Rainfall),月間日照時間 (Sunshine),平均風速 (WindSpeed) が含まれます.

【提供データ名: 115p_data.xlsx

119ページ: 115ページのデータに,月ごとに季節を分類する「season」列(11月~1月: 1,2月~4月: 2,5月~7月: 3,8月~10月: 4)を追加したものを使用しています.

【提供データ名: 119p_data.xlsx

第2節 ツリーマップ,第3節 サンバーストチャート

124ページおよび125ページで使用した都道府県別の出生数に関するデータは,独立行政法人統計センターが提供する「SSDSE-市区町村」のデータセットから,「出生率」に関する項目を抽出して使用しました 。

データの出典:

・独立行政法人 統計センター: SSDSE-市区町村(SSDSE-B)

(URL: https://www.nstac.go.jp/use/literacy/SSDSE/ )

第4節 サンキーダイアグラム

128ページで使用したサンキーダイアグラムのデータは,著者らが独自に作成したものです.Source(A~E)からTarget(D~H)への移動量(Value)を示したデータとなります.

【提供データ名: 128p_data.xlsx

第4章 データサイエンスの基本モデル活用 ~重回帰分析、主成分分析、クラスタリングを用いた探究事例を例にして~  

第2節  重回帰分析を用いたスマートフォン価格の分析事例

 【 スマートフォン価格データ.csv

(出典:https://www.kaggle.com/datasets/rkiattisak/mobile-phone-price/data

*一部加工済みのデータとなります.

第3節 主成分分析を用いた企業の財務分析事例

 【 企業の財務データ.csv

第4節 クラスタリングを用いたアンケート分析事例

 【 旅行者行動特性調査_国籍別.csv

(出典:https://data.tourism.metro.tokyo.lg.jp/policy/

*一部加工済みのデータとなります.

第5章 検証のためのPythonを用いたコーディング環境構築入門

第3節 体力測定データの分析

分析用疑似データセットと参考コードファイル

提供するデータ・分析のコードファイル

第4節 Github公開データセットの活用:フィギュアスケートのジャンプの分析事例

ジャンプ分析事例に関する提供データ

(出典:https://github.com/ryota-skating/FS-Jump3D )

第6章 データおよびデータ分析倫理とGPT使用上の注意点

編集

  • 日本統計学会統計教育分科会
  • JDSSP高等学校データサイエンス教育研究会
おすすめの記事