今回は、データ分析を始めようという人に役立つ話です。8/23にアップした「統計学が初めての(苦手な)人のための役立つ話」 の続編です。
1.自由度
回帰分析を行うとき、統計的検定を行うとき、多くの統計学的分析において「自由度」という概念が登場します。データ分析を始めたばかりの人は、回帰分析のF検定やt検定で目にすることが多いかもしれません。ところが、統計学を修めていない人にとって、この自由度はなかなか高い壁のようです。
そこで、まず次の記事を読んでみてはどうでしょうか?サンプルサイズがn,説明変数の個数がkのときに、回帰分析の残差の自由度がn-kになる理由を懇切丁寧に解説してくれます。これでもかというほどに丁寧に(泥臭く)順を追って説明しているので、統計学が苦手な人でもきっと理解できるようになるはずです。
「回帰分析における残差の自由度がn-kになる理由をk元一次方程式で説明してみる」Qiita
もう少しスマート(教科書的)に学びたい人にはこちらの記事をお薦めします。
「統計分析を理解しよう:自由度の概念と活用について」ニッセイ基礎研究所コラム(生活研究部 主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任 金 明中)
2.母数
最初に次の記事の冒頭を読んでください。
「「72時間ホンネテレビ」が示した可能性を遠回りしながら考える」ビデオコミュニケーションの21世紀〜テレビとネットは交錯せよ!〜(境 治:コピーライター/メディアコンサルタント)
まず視聴率は人口あたりではなく世帯です。世帯視聴率なので母数を1億2千万人ではなく、世帯数で考えないといけない。最新の調査によると、日本には5747万7037世帯あるそうです(総務省の統計による、今年1月1日の数字です)。
「母数」が出てきました。視聴率の潜在的な対象である総人口を「母数」と呼び、世帯視聴率の場合には「母数」が世帯数になるということのようです。同じような使い方はこちらでも確認でき、年齢別視聴率の「母数」が年齢別人口であると書いてあります。
「テレビって誰が見ているの?視聴率とは?…視聴率について教えてください!(1)」TELECY
このような母数の使い方は誤りです。すなわち、母数を対象グループの総数、分母、母集団の総数、などの意味で使うことは統計学の観点からは許容されません。検索すれば正しい用法や説明はいくらでも見つかりますが、例えば以下のような記事がわかりやすいと思います。
「母数の意味と、分母の違い」統計学が わかった!
「「母数」の意味と使い方」しましまにゃんこ
「「母数」という単語の誤用と由来、他の漢字文化圏について」Qiita
3.ダミー変数
データには、性別、学歴、職業など、数字で表されない質的変数が数多くあります。ただし、調査においては便宜的に整理番号のような数字を当てはめ、データファイル内ではこれらの質的変数にも数字が入力されていることが多くあります。例えば、「男=1、女=2」のようなケースですが、この整理番号には特に意味がありません。つまり、「女=1、男=2」でも構いません。このような整理番号をそのまま分析することには意味がないので、質的変数をダミー変数に変換して量的分析を行います。
ダミー変数については、拙著の7章4節や8章に詳しい記述があります(担当は水落先生)。
畑農鋭矢・水落正明『データ分析をマスターするための12のレッスン』有斐閣.
また、下記ページ内に「質的データから量的データを予測する場合」や「ダミー変数への変換」などのわかりやすい解説があります。
「Excel:重回帰分析(2)」高校数学の基本問題
分析の具体例としては、千葉商科大学の永岡先生による例題がとてもわかりやすい解説となっています。
「例題:アパートの家賃(2)」2020年度・応用情報処理:第10回 重回帰分析(2)―変数選択