2021年8月31日火曜日

データ分析を始める人のための役立つ話

今回は、データ分析を始めようという人に役立つ話です。8/23にアップした「統計学が初めての(苦手な)人のための役立つ話」 の続編です。

 

1.自由度

回帰分析を行うとき、統計的検定を行うとき、多くの統計学的分析において「自由度」という概念が登場します。データ分析を始めたばかりの人は、回帰分析のF検定やt検定で目にすることが多いかもしれません。ところが、統計学を修めていない人にとって、この自由度はなかなか高い壁のようです。

そこで、まず次の記事を読んでみてはどうでしょうか?サンプルサイズがn,説明変数の個数がkのときに、回帰分析の残差の自由度がn-kになる理由を懇切丁寧に解説してくれます。これでもかというほどに丁寧に(泥臭く)順を追って説明しているので、統計学が苦手な人でもきっと理解できるようになるはずです。

回帰分析における残差の自由度がn-kになる理由をk元一次方程式で説明してみる」Qiita

 もう少しスマート(教科書的)に学びたい人にはこちらの記事をお薦めします。

統計分析を理解しよう:自由度の概念と活用について」ニッセイ基礎研究所コラム(生活研究部 主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任   金 明中)


2.母数

最初に次の記事の冒頭を読んでください。

「72時間ホンネテレビ」が示した可能性を遠回りしながら考える」ビデオコミュニケーションの21世紀〜テレビとネットは交錯せよ!〜(境 治:コピーライター/メディアコンサルタント) 

まず視聴率は人口あたりではなく世帯です。世帯視聴率なので母数を1億2千万人ではなく、世帯数で考えないといけない。最新の調査によると、日本には5747万7037世帯あるそうです(総務省の統計による、今年1月1日の数字です)。

「母数」が出てきました。視聴率の潜在的な対象である総人口を「母数」と呼び、世帯視聴率の場合には「母数」が世帯数になるということのようです。同じような使い方はこちらでも確認でき、年齢別視聴率の「母数」が年齢別人口であると書いてあります。

テレビって誰が見ているの?視聴率とは?…視聴率について教えてください!(1)」TELECY

このような母数の使い方は誤りです。すなわち、母数を対象グループの総数、分母、母集団の総数、などの意味で使うことは統計学の観点からは許容されません。検索すれば正しい用法や説明はいくらでも見つかりますが、例えば以下のような記事がわかりやすいと思います。

母数の意味と、分母の違い」統計学が わかった!

「母数」の意味と使い方」しましまにゃんこ

「母数」という単語の誤用と由来、他の漢字文化圏について」Qiita


3.ダミー変数

データには、性別、学歴、職業など、数字で表されない質的変数が数多くあります。ただし、調査においては便宜的に整理番号のような数字を当てはめ、データファイル内ではこれらの質的変数にも数字が入力されていることが多くあります。例えば、「男=1、女=2」のようなケースですが、この整理番号には特に意味がありません。つまり、「女=1、男=2」でも構いません。このような整理番号をそのまま分析することには意味がないので、質的変数をダミー変数に変換して量的分析を行います。

ダミー変数については、拙著の7章4節や8章に詳しい記述があります(担当は水落先生)。

畑農鋭矢・水落正明『データ分析をマスターするための12のレッスン』有斐閣.

また、下記ページ内に「質的データから量的データを予測する場合」や「ダミー変数への変換」などのわかりやすい解説があります。

Excel:重回帰分析(2)」高校数学の基本問題

分析の具体例としては、千葉商科大学の永岡先生による例題がとてもわかりやすい解説となっています。

例題:アパートの家賃(2)」2020年度・応用情報処理:第10回 重回帰分析(2)―変数選択

Kindle for PCでダウンロードできない本が現れたら

Kindleを愛用しています。専門書を除くと、Kindleで読む機会が劇的に増加しました。研究室の書棚を占拠せず、毎日の荷物を重くせず、混雑した電車内でもスマホで読める。むろん、Kindle以外の電子書籍でもよいわけですが、経路依存性によりKindleにロックインされています。 

ところが、ある日ある時、いくつかの購入済書籍を自宅PCのKindleで読めなくなってしまいました。ダウンロードし直すこともできません。こんなときの対処法は以下の記事にあるように再インストールです。

【解決】Kindle PC版『本が読めない・ダウンロードできない』の対処法

しかし、うまくいきません。Amazonのサポートに電話して助けてもらいましたが、さまざまな設定をしながら再インストール・再起動を繰り返しても一向に直る気配はありません。メインで使用しているデスクトップPCだけがダメで、他のモバイルPCでは読めるのです。終いにはAmazonのサポートも匙を投げ、モバイルPCやFire端末で読んでくださいと言われる始末です。しかし、メインで使うPCで読むことができないと、私にとってKindleの意味は半減します。

ここで、急に読めなくなった4冊を紹介しましょう。拙著が含まれている点はご容赦ください。いずれもプリント・レプリカという共通点はあるものの、プリント・レプリカでも読めるものもありますので、決定的な要因とは言えないようです。。

本間正明『日本の財政学---受難と挑戦の軌跡』日本評論社.

市村英彦・岡崎哲二・佐藤泰裕・松井彰彦(編)『経済学を味わう---東大1、2年生に大人気の授業』日本評論社.

浅野正彦・中村公亮『はじめてのRStudio エラーメッセージなんかこわくない』オーム社.

畑農鋭矢・水落正明『データ分析をマスターする12のレッスン』有斐閣アルマ.


でも、最終的にはネットの力を借りて解決できました。以下のような記事で紹介されている方法です。

Kindle for PC ダウンロードが完了しない問題の解決方法」fukuzublog(2019/09/16,2020/05/06更新)
Kindle for pcで本がダウンロードできない」Gonzブログ(2020/02/04)
Windows 10でKindleの本が開けないとき」よろず屋ありみちのブログ(2020/05/03)

対処法は簡単です。Kindleのオプション画面を開き。「コンテンツ」内の「現在のコンテンツフォルダ」を確認します。おそらくデフォルトでは「OneDrive」フォルダ(またはその下部フォルダ)を利用しているはずです。私の場合には、この「OneDrive」を他のフォルダに変更したところ、めでたく4冊の書籍を読むことができるようになりました。

同じような症状に悩まされている方には一度お試しになることをお勧めします。なお、不具合が直ったことをAmazonに伝えたところ、お詫びということでクーポン(300円分)をいただきました。これからもKindleにお世話になるということで、早速Kindle書籍の購入に利用いたしました。

 

 

 





2021年8月25日水曜日

対数が苦手な人のための学習ガイド

データ分析を学習する過程で避けて通れないのが「対数」の理解です。ところが、高校の数学で公式の暗記に終始しているからか、対数を苦手とする学生は後を絶ちません。対数を苦手とする学生は、対数が一体何の役に立つのか、疑問符だらけで授業を受けているのではないでしょうか。

そこで、対数の特徴を理解し、データ分析における対数の典型的な使い方を修得し、さらには対数の奥深さを垣間見ることを目的として、いくつかの記事・資料を紹介していきます。

 

1.対数をグラフの目盛りから考える

まずは、この動画を見てください。

2021対数とは?

手前味噌で申し訳ありませんが、私のある授業動画の一部を抜粋したものです。グラフの目盛りを対数表示に変換すると何が起こるのか、という視点から「対数」の特徴を説明しています。

 

2.対数の数学的基礎

特徴を大掴みにするために直観的理解はとても大切ですが、数学的な基礎を学んでおくこともそれと同じくらい重要です。

対数に関する初歩的な数学の解説はネット上に数多ありますが、私のお薦めは次の記事です。分かりやすく対数の性質を説明し、基本的な公式を示し、対数関数の微分・積分まで教えてくれます。「その1」とありますので、続編が期待されます。

「「対数」に、もう一度興味・関心を持ってみませんか(その1)」ニッセイ基礎研究所コラム(保険研究部研究理事   中村亮一)


3.対数と弾力性

データ分析、とりわけ回帰分析を行うにあたって、変数を自然対数に変換すると、係数として弾力性を推定できることはよく知られています。このことは対数関数の微分公式を知っていれば、簡単に確認することができますが、対数が苦手な人や数学そのものが苦手な人には厄介かもしれません。そんなときには次の記事が参考になります。自然対数に変換することの意味を懇切丁寧に解説してくれます。

対数変換を行う意味について。回帰分析において対数変換する背景にある前提とは?アタリマエ!

対数(自然対数)を理解しよう!-対数の定義と分析結果の解釈について-ニッセイ基礎研究所コラム(生活研究部 主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任   金 明中)


4.e、自然対数の底、ネイピア数

最後はeの話です。自然対数の底がe(e=2.71828・・・)と表されることはよく知られています。eの性質はとても興味深いものですが、それを直感的に理解するのはなかなか骨が折れます。そんな人には、ネイピア数とも呼ばれるeの性質を簡潔に解説したこの記事が有益だと思います。

ネイピア数eについて-ネイピア数とは何か、ネイピア数はどんな意味を有しているのか-」ニッセイ基礎研究所コラム(保険研究部研究理事   中村亮一)

また、その続編である以下2つの記事では、ネイピア数eが身近な問題や現実の問題とどのように関係するのかを紹介しています。

ネイピア数eについて(2)-ネイピア数は身近な数学的な問題の中でどのように現われてくるのか-」ニッセイ基礎研究所コラム(保険研究部研究理事   中村亮一)

ネイピア数eについて(3)-実際の社会における自然現象等の表現において、どのように現れてくるのか-」ニッセイ基礎研究所コラム(保険研究部研究理事   中村亮一)



2021年8月23日月曜日

統計学が初めての(苦手な)人のための役立つ話

これまでのゼミを振り返って、ゼミ生に繰り返し話している事柄はおそらく役立つことでしょう。ここでは3つの話題に絞ってネット上のお薦め解説記事を紹介します。1つめは「仮説検定」です。統計学初学者がつまずく定番と言えます。2つめは、呪われた言葉「サンプル数」です。統計学やデータ分析の専門家を目指すのであれば、「サンプル数」という言葉の使い方には注意しなければなりません。3つめは「合計特殊出生率」です。合計特殊出生率には2つの種類があるというお話しです。

 

1.仮説検定

仮説検定、有意水準、統計的に有意、などの言葉は多くの統計学初学者の鬼門となっています。 その重要性からネット上には多くの解説がありますが、以下は初学者にも分かりやすいと思われるお薦めのページです(易しい順)。

仮説検定とは?初心者にもわかりやすく解説!」AVILEN Trend

検定の基本的な考え:仮説検定

有意性検定の考え方」我楽多頓陳館

統計的有意差検定」新潟大学医学部保健学科 放射線技術科学専攻


2.サンプル数

我がゼミでは早い段階で「サンプル数」を使わないように指導します。同じ理由で「標本数」も×です。通常、サンプル数と表現されているものは、「サンプルサイズ」、「標本サイズ」、「標本の大きさ」、などと表現されるべきです。または、Number of observationsの直訳を用いると、「観測数」となるでしょうか。以下の解説記事は、「サンプル数」を使ってはいけない理由を分かりやすく説明したものです。

サンプル数とは何か?」独立行政法人労働政策研究・研修機構(JILPT研究員 堀春彦)

サンプル数とサンプルサイズ n は意味が違う」生物科学研究所 井口研究室

サンプル数とサンプルサイズの違いをわかりやすく解説」AVILEN Trend


3.合計特殊出生率

合計特殊出生率は「女性が生涯に生む平均的な子供の数」と定義され、↓のような記事でよく使われます。

晩婚化が進展、合計特殊出生率は低下…厚労省の出生統計」リセマム

ただし、次の記事を読むと、「期間合計特殊出生率」と「コーホート合計特殊出生率」と呼ばれる2種類の存在が示唆されます。

イギリスでも進む晩産化、30歳未満で産んだ人数は1人へ半減」日経BizGate(日本総合研究所創発戦略センター シニアマネジャー 村上芽)

2つの合計特殊出生率の解説は以下のページで読むことができます。

合計特殊出生率について」厚生労働省 平成23年 人口動態統計

女性が生涯に生む子供の数(合計特殊出生率)」総務省統計局

合計特殊出生率」京都市統計ポータル

コーホート合計特殊出生率の考え方は「コーホート分析」(コウホート分析)につながる重要なものです。コーホート分析の参考文献として統計数理研究所・中村隆先生の入門論文を紹介しておきましょう。

中村 隆(1987)「年齢・時代・世代の違いを探る--コウホート分析の方法--」『統計数理』 35(1), 103-107.





2021年8月20日金曜日

データ分析が初めての(苦手な)人のためのリンク集

今回は学部ゼミ生にデータ分析を教える過程でよく利用するネット上の情報源をまとめます。

1.Excelから

まずは以下の書籍を読むことをお薦めします。書籍情報はこちら。サポートページはこちら
畑農鋭矢・水落正明『データ分析をマスターするための12のレッスン』有斐閣.

次にサポートページにもありますが、Excelの散布図にラベル表示できるようになりましょう。例えば以下のページが参考になります。

初心者のためのOffice講座「散布図のラベル表示」
統計WEB「ラベル付き散布図の作り方」

Excelではピボットテーブルも使えると便利です。色々な解説サイトがありますが、例えば以下のページを参考にしてください。

いまさら聞けないExcelの使い方講座「【Excel】ピボットテーブルって何に使うの?エクセルで大量のデータを効率よく集計・分析するテク」

 

2.ExcelからRへ

Excelで本格的なデータ分析を行うのは難儀です。回帰分析1つとっても説明変数が16個までという制約があったりします。Excelの機能を拡張してくれるエクセル統計なる商品もありますが学生には高価です。
そこで、我がゼミでは無料の統計ソフト「R」を推奨しています。初めに提示した拙著の中でも使用しています。共著者の水落先生のサイトに解説があります。もっと細かな情報はこちらのWikiで。

RjpWiki

Rを簡単に使うためには、RコマンダーやRStudioが便利です。水落先生のサイトに解説があります。RStudioのダウンロードはこちら。Rのよいところは無料以外に、テキストやネット上の解説が豊富なことです。
しかし、残念ながら、色々な解説を読んでもなお、インストールや設定、データの読み込みに失敗してデータ分析を諦めてしまうゼミ生は後を絶ちません。そんな人にはRの簡易版ともいうべき「EZR」をお薦めします。

フリー統計ソフトEZR(自治医科大学附属さいたま医療センター)

EZRはRコマンダーをベースに、最初から多くの統計分析を使うことができるようにアレンジされています。医学統計分析のためにチューニングされているため、そのままで経済分析に適しているわけではありませんが、自分で細かい設定を行わずに済みます。利用する場合はマニュアルに記載のあるように論文内に引用を行うとよいでしょう。

 

3.やっぱりExcelで!「HAD」

それでも、Rは敷居が高いというゼミ生は一定数残ります。そんなゼミ生にはExcel上で動く「HAD」 をお薦めしています。

統計分析ソフト HAD

関西学院大学・清水裕士先生が開発したもので無料で提供されています(サポートは歓迎とのことです)。また、HADにも教科書があります。
小宮あすか・布井 雅人『Excelで今すぐはじめる心理統計 簡単ツールHADで基本を身につける』講談社.

HADは心理学の分析のために作成されていますので、経済分析に必要な手法がすべて揃っているわけではないことに注意が必要です。 


4.その他

これ以外にも、StataEViewsSPSSなどの統計ソフトがよく利用されますが、(学生割引があるにしても)普通の学部生にとっては高価な代物です。所属大学のメディア教室などに行けば、備え付けのPCにインストールされているかもしれませんが、自分のノートPCや自宅のPCでは分析することができません。

そういうわけで、ゼミ生には第一に「R」を推奨、挫折するようなら「EZR」を紹介し、それでもダメなら「HAD」を提案するという段階を踏んでいます。



2020年5月6日水曜日

経済学が初めての(苦手な)人のための教科書リスト

 大学の講義の初回には、指定の教科書に加えてお薦めの図書を示し、各書の特徴を説明する光景がよく見られます。このブログの初回はそれに倣って、経済学を初めて勉強する1年生、すでに勉強したけれど苦手意識を克服できない2年生以上を念頭に、教科書リストを書いてみました。
 学部3・4年生向けの中級や大学院への橋渡しとなる上級も記しましたが、これらは初めての人や苦手な人が手を出してはいけない教科書リストと理解してもよいでしょう。
 なお、これらのリストは私の経験と主観に裏打ちされているに過ぎないので、どの大学でも通用する一般性を有しているかは定かでありません。

●入門中の入門
教科書らしきものを読むのが大の苦手で、とにかく簡単なものという方向け。
小塩隆士(2002)『高校生のための経済学入門』ちくま新書.

ミクロ経済学の入門へうまく誘導してくれます。
坂井豊貴(2017)『ミクロ経済学入門の入門』岩波新書.

●入門:ミクロとマクロを包含した入門教科書で、どれも似た内容です
N.G.マンキュー(2019)『マンキュー入門経済学 第3版』東洋経済新報社.
伊藤元重(2015)『入門経済学 第4版』日本評論社.
J.E.スティグリッツ・C.E.ウォルシュ(2012)『スティグリッツ入門経済学 第4版』東洋経済新報社.

●ミクロ経済学
<入門>明治大学商学部の必修科目「経済学A」程度
伊藤元重(2018)『ミクロ経済学 第3版』日本評論社.
安藤至大(2013)『ミクロ経済学の第一歩』有斐閣.
N.G.マンキュー(2019)『マンキュー経済学I ミクロ編(第4版)』東洋経済新報社.

<入門の次>明治大学商学部の1・2年生向け「ミクロ経済学」程度
P.クルーグマン・R.ウェルス(2017)『クルーグマン ミクロ経済学 第2版』東洋経済新報社.
D.アセモグル・D.レイブソン・J.リスト(2020)『ミクロ経済学』東洋経済新報社.
S.レヴィット・A.グールズビー・C.サイヴァーソン(2017)『レヴィット ミクロ経済学 基礎編』東洋経済新報社
八田達夫(2008)『ミクロ経済学 I』東洋経済新報社.

<学部中級>学部3・4年生
八田達夫(2009)『ミクロ経済学 II』東洋経済新報社.
S.レヴィット・A.グールズビー・C.サイヴァーソン(2018)『レヴィット ミクロ経済学 発展編』東洋経済新報社.

<学部上級>大学院への橋渡し
神取道宏(2014)『ミクロ経済学の力』日本評論社.

●マクロ経済学
(入門)明治大学の必修科目「経済学B」程度
福田慎一・照山博司(2016)『マクロ経済学・入門 第5版』有斐閣.
平口良司・稲葉大(2015)『マクロ経済学――入門の「一歩前」から応用まで』有斐閣.
N.G.マンキュー(2019)『マンキュー経済学I マクロ編(第4版)』東洋経済新報社.

 <入門の次>明治大学商学部の1・2年生向け「マクロ経済学」程度
P.クルーグマン・R.ウェルス(2019)『クルーグマン マクロ経済学 第2版』東洋経済新報社.
D.アセモグル・D.レイブソン・J.リスト(2019)『マクロ経済学』東洋経済新報社.
柴田章久・宇南山卓(2013)『マクロ経済学の第一歩』有斐閣ストゥディア.

<学部中級>学部3・4年生
齊藤誠・岩本康志・太田聰一・柴田章久(2016)『マクロ経済学 新版』 有斐閣.
C.I.ジョーンズ(2011)『マクロ経済学 I 長期成長編』,(2011)『マクロ経済学 II 短期変動編』東洋経済新報社.

<学部上級>大学院への橋渡し
S.D.ウィリアムソン(2012)『マクロ経済学 I 入門篇』,(2012)『マクロ経済学 I 応用篇』東洋経済新報社.
齊藤誠(2006)『新しいマクロ経済学――クラシカルとケインジアンの邂逅 新版』有斐閣.

開設のご挨拶

新しいブログを開設しました。

旧ブログ(2011年3月3日~2014年11月7日)もそのまま残っています。
もう一度よく考え直してみてよ(Try to reconsider carefully)
https://hatano1113.wixsite.com/blog
これらの記事のうち、2014年2月25日までの記事はオリジナル版から移行したものです。

オリジナル版のアーカイブ(2011年3月3日~2014年2月25日)はこちらです。
もう一度よく考え直してみてよ
http://web.archive.org/web/20140814112606/http://hatano1113.blogzine.jp/

データ分析を始める人のための役立つ話

今回は、データ分析を始めようという人に役立つ話です。8/23にアップした「 統計学が初めての(苦手な)人のための役立つ話 」 の続編です。   1.自由度 回帰分析を行うとき、統計的検定を行うとき、多くの統計学的分析において「自由度」という概念が登場します。データ分析を始めたばか...