2022年07月29日
すごい統計学
とーとつですが・・・
すごい統計学・・・であります

ええ、数式いっさいなし!とゆー惹句に惹かれて・・・
著者、発行所、発行年月日については奥付のとおり

今年5月に出たばかりの新刊であります
例によって目次のみのご紹介






確かに素人にも解かりやすくて面白く、まさに目からウロコでした。
わたくしも典型的な文系で数字や数式を見ただけで心が折れますし、ネットやSNSの広告や
フェイクニュースにもだまされやすく、昔とある国家試験を受けるように勧められた際も、
試験科目に統計学があったので結局は受けずじまいだったぐらい・・・経済学も苦手だったけど・・・
以下は素人による読後メモですが、当然ながら本書では表やグラフを使った説明が殆どで、
当然ながら文章だけではよく分からないので、興味のある方は是非本書のご熟読を・・・
・統計学を身につけることでエビデンス(根拠)のない判断を避けることができる
→サザエさんの「じゃんけんコーナー」で71%の勝率(1991-2022で664勝272敗)の例
(乱数表とかでランダムなら50%だが同じ担当者が決めるからクセが出る→統計学が使える)
・質的データ
①名義尺度→区別・分類するため→性別・血液型・住所など→大小・優劣・順位などはない
→最頻値などは出せる
②順序尺度→順位・好みなど→平均値は出せないが中央値・最頻値などは出せる
・量的データ
③間隔尺度→摂氏温度・知能指数など→目盛りが等間隔なので加減でき平均値は出せるが
乗除はできない
④比例尺度→絶対温度・身長・売上高など→絶対的な0が存在するので四則計算ができる
→平均値・中央値・最頻値などが出せる
・これらの尺度(型)を知ることがデータを扱う際の「最低限のリテラシー」
・見えないデータ
→葛飾北斎の「見えない風」の描写方法
→アメリカ軍爆撃機のドイツ軍弾痕分布からの分析例→生存者バイアスの排除が重要
・平均値・中央値・最頻値
・勤労者世帯(2人以上)別「貯蓄現在高」分布グラフ(2020総務省統計局)の例
→棒グラフではなく横幅が2倍になったヒストグラム(柱状グラフ)
→横にも連続性があり面積で大きさを比べるもの
→平均値1791万円は高額の「外れ値」に引っ張られたもの→「ふつう」ではない
→中央値1061万円は順にならべた場合の真ん中の値→これぐらいが「ふつう」?
→最頻値100万円未満はデータで一番多く出てくる値
→きれいな正規分布の場合は三者がほぼ一致するが、これは18倍の差が出ている
・グラフの型によって「ふつう」をどこにするかが変わる(身長の例も)
→右に裾を引くグラフでは平均値は大きめに、左の場合は逆になる
→会議資料などでは中央値か平均値をメインに最頻値を参考に添えるのが正直な使い方
・株価予測グラフの例→外れ値に影響されない中央値を活用すると有用な情報になる
→(外れ値に影響される)平均値は変化に対応する→中央値は変化には弱い
(5人の毎週末テストの例→40,50,60,70,80が翌週に45,55,60,75,85になれば、
平均値は60から64に変化するが中央値は60のままで変化しない)
・社員の睡眠時間の例→階級分けを未満・以上にするか以下・超にするかで最頻値が変わる
→最頻値は相当なデータ数があって階級分けの方法に影響されない場合に使える
→社員の通勤時間や遅刻時間などでは最頻値が実情を掴みやすい
・暗号解読や誰の文章かを推定する場合は頻度なので最頻値一択
・それぞれにメリット・デメリットがあるので条件に合わないツールは使わない
・子どもの成績や身長の予測→差の縮小→平均への回帰→回帰分析
・正規分布・平均値・標準偏差
・平均値からのバラツキの大きさ(グラフの幅の広さ)は、
→高校3年生の身長>鶏のタマゴの重さ>クギ(工業製品)の長さになるが、
→どれも正規分布で平均値の標準偏差±1倍に68.3%、2倍に95.5%、3倍に99.7%が入る
→数学テストでは標準偏差が大きく正規分布は幅広に、作文テストでは逆になるが結果は同じ
→統計学ではこの正規分布の性質を使い仮説を立ててエビデンスを導き出す(仮説検定)
・正規分布で平均点や標準偏差がわかれば異なる2つを比較できる
→平均0で標準偏差1とした正規分布が標準正規分布(偏差値は平均50、IQは平均100)
・正規分布ではない(わからない)分布には平均値ではなく中央値を活用
→中央値に似て標準偏差のようにバラツキ範囲を示すのが四分位範囲(50%)
→四分位範囲の箱に最大値・最小値のヒゲを付けたのがローソク足(株価チャートなど)
・あみだくじの横棒はパチンコのクギと同じで少ないほど真ん中に行く確率が高い
・地震予知の統計学からのアプローチ(略)
・著者による2つの統計学の違い
→記述統計学(一般にはグラフや表に記述)→全数調査したデータを使う統計学
→推測統計学(一般にはサンプルから母集団を推測)→サンプル調査したデータを使う統計学
→データを代表値(平均・中央・最頻)や最大値・最小値にして分析
→それにより対策や提案を目指すのが統計学
・早くて安い推測統計学
→サンプル調査の点推定と区間推定
→区間推定で母集団の平均値や標準偏差を推測するのが推測統計学→誤解やミスリードも
→全体を縮小したサンプルになっているか(みそ汁の味見、購読新聞の例)がポイント
→1936年の大統領選挙予想→大手のサンプリング・ミス(数は多いが富裕層に集中した)
→視聴率、内閣支持率などの誤差の範囲(略)→意識する姿勢が必要
・数学的確率と統計的確率(コイン投げ→ギャンブラーの誤謬)→実績(統計)で考える
・帰納法(仮説検証)は反例で崩れる→1697年のブラックスワン発見→統計学の仮説検定
→確率5%以下が統計では判定基準→フィッシャーによる危険率
→帰無仮説を立てる→数値判断で棄却する→対立仮設を採択する
(最初に線引きラインを決めておく)
→コイン投げ20回で有意水準5%以下(15回以上続けて表)ならイカサマかコインが歪んでいると判断、
14回までなら、たまたまと判断する(15回以上の「たまたま」もあることに注意)
→これが片側検定→怪しいコインだがどちらが出るかはっきりしない場合が両側検定2.5%
→新薬の優位性を調べるなら片側検定、非劣勢性も調べるなら両側検定?
→ズルが生まれないよう、調べる内容によって方法を最初に決める
・スマホ顔認証で本人なのに認証しない過誤と他人なのに認証する過誤の例え
・統計のα過誤(本人なのに認証しないようなもの)
→正しく帰無仮説を立てた(対立仮説が正しかった)のに検証データでは棄却できなかった場合
・統計のβ過誤(他人なのに認証するようなもの)
→間違っていた帰無仮説を棄却し、対立仮設を採択してしまった場合
・危険率(有意水準)を大きくすると他人まで認証し、小さくすると本人でも認証しなくなる
→すべてトレードオフの関係→なので危険率の設定は重要→冤罪と死刑の関係
→判断ミスをゼロにしきれないので危険率という考えがある
→「メンデルの法則」疑惑からバラツキの捏造、エニグマ解読後の偶然の範囲内での行動
→統計学は「だまし・だまされる方法」としても使われる
・コオロギの1分間に鳴く回数と温度の関係→正の相関関係→最大は1
→因果関係がある場合は必ず分布図に相関関係が見えるが逆ではない
→ニコラスケイジの年間映画出演回数と、全米の年間プール溺死者数との相関が0.67!!!
→メーン州の離婚率とマーガリン1人あたり消費量との相関が0.99!!!
・・・とかは偶然の相関(それでも陰謀論になるのが面白い
)
→信号機の数と交通事故の数の相関は別の要因(面積・人口・クルマ台数など)による疑似相関で、
因果関係があるとして信号機を減らせば大変なことになる!!!
・その相関が偶然なのか疑似相関なのか本当に因果関係があるのか
→それを誰もが納得する形で示すのがエビデンスで有名な検証作業がランダム化比較試験RCT
・雰囲気や忖度ではなく誰もが納得する客観的な根拠がエビデンス
→ただし悪い傾向の際にエビデンスを待てば手遅れになる→GOTOトラベルの例
・RCT→新薬、新パッケージなどのテスト→A/Bテスト→ランダム化が重要
→2008年大統領選でのオバマ陣営の資金集めの成功例
(動画と静止画で6、キャッチフレーズで4の24候補にホームページを訪れた支持者31万人を
ランダムに誘導した結果、プロの選んだ候補とは別の組み合わせが最高の成果に)
・PCR検査の例
→直感的には全員検査だが数値を押さえて見ていくと(略)全体としての非効率を生み出す
→個人の健康診断も同じ、パニックにならず統計学による冷静な判断で二次検査へ
・明治の陸軍と海軍の脚気対策の例
→海軍の軍医総監・高木兼寛は軍艦2隻に分けてRCTを実施して分析、原因が栄養にある
と判断(当時ビタミンB1は未解明)、食事を白米と副食代(下級兵士は使わず仕送りしていた)から
洋食と麦飯に変更し、僅か2年で海軍の脚気患者や死者は激減した。
→陸軍の軍医総監・森林太郎(鴎外)は細菌説に固執し理論重視、海軍での事実を無視し続け、
日清戦争では公式記録でも軍人20万人のうち脚気患者が4万1431人、戦死者は997人で脚気
による死亡者が4064人(海軍は3人)、日露戦争では全傷病者35万のうち脚気患者が21~25万、
全病死者37200人のうち脚気死亡者は28000人、頑固な思い込みで多くの人命を失った
→リーダーがエビデンスを信用し活用するか、自説と異なると無視し何も手を打たないか、
→これはもはや統計学の出る幕ではなくリーダーの資質、トップがどう扱うかの問題
・相関関係より因果関係が大事だが、待っていては間に合わない場合もある
・19世紀イギリスでコレラ禍を最小限に食い止めたジョン・スノウの例
→汚染との因果関係が分からず空気感染と信じられていたが離れた場所でも発生していた
→共同井戸の位置と患者の発生位置を地図にプロットして発生源を特定し給水を停止
→コレラの拡大が収まった
→この共同井戸を調べるとレンガが壊れており汚水の流入が確認できた
→メカニズムはわからなくても相関で発生原因をつかみ封じ込めた
→さらに水道会社別の死亡者数と1万軒あたり死亡者数を調べた
→テムズ川の下流で取水していた会社が圧倒的に高かった→その水道を使わないことにした
→どちらも相関関係だけで対策を練り行政に行動を促した
(コレラの感染メカニズムが解明されたのは30年後)
・因果関係の証明や明確なエビデンスがないからと、何もしないのは無作為の作為
→因果関係が完璧にわかるまでの対策、特に人命に関わる場合は相関関係を見て早めに動くこと
・ちから試しクイズ
→10日間の株価が上がるか下がるか100%予測するシステムというメールが来て全て的中した。
→あなたはこれに投資するか?
(10日間で全1024通りを10万人にメールすれば・・・)
→東京都の新型コロナ新規感染者数の10週間の推移表を見て、11週目からの増減予測は?
(実数を見れば減少傾向が続いているが直近の増減率の傾向を見れば・・・)
ええ、ともかく数式がなく無事に最後まで読めたので、めでたしめでたし・・・
すごい統計学・・・であります

ええ、数式いっさいなし!とゆー惹句に惹かれて・・・

著者、発行所、発行年月日については奥付のとおり

今年5月に出たばかりの新刊であります
例によって目次のみのご紹介






確かに素人にも解かりやすくて面白く、まさに目からウロコでした。
わたくしも典型的な文系で数字や数式を見ただけで心が折れますし、ネットやSNSの広告や
フェイクニュースにもだまされやすく、昔とある国家試験を受けるように勧められた際も、
試験科目に統計学があったので結局は受けずじまいだったぐらい・・・経済学も苦手だったけど・・・
以下は素人による読後メモですが、当然ながら本書では表やグラフを使った説明が殆どで、
当然ながら文章だけではよく分からないので、興味のある方は是非本書のご熟読を・・・
・統計学を身につけることでエビデンス(根拠)のない判断を避けることができる
→サザエさんの「じゃんけんコーナー」で71%の勝率(1991-2022で664勝272敗)の例
(乱数表とかでランダムなら50%だが同じ担当者が決めるからクセが出る→統計学が使える)
・質的データ
①名義尺度→区別・分類するため→性別・血液型・住所など→大小・優劣・順位などはない
→最頻値などは出せる
②順序尺度→順位・好みなど→平均値は出せないが中央値・最頻値などは出せる
・量的データ
③間隔尺度→摂氏温度・知能指数など→目盛りが等間隔なので加減でき平均値は出せるが
乗除はできない
④比例尺度→絶対温度・身長・売上高など→絶対的な0が存在するので四則計算ができる
→平均値・中央値・最頻値などが出せる
・これらの尺度(型)を知ることがデータを扱う際の「最低限のリテラシー」
・見えないデータ
→葛飾北斎の「見えない風」の描写方法
→アメリカ軍爆撃機のドイツ軍弾痕分布からの分析例→生存者バイアスの排除が重要
・平均値・中央値・最頻値
・勤労者世帯(2人以上)別「貯蓄現在高」分布グラフ(2020総務省統計局)の例
→棒グラフではなく横幅が2倍になったヒストグラム(柱状グラフ)
→横にも連続性があり面積で大きさを比べるもの
→平均値1791万円は高額の「外れ値」に引っ張られたもの→「ふつう」ではない
→中央値1061万円は順にならべた場合の真ん中の値→これぐらいが「ふつう」?
→最頻値100万円未満はデータで一番多く出てくる値
→きれいな正規分布の場合は三者がほぼ一致するが、これは18倍の差が出ている
・グラフの型によって「ふつう」をどこにするかが変わる(身長の例も)
→右に裾を引くグラフでは平均値は大きめに、左の場合は逆になる
→会議資料などでは中央値か平均値をメインに最頻値を参考に添えるのが正直な使い方
・株価予測グラフの例→外れ値に影響されない中央値を活用すると有用な情報になる
→(外れ値に影響される)平均値は変化に対応する→中央値は変化には弱い
(5人の毎週末テストの例→40,50,60,70,80が翌週に45,55,60,75,85になれば、
平均値は60から64に変化するが中央値は60のままで変化しない)
・社員の睡眠時間の例→階級分けを未満・以上にするか以下・超にするかで最頻値が変わる
→最頻値は相当なデータ数があって階級分けの方法に影響されない場合に使える
→社員の通勤時間や遅刻時間などでは最頻値が実情を掴みやすい
・暗号解読や誰の文章かを推定する場合は頻度なので最頻値一択
・それぞれにメリット・デメリットがあるので条件に合わないツールは使わない
・子どもの成績や身長の予測→差の縮小→平均への回帰→回帰分析
・正規分布・平均値・標準偏差
・平均値からのバラツキの大きさ(グラフの幅の広さ)は、
→高校3年生の身長>鶏のタマゴの重さ>クギ(工業製品)の長さになるが、
→どれも正規分布で平均値の標準偏差±1倍に68.3%、2倍に95.5%、3倍に99.7%が入る
→数学テストでは標準偏差が大きく正規分布は幅広に、作文テストでは逆になるが結果は同じ
→統計学ではこの正規分布の性質を使い仮説を立ててエビデンスを導き出す(仮説検定)
・正規分布で平均点や標準偏差がわかれば異なる2つを比較できる
→平均0で標準偏差1とした正規分布が標準正規分布(偏差値は平均50、IQは平均100)
・正規分布ではない(わからない)分布には平均値ではなく中央値を活用
→中央値に似て標準偏差のようにバラツキ範囲を示すのが四分位範囲(50%)
→四分位範囲の箱に最大値・最小値のヒゲを付けたのがローソク足(株価チャートなど)
・あみだくじの横棒はパチンコのクギと同じで少ないほど真ん中に行く確率が高い
・地震予知の統計学からのアプローチ(略)
・著者による2つの統計学の違い
→記述統計学(一般にはグラフや表に記述)→全数調査したデータを使う統計学
→推測統計学(一般にはサンプルから母集団を推測)→サンプル調査したデータを使う統計学
→データを代表値(平均・中央・最頻)や最大値・最小値にして分析
→それにより対策や提案を目指すのが統計学
・早くて安い推測統計学
→サンプル調査の点推定と区間推定
→区間推定で母集団の平均値や標準偏差を推測するのが推測統計学→誤解やミスリードも
→全体を縮小したサンプルになっているか(みそ汁の味見、購読新聞の例)がポイント
→1936年の大統領選挙予想→大手のサンプリング・ミス(数は多いが富裕層に集中した)
→視聴率、内閣支持率などの誤差の範囲(略)→意識する姿勢が必要
・数学的確率と統計的確率(コイン投げ→ギャンブラーの誤謬)→実績(統計)で考える
・帰納法(仮説検証)は反例で崩れる→1697年のブラックスワン発見→統計学の仮説検定
→確率5%以下が統計では判定基準→フィッシャーによる危険率
→帰無仮説を立てる→数値判断で棄却する→対立仮設を採択する
(最初に線引きラインを決めておく)
→コイン投げ20回で有意水準5%以下(15回以上続けて表)ならイカサマかコインが歪んでいると判断、
14回までなら、たまたまと判断する(15回以上の「たまたま」もあることに注意)
→これが片側検定→怪しいコインだがどちらが出るかはっきりしない場合が両側検定2.5%
→新薬の優位性を調べるなら片側検定、非劣勢性も調べるなら両側検定?
→ズルが生まれないよう、調べる内容によって方法を最初に決める
・スマホ顔認証で本人なのに認証しない過誤と他人なのに認証する過誤の例え
・統計のα過誤(本人なのに認証しないようなもの)
→正しく帰無仮説を立てた(対立仮説が正しかった)のに検証データでは棄却できなかった場合
・統計のβ過誤(他人なのに認証するようなもの)
→間違っていた帰無仮説を棄却し、対立仮設を採択してしまった場合
・危険率(有意水準)を大きくすると他人まで認証し、小さくすると本人でも認証しなくなる
→すべてトレードオフの関係→なので危険率の設定は重要→冤罪と死刑の関係
→判断ミスをゼロにしきれないので危険率という考えがある
→「メンデルの法則」疑惑からバラツキの捏造、エニグマ解読後の偶然の範囲内での行動
→統計学は「だまし・だまされる方法」としても使われる
・コオロギの1分間に鳴く回数と温度の関係→正の相関関係→最大は1
→因果関係がある場合は必ず分布図に相関関係が見えるが逆ではない
→ニコラスケイジの年間映画出演回数と、全米の年間プール溺死者数との相関が0.67!!!
→メーン州の離婚率とマーガリン1人あたり消費量との相関が0.99!!!
・・・とかは偶然の相関(それでも陰謀論になるのが面白い

→信号機の数と交通事故の数の相関は別の要因(面積・人口・クルマ台数など)による疑似相関で、
因果関係があるとして信号機を減らせば大変なことになる!!!
・その相関が偶然なのか疑似相関なのか本当に因果関係があるのか
→それを誰もが納得する形で示すのがエビデンスで有名な検証作業がランダム化比較試験RCT
・雰囲気や忖度ではなく誰もが納得する客観的な根拠がエビデンス
→ただし悪い傾向の際にエビデンスを待てば手遅れになる→GOTOトラベルの例
・RCT→新薬、新パッケージなどのテスト→A/Bテスト→ランダム化が重要
→2008年大統領選でのオバマ陣営の資金集めの成功例
(動画と静止画で6、キャッチフレーズで4の24候補にホームページを訪れた支持者31万人を
ランダムに誘導した結果、プロの選んだ候補とは別の組み合わせが最高の成果に)
・PCR検査の例
→直感的には全員検査だが数値を押さえて見ていくと(略)全体としての非効率を生み出す
→個人の健康診断も同じ、パニックにならず統計学による冷静な判断で二次検査へ
・明治の陸軍と海軍の脚気対策の例
→海軍の軍医総監・高木兼寛は軍艦2隻に分けてRCTを実施して分析、原因が栄養にある
と判断(当時ビタミンB1は未解明)、食事を白米と副食代(下級兵士は使わず仕送りしていた)から
洋食と麦飯に変更し、僅か2年で海軍の脚気患者や死者は激減した。
→陸軍の軍医総監・森林太郎(鴎外)は細菌説に固執し理論重視、海軍での事実を無視し続け、
日清戦争では公式記録でも軍人20万人のうち脚気患者が4万1431人、戦死者は997人で脚気
による死亡者が4064人(海軍は3人)、日露戦争では全傷病者35万のうち脚気患者が21~25万、
全病死者37200人のうち脚気死亡者は28000人、頑固な思い込みで多くの人命を失った
→リーダーがエビデンスを信用し活用するか、自説と異なると無視し何も手を打たないか、
→これはもはや統計学の出る幕ではなくリーダーの資質、トップがどう扱うかの問題
・相関関係より因果関係が大事だが、待っていては間に合わない場合もある
・19世紀イギリスでコレラ禍を最小限に食い止めたジョン・スノウの例
→汚染との因果関係が分からず空気感染と信じられていたが離れた場所でも発生していた
→共同井戸の位置と患者の発生位置を地図にプロットして発生源を特定し給水を停止
→コレラの拡大が収まった
→この共同井戸を調べるとレンガが壊れており汚水の流入が確認できた
→メカニズムはわからなくても相関で発生原因をつかみ封じ込めた
→さらに水道会社別の死亡者数と1万軒あたり死亡者数を調べた
→テムズ川の下流で取水していた会社が圧倒的に高かった→その水道を使わないことにした
→どちらも相関関係だけで対策を練り行政に行動を促した
(コレラの感染メカニズムが解明されたのは30年後)
・因果関係の証明や明確なエビデンスがないからと、何もしないのは無作為の作為
→因果関係が完璧にわかるまでの対策、特に人命に関わる場合は相関関係を見て早めに動くこと
・ちから試しクイズ
→10日間の株価が上がるか下がるか100%予測するシステムというメールが来て全て的中した。
→あなたはこれに投資するか?
(10日間で全1024通りを10万人にメールすれば・・・)
→東京都の新型コロナ新規感染者数の10週間の推移表を見て、11週目からの増減予測は?
(実数を見れば減少傾向が続いているが直近の増減率の傾向を見れば・・・)
ええ、ともかく数式がなく無事に最後まで読めたので、めでたしめでたし・・・
