「図解雑学 統計」

「図解雑学 統計」(今野紀雄/ナツメ社)

→ナツメ社の図解雑学シリーズは本当にいい。
絵で解説してくれるからイメージでわかりやすいのだ。
確率や統計は絵で把握するほうが言葉で理解しようとするよりはるかにいいと思う。
さて、世界ではさまざまなことが起こっている。これをどう見たらより世界がわかるのか。
世界の現象(情報)を数字(データ)として取り出してみて、
この数字をいろいろな理論で操作してより深く世界を知ろうというのが統計学である。
平均を取ってみたら世界像がくっきりとするが、どの平均を取るかで見え方が異なる。
現象を代表している値としてメジアン、モード、分散などの枠組みを用いる。
これはばらばらな数字(データ)を見ていても全体像がつかめないから、
ある基準を設けて数字をわかりやすく整理するということだ。
数字はグラフ化すると目に見えてわかりやすくなる(わかったような気になる?)。
グラフ化するとは、ある数式にのっとって数字を可視化するということ。
この過程で確率の考え方が使用される。
ほかに数字をグラフ化することでなにがわかるか。
ある現象とある現象が相関しているということがわかる。
たとえば人口が増えたら本屋は増える、人口が増えたら居酒屋が増える。
これは人口と本屋・居酒屋が正の相関関係にあるということである。
おそらく、人口増加と本屋・居酒屋の数は因果関係にあるのだろう。
本屋の増加と居酒屋の増加も相関しているが、こちらは因果関係にあるとは言い難い。
負の相関関係の例は、たとえば本を読む人ほどテレビの視聴時間は少ないだろう。

もっとも統計で利用されているのはたぶん推定だろう。
部分(のデータ=数字)から全体(のデータ=数字)を推定する。
これは全体のデータを取ることが困難なので、
部分のデータから全体を推し測ろうとするわけだ。
ここでも数式が使われているのだが、これは何度読んでも理解できなかった。
いまだにどうして部分から全体がわかり、かつそれが本当に正しいのか疑問である。
もうひとつ統計の推定で有名なのは、
過去(のデータ=数字)から未来(のデータ=数字)を予想することである。
ここでも数式を使うのだが、直感的にこれはインチキだと思う。
思考法はとてもおもしろいが、精度の高い占いくらいに思ったほうがいいのではないか。
いや、考え方はとてもおもしろくて、なるほどと感動さえしたのではあるけれど。
それから統計では検定ということが可能である。
検定とは現象(=データ=数値)が偶然の範囲内かそれともなにか異常があるのか、
これまた数式を用いて調べることをいう。
このとき危険率を設定する。具体的には危険率5%や1%が用いられる。
危険率を低く設定するほど偶然を許容する。
たとえばコインの裏が連続して5回出る確率は約3%だ。果たしてこのコインは正常か。
それとも裏が出やすい構造になっているのか。
危険率5%のときコインは異常、危険率1%のときコインは正常と判断される。

ここまでお読みになってなにがなんだかわからなかった方も多いのでは?
統計の具体例を紹介する。たとえば視聴率は統計の最たるものであろう。
あれはたったの600の視聴データ(数値)から全体を推定しているのである。
このときに数式を使うのだが、上記したとおりこれがわたしにはよくわからない。
ちなみにテレビマンが一喜一憂している視聴率など
統計学的にははなはだ頼りないものである。
どういうことか説明する。たとえば視聴率16.5%は統計学的になにを意味するか。
視聴率16.5%は信頼度95%で視聴率は13.5~19.5%の間にあるという意味だ。
まず信頼度は100%ではない。この信頼度の概念は数式と関係している。
信頼度95%はたぶんほとんど合っているくらいの感覚だろう。
それから標本数が600と少ないからかどうかわからないが誤差が6%もあるのである。
本当の(全体の)視聴率は13.5%だったかもしれないし、19.5%だったかもしれない。
視聴率16.5%が統計学的に意味するのは、このくらいのあやふやなものなのである。
つまり、視聴率14%も19%も、あるいはおなじ全体数かもしれないのだ。
たまたまサンプルになった600軒の好き嫌いが6%もの誤差になって表れる。
視聴率9%も15%も、実態はおなじくらいの視聴者数かもしれないのである。
このため、統計学的に見たら1%の視聴率に右往左往している人は愚かということになろう。
たった600件のサンプルで全体がわかるはずもないのである。

統計によって過去から未来が推定できるのかというのも、
たしかに考え方はおもしろいが実際はどうかは疑問である。
たとえば、本書ではわかりやすくイチローの打率が例として用いられている。
この本の発刊は1999年、まだイチローが日本のオリックスにいたころである。
1998年のイチローの打率は0.358だ。
このデータから今後の打率を推定すると――。
信頼度90%で、打率は0.323と0.393の間にある。
信頼度95%で、打率は0.316と0.400の間にある。
信頼度99%で、打率は0.303と0.413の間にある。
信頼度が高くなると(数式にしたがい)それだけ可能性の幅を広げる必要があるという。
だとすると、数式に信頼度100%を代入したら計算式が成り立たなくなるはずだ。
信頼度100%にしたら、なにが起こるかわからないになるような気がする。
(だれか数学者さん計算してみてください)
そして、99%と100%の1%の差は見過ごしてはならない数字ではないか。
1%といえば統合失調症(精神分裂病)の発症確率である。
さいわいにしてイチローは頑丈だったが、統計学の数式は決定的に怪我を予想できない。
むろん、怪我をする確率は出てくるだろうが、だれが怪我をするかは絶対にわからない。
皮肉を言うならば、
統計学はイチローが日本野球を捨ててメジャーに行くことは推定できなかった。

統計の決定的な弱点はこれまで起こったこと(数値)しか扱えないことではないか。
ところが、ご存じのように過去は未来ではない。
競馬は過去から未来を予想するギャンブルだが、
常勝者がいないことから証明できることは、過去は未来ではないということである。
同様、部分はおそらく全体ではなく、統計は全体のようなものを示すに過ぎない。
繰り返すが統計の示すものは全体のようなもので、全体そのものではない。
統計はたしかに未来を予想するが、それは絶対的ではなくせいぜい精度の高い占いだ。
とはいえ、疑似全体あるいは精度の高い占いとして統計を見るならばかなり使える。
反対に統計のデータを絶対的真実だと思い誤るといつか足元をすくわれるだろう。
それにしてもどうして優秀なテレビ局社員が
視聴率のインチキに気がつかないのか不思議である。
統計学的に見たら高視聴率など「600軒のたまたま」にしか過ぎないというのに。
統計の示すものは真実ではなく、真実らしきものである。
真実らしきもの(全体、未来)でもなにもないよりはまだマシなのだろう。
全体がわからなかったら我われはどのくらいの位置(順位)にいるのかわからず不安になる。
未来がまったくわからないものだとしたら(真実はそうだが)不安で気が狂ってしまう。
このため、平均大好きで無宗教の日本人の不安からいま統計がもてはやされているのだろう。
わからないので断言はしないが、たぶんおそらく統計学は最強の学問ではない。
再読にも堪えるとてもわかりやすい名著のため、いろいろと考えさせられた。

COMMENT









 

TRACKBACK http://yondance.blog25.fc2.com/tb.php/3545-afc02212