▼詳細検索を開く
作者: 犬物語
【統計学】そもそも"統計"ってなんだ?【有意差】
統計を名乗るならこんくらいしなきゃアカンのですって話

ただデータまとめてグラフを示して「統計です」とかやめてね?
 〇〇を飲むと□□予防になる! ――健康食品はだいたいこのような流れで商品の有用性をうたいます

 テレビとかではグラフで示されたり、動物実験で効果が検証されたりといろいろ商品の効能を紹介してるのですが、実はそれらに確固たるエビデンスがあることは稀有だったりします

 そもそも試験管の中で実験したヤツ、動物実験で得られたデータなどはエビデンスになりません。効果を検証するには人間・・を通して検証しなければなりませんので、試験管やほかの動物でなんかデータが得られても、人間で臨床試験してみなければなんとも言えないのです。ってことで、今回は「その統計ってほんとに"統計"なの?」的な話をしていきましょう





:エビデンスレベル:

 一般の方々に「エビデンスには信頼性のレベルがあるんだよ」なんて事実知ってるわきゃないですわね。かるーくエビデンスのレベルを紹介をしておきます

 専門家個人の意見。これはエビデンスになりますがレベルはもっとも低い段階"6"です。エビデンスレベルは1~6で6が最も低いので、まあエビデンスではあるけど研究を重ねてみないことにはわからん、って感じですね

 その次に症例報告というものがあります。臨床医、つまり病院にいるお医者さんがある患者さんの病気に関するデータをまとめ、学会やらなにやらに報告するもの。ある疾患に対し継続的にデータが得られるので専門家の意見より信頼性はお高めですが、お医者さん個人だけでデータを集めてる段階なので信頼性は据え置きです

 どんな優秀なお医者さんが提出した症例報告研究でもそれは同じことです。ただしそれらの報告は集積されていくので、それらを総合的に見ればだんだん信頼性が高いエビデンスになっていきます。なので単体の症例報告をケースレポート、それらが集積されるとケースシリーズ的な感じになります

 次はケースコントロール。ある時点で病気になってる人となってない人をグループ分けして、それらの間でどのような違いがあるのかを調べる手法です。たとえば『肺がんとタバコの関係』がわかりやすいですね。タバコの習慣をもってる方はメタクソ肺がんになってるよってデータが得られれば「タバコは肺がんになる!」くらいのことは言えそうです

 これより信頼性が高いのがコホート研究。ケースコントロールは過去の習慣などを見ていましたが、コホート研究は調査開始時点で「タバコと肺がんって関係あるんじゃね?」的な仮説を立てて、タバコ吸ってる人と吸ってない人を分けて、その人たちの10年20年後まで追跡調査する研究。どんな要因をもつ人がどんな病気になりやすいのかを研究していきます

 上記研究の信頼性はだいぶ高くなりますが、ちょっとした罠が待ち構えてたりもします。たとえば『アルコール摂取量が多い人は肺がんになってることが多い』というデータが得られたんですよね。じゃあ「飲酒習慣がある人は肺がんのリスクがある!」といえるのか? って話。実は飲酒習慣がある人は同時にタバコの習慣をもつことが多く、実際はタバコが原因であるにも関わらずアルコールも関連付けられてしまっていた、という勘違いをしてしまうこともあるのです

 上記のようなワナに陥らないために統計学が発展してきたのですが――本題はまだ後にして、今はとりあえずエビデンスレベルについて書いていきましょう

 最高レベルいっぽ手前にランダム化比較試験ってのがあります。上記コホート研究は研究者が対象を選別してグループ分けしてる"非"ランダム化比較試験ですが、さらにエビデンスレベルが高くなるとお医者さん自身ですら研究内容を知らされなくなります

 やり方はとってもシンプル。ある薬を服用させる患者さんグループと、薬に見せかけた偽薬(プラシーボ or プラセボ)を服用させるグループに分けてその人たちの予後を見守っていく流れ。この際、お医者さんや看護師さんがどちらの薬を服用してるか知ってると「この人は"ホンモノ"を服用してるんだから良くなるはずだ」という前提のもと一生懸命治療してしまうので客観的なデータが得られなくなっちゃうのです。だからお医者さんたちにもホンモノかニセモノかわからなくするの

 これは最高レベルのエビデンスですが、ランダム化比較試験のデータを集計して、それらを評価したメタアナリシスというものが最もエビデンスレベルが高くなります。お医者さんたちは、少なくともコホート研究以上のレベルで得られた知見をもとに治療のガイドラインをつくっているのでどうぞご安心ください。これはグレードと呼ばれて『A=この治療法マジおすすめ、やって』から『D=この治療法はやめろ(真顔)』までありますがまた別の話ということで

 上記のように、エビデンスには一定のレベルがあり、ただデータを集計しただけでなく客観的なデータが得られているか? そのお薬が実際に効果を上げているか? ってのを統計的に見ていかなければならないんです。じゃあその統計ってなんだよ? っていう話をしていきましょう





:データを集めて意味のある成果をつくる:

 データを統合して計算するから『統計』なんです。いやウソです今思いつきました。えーっと統計は『集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかにすること』です。え? ややこしい? しゃーないじゃん広辞苑にそう書いてあるっつーんだから

 実は、日本には『総務省統計局』と呼ばれる日本のありとあらゆるデータを統計的に評価する組織があります。そこでは上記のことばが紹介され、いずれにしてもある集団の傾向や性質を数量的に明らかにしようってのが統計ですね

 たとえば『あるコンサートの来客者』に着目しましょう。老若男女多くのお客さんが来てますが、じゃあどのような客層がメインなのでしょう? ――これを知るには来客者のステータスを把握する必要がありますね

 来客者にアンケート調査を行い、年齢性別だけ記入させていただきます。そうすっと成人女性の、とりわけ20代の女性が多く来ていた的なことが判明したりします。このようにデータを集め『そのデータから何が見えてくるのか?』を分析するのが統計です

 上記のアンケート、たとえば『身長・体重』を記入してもらえば参加者の平均身長まで割り出すこともできます。が、男性と女性で身長差がありますからすべてのデータを集計した場合『来客者全体の平均身長』はわかりますが男女を別にした場合の平均身長はわかりません。そこで、アンケートに記されている男性、女性別にデータを集計すると男女別での平均身長を知ることができるのです

 このように、統計は知りたい事実を明らかにするためデータを取捨選択する必要があります。この時大事なので都合のいいように・・・・・・・・データを選別しない・・・・・・・・・ということ。来客者の平均身長を低くしたい! という思惑が働いてると、どうにかして数値を低くしようとして「そうだなぁ……まずは"コンサートには女性が多く来る"的な情報を提供して、その後来客女性の平均身長を、さも来客者全体の平均身長として言ってしまえば……」的なたくらみがあったらどうなるでしょう?

「こちらのコンサート、実は女性に大人気なんです! データによれば来客者の8割が女性になってるんですよねぇ――映像を見ると女性の姿が目立っていますねぇ。コンサートの平均身長は〇〇センチですから、いかに女性に人気があるのかおわかり頂けるかと思います」

 こんな感じの文言だと、平均身長が来客者全体のものなのか女性だけのものなのか区別しにくくなるでしょう。しにくくならない? アナタの身近にこういうの・・・・・があるかもしれないのでぜひぜひ探してみてください

 統計は正しくデータを扱ってこそ真価を発揮するものだと覚えておきましょう



:統計のお役立て方法:

 データを集めるだけでは意味がありません。それらの傾向を分析して「〇〇は□□だ」ってことまでわかってはじめて『統計』と言えます。べつに難しい話じゃありません。ちょっと身近な例にしてみましょう

 アナタの年齢と身長、おぼえてますか? ちょっと自分の通信簿を読み返してみましょう。そこにデータがあるはずです

 それらを眺めてると「はえぇ~成長したもんやなぁ~」なんて感慨に耽ると思います。はい、それが統計です。アナタは自分の年齢と身長のデータを見て『年齢とともに身長が高くなっている』という事実がわかりました。それらをより詳しくみると、たとえば『小学生時代の成長はゆっくりだけど、中核性になってから急激に伸びた』的な分析もできますね

 発展としてもうひとつの例。わかりやすくお勉強にしておきましょう。ある教科を自分が得意かどうかを客観的に把握するためにも統計が便利なのです。この時重要になる指標は『偏差値』。学生時代はイヤッつーほど聞いた単語かな?

 偏差値とは『50を基準として、平均からどれくらいの"差"があるのか示した数値』です。クラスに5人いたとして、算数テストでみんな100点とった場合みんなの偏差値は"50"になります。ゼッタイでなく相対的な評価やねん

 100点がひとり、80点がひとり、60点がひとりの場合80点を獲得した人の偏差値が"50"になります。成績はだいたい平均に近い成績の人数が多く、それより少ない、多い人の数が少ないので偏差値を示すグラフは"山"の形になることがほとんどです

 この時、アナタの偏差値が50より高ければ高いほど客観的に『その教科が得意だ』といえるでしょう。統計はこれらを知るためのデータをしっかり確保し、しっかり分析することが求められるのです



:統計で大切なポイント:

 意味のある統計をとる手段として重要になるポイントがいくつかあります。

・ランダム化比較試験をしっかり"ランダム"に行う
・サンプル数を確保する
・意味のある"差"があったか判断する

 ランダムってわりと難しいものです。薬の効果を検証をする場合『本物の薬を飲んだ / 偽物の薬を飲んだ』以外の条件はまったく同じにしなければなりません。たとえば一方の群には男性ばかり集められた、なんてことが無いようにする必要があります

 手っ取り早いのはコイントスですね。じゃんけんで決めるてきなのは人の意志・・・・が介入するのでダウト。コインに仕込みがなければ自然界の力に任せてトスを行うのが理想でしょう

 そうやって確実にデータを集められたとしても『実験対象者は10人です』ってことでは安心できません。だって人類って80億人いるんだぜ? 日本人に限定しても1億人ちょっとだぜ? その全体の『人類代表』として10人に実験するにはサンプルがたりなさすぎますわ。論文などでは(n=〇〇)と表記されていますが、この数値は大きいほど信頼性が固くなります。言うてサンプル数を揃えるのは難しく、ひとつの大学でやる場合はだいたい二ケタや三ケタ、大規模な実験でやっと四ケタくらいになるかなって感じ。だからこそ、それらの研究を集計したメタアナリシスの信頼性が高いのです

 以下のような結果が出たとしましょう

・本物の薬を飲んで病気にならなかった人
  → 80人
・本物の薬を飲んで病気になった人
  → 20人
・偽物の薬を飲んで病気にならなかった人
  → 70人
・偽物の薬を飲んで病気になった人
  → 30人

 上記データだと『薬の違いで10人の差がでた』ってのはわかります。じゃあそれを「薬は効果的だった!」という言葉に変えられるでしょうか? ――これは統計学の『検定』という方法を用いますが、これは専門的で複雑な計算をするので割愛します。くわしくは最後に紹介する情報をしぇありんぐぅ

 検定をした上で『味のがあった』のであれば「この実験結果には有意差があった」という表現で評価します。おおよそ10人程度では偶然の可能性が捨てきれないので、まあ上記の薬は効果ねーんだろうなってのがわたし個人の感想ですが……どうでしょう? アナタは上記のお薬、実際に効果があるものだと思いますか?



 世の中にはもっともらしいデータが溢れていますが、それらは単なるデータに過ぎません。統計的に有意差が出た意味の有るデータかどうか、アナタ自身が上記要素に着目してしっかりチェックしてみましょう。アナタの心身の健康を祈っています

総務省統計局
 トップ
ttps://www.stat.go.jp/
 統計とは(先生向け)
ttps://www.stat.go.jp/teacher/statistics.html
 統計のあれこれ
ttps://www.stat.go.jp/naruhodo/index.html

 100点でも偏差値50ってあり得るんだなと思った方は高評価、コメントをおねがいします
Twitter