じぶん更新日記

1997年5月6日開設
Copyright(C)長谷川芳典



03月のインデックスへ戻る
最新版へ戻る

 3月12日朝の日の出。3月6日(写真上)と比較すると1週間も経たないうちに、方位が左(北方向)に大きく移動していることが分かる。

2016年03月11日(金)


【思ったこと】
160311(金)p値は「ランダムな偶然だけからそのデータが得られる確率」ではない

 3月9日の日記で、アメリカ統計学会の声明の2.を取り上げた。「P-values do not measure the ... probability that the data were produced by random chance alone. (p値は「ランダムな偶然だけからそのデータが得られる確率」ではない)」というのは、いっけんあれっ?と思わせる記述であるが、p値というのはあくまで「帰無仮説が真のもとでの “観測値の出現率" を計算しているにすぎない.」というのが正しい解釈である。

 このことに関連して、某家族からRetraction Watchに、こちらの記事が掲載されているとの情報が送られてきた。3月9日に私が取り上げたことに関連して、興味深いやりとりがあった。
2.P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

【略】
Retraction Watch: Some of the principles seem straightforward, but I was curious about #2 ? I often hear people describe the purpose of a p value as a way to estimate the probability the data were produced by random chance alone. Why is that a false belief?

Ron Wasserstein: Let’s think about what that statement would mean for a simplistic example. Suppose a new treatment for a serious disease is alleged to work better than the current treatment. We test the claim by matching 5 pairs of similarly ill patients and randomly assigning one to the current and one to the new treatment in each pair. The null hypothesis is that the new treatment and the old each have a 50-50 chance of producing the better outcome for any pair. If that’s true, the probability the new treatment will win for all five pairs is (?)5 = 1/32, or about 0.03. If the data show that the new treatment does produce a better outcome for all 5 pairs, the p-value is 0.03. It represents the probability of that result, under the assumption that the new and old treatments are equally likely to win. It is not the probability the new treatment and the old treatment are equally likely to win.

This is perhaps subtle, but it is not quibbling.  It is a most basic logical fallacy to conclude something is true that you had to assume to be true in order to reach that conclusion.  If you fall for that fallacy, then you will conclude there is only a 3% chance that the treatments are equally likely to produce the better outcome, and assign a 97% chance that the new treatment is better. You will have committed, as Vizzini says in “The Princess Bride,” a classic (and serious) blunder.

 やはり、私以外にも素朴な疑問を持つ人がおられたようだ。

 もっとも、この疑問は、両側検定と片側検定の違いを例に挙げれば簡単に説明できるということに気づいた。こちらの紀要論文(←サーバーの都合でアクセスできない時あり)でも指摘したように、
両側,片側のどちらを用いるかは,ほんらいデータを集める前に決めておくべきことである.両側検定をするつもりだったが,データを集めた後に平均がA>Bだったから片側検定にするなどというのは,検定の大原則に反する.
 片側検定(例:A≦Bを棄却してA>Bを見出す)は,本質的にA<Bがありえない場合[補注2],あるいはA<Bを考慮に入れる必要がない場合[補注3]に用いられる.これら以外の場合は,原則として両側検定が推奨される[補注4].
 両側検定の場合は“AとBの差は有意であった”とは言えるが,“AよりBのほうが有意に大であった”とは言えない.A>Bと結論することは実際的には問題がないが(近藤・安藤, 1967, p.16),これは検定の結果ではなくて,信頼限界に基づく推定の結果であることを理解しておかなければならない.

[補注3]:例えば,ある添加物に発癌性があるかどうかを検定するために,その添加物を投与したラットにおける癌の発生率Aと投与しなかった対照群のラットにおける発生率Bを比較したとしよう.この場合,A<Bとなる可能性,つまりその添加物には癌の発生を押さえる効果があるかどうかということは当面の議論とは無関係であるから考慮に入れる必要はない.
[補注4]:χ検定やF検定では原則として片側確率のみが意味をもつが,検定結果は“A>B”ではなくて“有意差あり”という両側検定的な表現となる.ただし1標本の検定でχ2検定を用いて“A>B”と結論される場合や,母分散が既知の値に等しいか否かを検定するような場合を除く.
 結局、p値というのは、棄却域をどういう範囲に設定するのかによって変わってくるものであり、「帰無仮説が真のもとでの」という前提があってこその値ということになる。

 なお、統計の仮説検定でいうp値とは、面積の大きさで決められるものである。例えば、コインを5回投げて4回表、1回裏になったとする。この結果から、このコインは(表裏の出る確率が1/2ではない)イカサマのために造られたコインであるかどうかを検討したとしよう。その場合、コインが5回中4回表になる確率ではなく、4回以上(5回中4回、もしくは5回中5回)という領域の面積比率がどれだけ小さいかどうかで議論される。