« 次の宿題?・・・規制薬物の合法化 | メイン | 樋口=坂野ペーパーのテクニカル面での? »

トリビア:Logistic RegressionのGoFはソフトによって違う

多分、統計学をやっている人には常識なんだろうと思うんですが、個人的には「へぇ」と思う話とちょっとした裏話があったのでメモしておきます。

Law Schoolの授業は既に終了し、試験期間にどっぷりと入っているのですが、Stern(ビジネス・スクール)は、まだ授業があり、聴講でとっているRegression and Multivariate Data Analysisは、来週まで授業があります。

この授業のおかげで、大分Minitabの使い方も覚えてきたんですが、昨日の授業でLogistic RegressionにおけるGoodnes-of-Fitの判定の際のアルゴリズムが統計パッケージによって違っていて、同じデータでもソフトによって全く違う値が出るという話がありました。

詳しくは、J.S.Simonoff, Logistic Regression, Categorical Predictors, and Goodness-of-Fit: It Depends on Who You Ask, 52 American Statistician 10 (1998)を見ていただきたいのですが、例えば、スペースシャトルのブースターをつなぐゴム製のリングの破損確率と打上日の気温との関係について次のようなデータセットがあったとしましょう。


(以下のデータは、授業で使った実際のチャレンジャー打上に関するデータセット(cf. The flight of the space shuttle Challenger)を簡略化したものです。)

 気温(華氏) 破損したリング数 トータルのリング数
532
6
57
 1 6
58 1 6
63 0 6
 66 0 6
 67 0 6
 70 1 6
 70 0 6
 72 0 6
 75 0 6
 75 2 6
 81 0 6


この場合に、破損したリング数MinitabでGoodness-of-Fitテストを行うと、次のようになります。

Goodness-of-Fit Tests

Method                 Chi-Square  DF      P
Pearson                    5.21750   7  0.633
Deviance                   6.03938   7  0.535
Hosmer-Lemeshow     5.21750   7  0.633

気づく人はすぐに気づくと思うのですが、ここでのPearson, Devianceの自由度(DF)は、本来、12(打上回数)-2(predictorの数)-1=9でなくてはならないのに、7になっています。
これは、Minitabが、70度と75度の2回の打上を同じグループとしてまとめてしまっているからです("collapsing")。

この場合、データの性質によってはGoodness-of-Fitが信頼できないこともさることながら、outlierやleverage pointの発見もできなくなるので、注意が必要です。(例えば、この例では75度で6個中2個(.333)の破損はかなりのoutlierなんですが、これが12個中2個(.167)として取り扱われてしまいます。)

これに対して、SASやSPSSはcasewiseアプローチということで、入力したとおりのデータセットのままで、取り扱ってくれるようですが、これはこれで使いづらいところもあるようです。(まだ、自分でロジスティックを余り走らせていないのでピンと来ていないところもありますが、例えば0,1パラメーターを3種類ぐらい使って(8種類のグループができるわけですが)200個ぐらいデータを入力したときに、j=200,nj=1のデータとして扱われてしまうと困るというところですかね?)

ちなみに、Minitabの場合に、casewiseと同様のアプローチをするには、"jittering"ということで、極めて小さなランダムな数値を加えて(この場合、各温度に-0.001~+0.001の範囲でのランダムな数値を加えて)、別のデータと認識させることで対処できるわけです。

これをやった後のGoodness-of-Fit Testの値は次のように

Goodness-of-Fit Tests

Method                Chi-Square  DF      P
Pearson                   12.8051   9  0.172
Deviance                  10.6921   9  0.297
Hosmer-Lemeshow      6.3725   8  0.606

自由度は9になって、PearsonとDevianceのChi-Squareの数値が結構変わっているのがお分かり頂けるかと思います。

最後に、トリビアですが、Simonoff教授が先にあげた論文を発表したところ、SPSSの担当者から凄い剣幕のメールが来たそうです。SPSSはcasewise approachがデフォルトだったんで、欠陥品みたいに書かれるのは納得できないということで、論文を撤回しろとか、かなり無茶なことを言ってきたようです。
しかし、Simonoff教授はSPSSの社長とも長いつきあいがあって、そちらにその話を聞いたら、"He is an idiot.  I read your article and it's excellent.  Please forget all."ということで、その後社内で何があったかは分かりませんが、ぴたっと担当者からのメールもやんだんですが数か月後にまたメールが。

「やれやれ」と思って開いてみると、SPSSの新バージョンでは、ユーザーがアプローチを選択できるように改良中なので、開発中の仕様で不都合ができないか、是非チェックをお願いできないでしょうか、という馬鹿丁寧なメールだったようです。
というわけで、以後、SPSSでは、ユーザーがGoodenss-of-Fitで用いるアプローチを選択できることになった、と。

というわけで、たまには、ほとんどの人にとって興味のないネタで煙幕をかけてみたりしました。

Posted by 47th : | 13:03 | Statistics

関連エントリー

トラックバック

このエントリーのトラックバックURL:
http://WWW.ny47th.COM/mt/mt-tb.cgi/441
 
法律・経済・時事ネタに関する「思いつき」を書き留めたものです。
このブログをご覧になる際の注意点や管理人の氏素性についてはAbout This Blogご覧下さい。