« トリビア:Logistic RegressionのGoFはソフトによって違う | メイン | 樋口=坂野ペーパーの意味合いについて »

樋口=坂野ペーパーのテクニカル面での?

(追記あり) 

bewaadさんが「グレーゾーン金利に関する見方について・中編:まさくにさんへのリジョインダー」という記事で、早稲田大学消費者金融サービス研究所の樋口大輔=坂野友昭「消費者金融顧客の自己破産ーその特徴と原因ー 」(pdf)について検討されています。

私も、この樋口=坂野ペーパーでやっているロジスティック回帰分析は気になっていて、以下の結論部分については、それなりに説得的だと思っているんですが、細かいところでは気になるところがちょこちょこあります。

本研究では、主要な関心を、①新規時における与信者による無理な貸付け、②貸付実行 後における与信者による追加的貸付け、③貸付実行後におけるライフイベントの発生とい う3 つの観点に据えて自己破産の原因を分析してきた。これまでに展開してきた分析の結 果は、自己破産の発生を説明する要因の中で最も発生原因を説明しうるのは、減収という ライフイベントであるということを示している。債務件数および額の増加という要因は確 かに無関係ではないが、説明力は限定的である。(p.22)

テストが終わってからゆっくりと、とも思っていたんですが、bewaadさんの尻馬にのって、テクニカルなところで気になっているところを少しメモしておきます。


R^2の比較?

このペーパーでの基本的な分析方法は次のようなものです。

モデル1~3 についてロジスティック回帰分析を行う。その結果を、それぞれのモデルご とに対比させ、係数の大きさと、R^2 の大きさを比較することでモデルの説明力の変化を見 る。つまり、独立変数によって説明された分散の大きさにより、考えられる自己破産の原 因のうち、どの原因が最も説明力を持つのかを見ていくのである。言い換えれば、分散を 最も多く説明できる変数が、自己破産の要因として最も有力な要因といえる。

まず、細かいところからいうと、ここで使っているロジスティック回帰分析の場合は、普通の回帰分析でいうところのR^2は使えないんじゃないかというのが一 つめです。もっとも、(Minitabでは出てこないんですが、) Cox&Snell R^2とかNagelkerke R^2とかいう修正指標があるようなので、それを使っているということかも知れません。ただ、回帰分析の結果テーブルでは、単にR^2としか書いていないんで、何か気にならないわけではないんですが・・・これは、単にeconometricsでのロジスティック回帰分析の作法を知らないだけかも知れませ ん。

何れにせよ、このペーパーでは幸いなことにR^2の他に-2Log-Liklihoodと正分類%があるので、私はとりあえずそちらを見ながら考えてみました。

で、もう少し本質的な疑問としては、モデル選択を厳密にやった後のベスト・フィット・モデルで各説明変数の係数と優位性を見るのでは、駄目なんだろうか?とい うところです。(多分、自分がやろうとしたら、collenearityも考慮に入れつつ、一番いいモデルを使ってやってしまうと思う・・・)

確かに、①新規貸付時、②貸付実行後追加貸付時点、③現在時点のそれぞれで得られる情報に基づいて、貸出人がどれだけ結果を予測できるかという視点で見るといえばそうなんですが・・・ロジスティック回帰分析での当てはまり度合いの差というのは、今回のようにはっきりと出る場合はいいんでしょうが、一般的には、それほどきれいには出ないんじゃないかという気も少しします。

Collenearity?

もう一つは説明変数間で明らかにcollenarityが生じていると思われるもの、例えば「当該消費者金融会社の新規貸付額」と「高額な新規貸付」が説明変数に入っているところです。前者はneumerical、後者はindexですが、前者が大きければ(50万円を超えると)後者は1ということですから、明らかに相関しています。

もっとも、モデル間の当てはまり度合いを比較するという今回の目的からいうと、個々の係数にこだわらない限りは、それほど気にする必要もないと思うんですが、こう書いている部分にはちょっと?も。

まず、モデル1 の係数の大きさから自己破産の発生へどのように寄与しているのかを見 てみると、一般的にリスクの低いと思われる顧客は、破産しない傾向が示されている。例えば、持ち家の係数は有意にマイナスである。高額な新規貸付の場合、むしろ破産しない傾向にある。これは、高額な新規貸付を受けられるのは、リスクの低い顧客に限られるた めと思われる。しかし、年収は有意ではあるが係数が小さく、他の変数と比べて自己破産 への影響が少ないことが示されている。なお、女性のほうが男性に比べて破産する確率が 高かった。

新規貸付額の係数は0.165で高額な新規貸付の係数は-1.470で、両者には正の相関があると思われるので、前者を説明変数から抜けば後者の係数は変わることが予想されます。また、年収と年齢、性別、持家にも相関関係が疑われますから、そうだとすると、これらの変数の係数は必ずしも信頼できないように思われます。そういう意味では、「年収は有意ではあるが係数が小さ(い)」のは、multi collenearityを疑うべきじゃないかという気がします。

逆に、モデル3の以下の部分については、

年収の増減の係数は有意にマイ ナスであり、これは年収が増加するほど自己破産のリスクを低め、年収が減少すると逆に リスクを高めることを示している。ダミー変数である減収の係数は有意にプラスであり、 減収という要因が自己破産のリスクを高めていることを意味している。

年収の増減と減収とは当然負の相関関係がありますから、それでも両者がそれぞれ-1.077と0.663という係数を持っているのは注目するに値するように思われます。

何れにせよ元データを走らせてみないと分からないんですが、係数に踏み込んで評価を加えるのであれば、multi collenearityについては、もう少し配慮すべきかなと思うんですが、この辺り統計の世界の常識がちょっと分からないんですよね。それとも、一方がneumericalで、他方がindexならあんまり気にしなくていいんですかね?

(追記) 

今回のケースではサンプル数がかなり多いので、multi collenarityの問題は深刻ではないのかも知れないという気もしてきました。
寧ろ、問題は相互に関連する説明変数間での係数の解釈ということなのかも知れません。
多重回帰分析では、他の変数が動かない場合のある変数の影響を見ているわけですから、貸付金額が50万円以下のグループの中では貸付金額が多いほど破産確率は高まるというデータになっているわけです(係数は0.165で有意。但し標準化の仕方が分からないので、このインプリケーションはよく分からない)。
何となく、新規貸付額×高額な新規貸付を入れて見てみたいところですが・・・

(追記終わり) 

あと、細かいところなんですが、年収とか貸付額なんかのデータは標準化しているんですが、その前の分布を見ても明らかにlong tailなんで、こういう場合対数で標準化するんですよね?

それでも

というわけで、元データを見てみたいという欲望に激しく駆られるのですが、結論としては、正分類がモデル1,2と比べて10%以上あがり、年収の増減と減収の係数が同じ方向(増減に対してマイナスの符号ということは、減収(マイナスの増減)の場合には符号はプラスになる)ということからすると、最初の結論である「自己破産の発生を説明する要因の中で最も発生原因を説明しうるのは、減収という ライフイベントであるということを示している」という部分は、結構説得的な結論ではないかというのが、私がこの論文の結論部分を支持する理由です。

元々、現実のデータを使った実証には限界がある中では、割合きれいに結果が出ていると思うんですが、統計に詳しい人の目から見るとどうなんでしょうね?

それにしても、帰国前のもう少しCategorical Analysisは勉強しておきたいと思う今日この頃。

Posted by 47th : | 01:00 | Statistics

関連エントリー

トラックバック

このエントリーのトラックバックURL:
http://WWW.ny47th.COM/mt/mt-tb.cgi/442

このリストは、次のエントリーを参照しています: 樋口=坂野ペーパーのテクニカル面での?:

» 貸金業の上限金利問題〜その9 from いい国作ろう!「怒りのぶろぐ」
疑問点が不明瞭であったことは、お詫びいたします。ただ、根本的な問題点の説明には至っていないと思いますので、各論文ごとに論点に絞って整理してみたいと思います... [続きを読む]

トラックバック時刻: 2006年05月03日 09:58

コメント

こんにちは

>ここで使っているロジスティック回帰分析の場合は、普通の回帰分析でいうところのR^2は使えないんじゃないか

ご名答。こちらのベン図で一目瞭然ですね。

http://hosho.ees.hokudai.ac.jp/~kubo/ml/index.html

Posted by bun : 2006年05月03日 21:03

1点目について調べてみました。

直観的には、R^2はモデルで説明できた部分と出来なかった部分の比によって表されるので、モデルを当てはめた後の残差に不均一分散が生じなければ、R^2を用いることは悪くなさそうです。

一応、Greeneの"Econometric Analysis"を見たところ、こういうケースで用いる当てはまりのよさ(goodness of fit)の指標は色々書かれていました。ただ、いくつかの指標はある意味、正分類を変形したものでしょうから、正分類は1つの指標にはなるでしょう。

Posted by S : 2006年05月04日 00:43

>bunさん
ありがとうございます。
ご紹介頂いた図は分かりやすいですね^^
>Sさん
私も勉強してみます。
とりあえず今受けている授業では、correct classificationを使いこなす方向でモデル適合性を見ているので、そちらを詰めてみます。
また、色々と教えてください。

Posted by 47th : 2006年05月04日 23:25

興味深い分析評価です。
消費者金融借入のある100万人(口座)分について10年以上のの借入・返済の取引データをデータベース設計して持っております。いかようにもdata miningできますので、毎月破産申立した債務者だけ数千人分まとめて取り出し、過去に新規遡り借入時からの全取引を分析できます。どななたか分析されてみたい方はおられませんか。それなりの報酬は準備できます。
早稲田のように、消費者金融貸付が破産の原因ではないことの仮説の立証というような業者の目的が決まった証明依頼ではありません。ビヘビャーモデルの検討に過ぎません。
DBには、URLで入ってコントロールできます。

Posted by momo : 2006年05月24日 01:31

計量経済学的処方については分かりません。ただこの分析は、分析以前にデータ抽出に恣意性が入っていることが重大なdisinformationしようとする意図がみえてきて、気持ちが悪くなります。
個人破産の手続きとは、破産申立し 全額負債の返済を免責され免れる救済手続きです。だから裁判所により破産手続き開始がなされれば、手続きは免責により同時廃止になり、また管財人などは資産がないから任命されることもありません。負債を返済するに資産が足りないこと、債務超過であることが証明されない限り、破産は認定されません。社会の救済制度でそれを裁判所が運用しているのですから。
そのために病人でない限り、まじめに働いているとか、ギャンブラーでないことが条件になります。破産裁判所は、ギャンブラー依存症であれば、破産を認定してくれません。また負債金額によりますが、仕事を持っており、20万円以上の所得があって、債務の返済余力があれば、債務の一部免除の債務整理すればよく、全額免責を求める破産はできません。
したがって、破産認定を受けられる「適格者」は、生活費負担以上に所得がないことが前提になってきます。ということは、債務超過と為るためには、大半のケースはライフイベントがそもそも当たり前です。さもなければ、所得があっても、それに比べて、どうしようもないほどの巨額の借金を負っており、返済しようがないケースです。
しかし不思議なことは、分析対象のデータの破産者の負債額ですが、200万円程度だということです。たぶん個人の破産者は通常、住宅ローンがなくても500万円近いだろうと思いますので、どうやってわざわざこんな小さな金額ばかりのデータを集めたか、これが実際に消費者金融機関の実態なのか不思議なのです。債務者は有価証券報告書からみると、数社から平均60万円借り入りているので、確かに総額で250万円くらいでしょうか。
でもその金額では、25万円を超える月収があれば、全額免除しなくても、返済は可能であるので、その程度の金額で裁判所が破産を認めるケースは、返済原資のないライフイベント顧客に限られます。
それについて、計量学的アプローチを議論しても意味がありません。

Posted by 吉行誠 : 2006年05月24日 01:53

>momoさん
私自身は計量経済の専門家とは言い難いので、お力になれそうにはありません。
>吉行さん
樋口=坂野ペーパーは、自己破産申立(ましてや宣告)ではなく、貸し手が把握しているイベントとして、要管理債権への移行を代替的採用しています。
筆者らは、むしろそのこと故に「返済遅延により要管理債権に移行したが、最終的に破産申立や宣告に至らなかった層まで含まれてしまうこと」を懸念しているわけですが、逆にいえば、吉行さんのご指摘のような「自己破産が認められるのは非常に限定的であること」から生じるバイアスは緩和されているということになります。

Posted by 47th : 2006年05月24日 08:29

ご指摘ありがとうございます。
91日以上延滞を一旦管理部に移管して管理する区分をもっている会社は、たぶん2社に限られます。そうするとデータを出した会社が読めます。ところで、管理部債権=破産債権とみなして、ということになれば、仮に220万円が専業者負債総額だとして、月の約定返済率を平均3.5%としますと(武富士のFacts and Figuresの最低支払額の意味)、77000円。これが払えなくなるような債務者ですから、月収で30万円どころか、もっと少ない所得者となります。破産が認められるには、たぶんライフイベントで失職するか、長期病気か、ギャンブル依存症で司法書士から破産認定されるため治療するため長期療養でもしているのか。
そうすると、このデータは、業者がそもそもライフイベントだけを選って学者に提供し、現実社会を知らない早稲田の学者と学生にそれらの要因を無視して、要因分析をさせたと、憶測できます。
大手貸金業者の貸倒が6.5%だとしますと、1.5兆円で250万口座ですから、16万件も貸倒がでています。破産は、通常司法介入、すなわち弁護士などを雇って資産負債表を作り、隠し財産、所得がないことやデータが正しいことを証明して、免責認定を受ける作業ですが、貸倒の6割が司法介入として、その1/3が破産で推定されるでしょうか。
さてそれにしても、貸倒が16万件、それ以外に91日以上延滞がありますが、選ばれた1万4千件は、冗談のように少ない。
そんな計量経済分析など、意味がありません。
そんな情報隠蔽をはかり、開示もしないような不届きで不正な業界など、18%に下がって当たり前でしょう。
貸金業者の多重債務製造過程については、東洋経済 金融ビジネス4/25号に寄稿しています。

Posted by 吉行誠 : 2006年05月24日 09:04

上記掲載の拙者のコメントについて、知り合いから、回帰分析のサンプル数についての基本的を欠くコメントという指摘を、受けました。
ブログの趣旨に反したり、品位を落としたり、ということであれば、利用者の皆様方にご迷惑をかけ、もうしわけありません。
説明不足というか、説明失敗でしょうか。補足させていただきます。

指摘は、1万件というサンプル数は「冗談のように少ない」というコメントに対してです。計量経済学の基礎となっている統計学の神髄は、全数調査を行わずに、限定されたサンプルから母集団の傾向を把握するところにあって.統計的には、サンプリングの仕方が適切である限りは、1万件というサンプル数からは十分に母集団の傾向を把握することが可能です。例えば、世論調査において2億人の人口のうち1万人しか意見を聞いていないから「冗談のように少ない」といわれることはありません。」というものです。

私の表現が極端であったことと、私の主張ポイントから、ご理解いただけると思っておりました。といっても、走り書きであることは、確かですが。
14000が少ないという主張でありません。選別法に明らかな恣意がかかっており、全く誤っている怖れが高いという主張のつもりでした。すなわちサンプリングの方法自体に恣意性があるのではないかということです。なぜ破産する通常のケースのような負債総額のサンプルが少ないか。
破産の要因分析しながら、破産のケースとしては、特殊な事例を取り上げていることにはなりはしないか。あるいは想定破産として代置していれば、さらに破産とは関係のないデータを利用して、仮説を証明しようとする。そこに問題があると申しているだけで、そこに主張のポイントがあります。少ないとは、そういう意味で使ったので、その説明をしていたつもりでしたが、書き出しの表現がいきすぎたためと説明不足で、違ってうけとられてもしかたありません。

私も、計量経済学者とともに、破産者、弁護士介入債権の特徴と貸す時にどのように見分けるかの計量分析的要因分析をしたことがあります。破産申立だけで、6年分30万件を分析しました。
大手業者であれば、破産を分析するのであれば、14000件の申立があるかないか分からない長期延滞債権で、想定破産の延滞データを使うのではなく、容易に14000件の破産を選ぶことできます。なぜ管理部管理延滞債権を使うのか。管理部にあるとすれば、会社によって異なりますが、91日以上か、181日以上の延滞でしょうけれど、181日も支払のないひとで、その後に破算申立する債務者は限られます。多くが、申立は、延滞31-120日(未払い期間で61-150日)に行っています。たぶん7割方。調査を要しますが。そうすると、そんなに長期に払わないだけの人は、破産でない可能性もあるし、弁護士が介入したりしない債権かもしれない。統計分析する前に、正確に性格分析をすべきでしょう。しないで利用した目的が何であったかが、疑義が生じます。

業者のどこかが、それともTAPALSが、どうして早稲田にこれほど、負債額から破産しそうもない(それでも債務超過が認定される)無関係なデータをだして、破産の研究を依頼したかは、わかりません。データの内容が分かっていなければ、結論は使いようがありません。

破産の研究の目的は、破産宣告だけで20万人に達し、その原因が業者の貸付姿勢にあり、多重債務問題を引き起こしているのではと、問題視され、業者はそれを否定するための論証が必要だったようです。通常、産学協同研究であれば、委託報酬があり、研究成果は委託者が利用するのでしょうけれど、一部結果について、発表が目的の委託ということになります。
業者は適正に審査し、payment abilityがある債務差者に貸しており、業者の貸付が多重債務の一例=破産を引き起こしているのではないという命題が正しいころを論証したかったのでしょう。お金を払って、しかも公衆の閲覧に付し、こうして事情を知らない研究者に、中立的研究として、取り上げられるのが目的でしょう。

そうした選出に恣意性の疑義があれば、抜き出したデータでは、要因分析、判別分析するに、特定のvariablesにより説明されるデータ にどうしても偏りがでる場合が多く、現実的な結果が得られない場合が多いと考えます。パフォーマンスに影響を与える説明変数とは、住居地域、社保、国保険形態、住居形態、配偶者の有無、職業、雇用形態、年収、負債総額、借入件数、勧誘方法(雑誌、新聞などの認識媒体、ティッシュ、ネット広告・ブローカーなど)、ローン情報として、与信額、loan age and seasoning、約定支払額、返済期間、過去延滞実績、リボ状況、追加途上与信、カード(融資枠)利用停止状況と頻度、など信用リスク・パフォーマンスに影響を与えるファクターは様々です。驚くことに、偏りがあれば、materially distinctiveな結論がでてきます。標準的な安定的な統計的特徴を得るのに、最低3年のaccount seasoningを要し、最低1万件はいるでしょうけれど、これらのファクターあるいはvariablesの組み合わせ数だけで、1000は容易になりますので、共分散つくり、相関をどう見るかだけでも大変な作業になりますが、1万件程度では、おおざっぱな、特定の特徴がでてくる分析にしかならないということです。
私はよく、800通りのパフォーマンス(31-60, 61-90, 91日以上延滞率、貸倒率、司法介入率、破産/民事再生申立、調停申たてなど)を、直近3、6、12箇月、1年、2年、3年の期間ごとにつくり、さらに詳細な区分は、3000区分でパフォーマンス・レポートできるようにしています。組み合わせとは、上記債務者特性xローン特徴の組みあわせで、男性、20代、独身、居酒屋、年収300万、借入件数4、借入総額225-250万、横浜川崎地区、社保、残高50-65万、アパート住まい、勧誘・媒体:スポーツ新聞、新規ローンなどフィルターを満たす債務者集団という意味。これを、既婚に変えるだけで、貸倒は年0.3%ほどパフォーマンスは変わってきます。また地域、住居形態でも、変わります。全体として安定したプールにするにはは、1万件はいりますが、それだけでは、800組み合わせも、該当者が数人の区分がでて、データは安定するどころではありません。その場合は、スムージングすることなります。重回帰がきれいに出ることもありますが、ロジスティックは、当てはまりが悪く、使ったことはありません。共分散は、借入件数、借入総額や、所得と負債比率などにみられますので、どう影響を調整するか、検討課題です。
もっとも、回帰で予測モデルを作ることはありません。数年おきにくる、市場環境のダイナミックな動きで、モデルが使えなくなります。金融ビジネス4/25にあるように、01.03~05.03の100万円以上のローン残高比較では、まったく違ったポートフォリに為っているのですから。モビット、アットローン、キャッシュワンなどだけでなく、IT系、電気系の信販も消費者金融市場に参入し、また従来の信販会社のキャッシングも急拡大です。

何を目的(仮説の証券)として分析するかによりますが、破産を検討するにも、さまざまなケースがあるだけに、あまりに14000件は少ないということになります。というより、特徴的に典型的な破産とは思えないような多くのデータを、集めてもどれだけ意味があるでしょうか。統計分析するに、基本を欠いていませんか。

データを分析するにあたり、たとえば2002年1月に貸した2万件の債権を取り出し、その後の状況を見ていくstatic pool 集計は、口座を確定すればよく、割合と容易にできます。貸付月を経過月ゼロとおいて、何ヶ月目に、どういう債務者事由が発生するかを見ていくのです。いくらの負債総額になったら、どうなるかとか(いつごろまで支払が持ちこたえ、破産にいたるか)、借入件数でみていくとか、所得ゼロになったひとがいれば、翌月からの経緯をみていくとか。すなわちいつ、いくらまで貸せるか分析のために、見ていきますが、そのとき、説明変数による影響を加味して、支払回数、返済額を決定して、リスクを見極めた上で、得たい収益を確保する。だから安定的収益にするためには、1万件は必要になります。一人一人は、当たりませんので。回帰手法とは異なりますが、判別分析なら、あります。

しかし、逆に遡ってみていくというのは、至難の業かもしれません。たとえば、2006年4月に破産申立した債務者をえらび、遡る。どういう状況で破産になるかを予測するモデルを作るのですが、いろんなパターンがある。まず負債総額50万円単位で分けて、トレースする。それに所得50万円単位を入れてさらに組み分ける。それで100通りくらい作ってみる。所得700万円台であれば、きちんとした安定的職業についているということでしょうけれど、そういう人と、年収300-400万円では、破産に至る原因は違います。それをみていく。そして、グループ分けして、統計にかければ、確かに駆り始めてから、ライフイベントがない場合、どのくらいで、くたびれるか、予想できますが、何ともライフイベントは、force majuerではないですか。

結論として、データ分析は、将来予測のためでしょうから、精度を上げるためには、依頼者の抽出の恣意性を外すため、監査されているものがふさわしい。それ全部をみる。ある業者が証券発行しようとするときの目論見書記載の開示となる証券分析を例にとって考えれば、恣意性があるデータで、ある債務者の特性がどうこう言うのは、何を誘導にしたいかは別にして、misrepresentative statement, 不実あるいはfraudulent instrument とみなされかねません。発行業者がそんなproforma analysisをすれば、開示と募集についての証券法開示規制の違反行為でしょう。それでもし株価、社債評価に関連したということであれば(今回はそういう意図がないですから該当はしませんが)。
たとえば、それを発行者のIRサイトに掲載したらどうなりますか?
だけど、それを大学の研究会に委託して、研究成果を発表すれば、問題にならない。 業界のイメージはよくなるし、多重債務もつくっていないし、破産予備軍を作っていない。そして株価は安定し、銀行から借入ができて、ますます貸出ができる。
イメージ戦略も、少し間違えば、市場の詐欺理論でも適用できないのか。


Posted by 吉行誠 : 2006年05月25日 04:07

>吉行さん
度々のコメントありがとうございます。
ご指摘の内容は非常に興味深いとは思います。
ただ、統計的な手法としては次エントリーのコメント欄で計量経済学者の卵さんと議論させていただいているように、retrospectiveにデータを抽出する手法も統計学的には認められています。また、モデルの変数を増やせば、それだけ説明力はあがることは仰るとおりですし、クレジットスコアリングモデルの作成においては、少しでも説明力にプラスな因子を取り出すべきだと思います。しかし、今回の研究の目的は「予測精度を高める」というものではなく、「予め特定された説明要素間の説明力を比較する」というものです。この意味ではバイアスに偏りがなければ説明変数を絞ることは合理的なアプローチです。(それでもなお、樋口=坂野ペーパーではモデル1,2と3の間でモデルの当てはまり度において顕著な差が見られます)
サンプリングのバイアスについては、複数の業者から1万件以上のデータを採取するにあたってデータ抽出に意図的な改変があった場合、回帰分析の前提条件のチェックの中で偏りが検出される可能性が高いのではないかと思います。もちろん、データを提供する業者が事前に研究者が用いるモデルや手法を知り、その上で業者相互間で通謀してデータからバイアスが検出されないように調整を行ったということや、研究者が消費者金融業者の意図を汲んで意図的にそうしたバイアスの存在を無視したと仰るのであれば、それに対しては私は何か申し上げるだけのものはありません。

Posted by 47th : 2006年05月25日 10:22

この論文は前から読もうと思っていて、学期中で時間が取れなかったのですが、学期が終わってやっと読めたので、簡単にコメントを。

このロジット分析はおかしな点がいくつかあるので、著者たちは計量分析は得意じゃないのかなという気がしました。

最尤推定モデルのpseudo-R^2は、報告することが多いですが、著者たちが行っているような、「35%の分散が説明されたから、、、」みたいな解釈は、厳密には正しくないです。

また、おかしな変数が入っています。一つは47th氏がご指摘の高額な新規貸し付けダミーで、もうひとつは減収ダミーです。年収の増減の変数が入っているのに、減収ダミーを入れるというのは意味不明です。

あと、係数の解釈を有意であるかどうかでしか行っていないのもどうかと思いますし、独立変数の単位(例えば年収は万円なんでしょうかそれとも百万円?)、とその簡単なsummary statsが明示されていないので、読者が独自に解釈することもできません。加えて、新規時他者借入額の係数がマイナスなのも、何だか気味が悪いです(full model では有意ではないのでなにかspriousな影響を拾ってるんでしょう)。

とまあ、いろいろ不満な文句はあるのですが、全体としては、致命的といえるようなミスは見あたりません。でも、この論文のレフリーをやれといわれたら、分析をやり直せと言うと思いますが。

著者たちの結論については、収入の減少というライフイベントが重要である、という点は分析結果から言えると思います。しかし、もう一歩踏み込んで、挙げられている3つの要因(1.無理な貸し付け、2.追い貸し、3.ライフイベント)、の中で本当にライフイベントが他の要因に比べて相対的に重要といえるかは、1.と2.を示す変数して挙げられているものが、1.と2.のmeasureとして適切なのかどうかによると思います。「ちゃんと審査すべし」という懇談会の議論の方向からして、新規時の予測要因として検討されているものが少なすぎるんじゃないか、もっといろんな要素を考慮すれば新規時(あるいは追い貸し時)に破産のリスク予想が可能であるかもしれない、批判も可能だと思います(上記の吉行氏の指摘に近いですが。)

Posted by akira : 2006年05月25日 16:44

よく見たら、次のエントリで計量経済の専門家がR^2他の点については指摘していたんですね。いろいろ蛇足だったかもしれません。失礼しました。

Posted by akira : 2006年05月25日 16:49

>akiraさん
私も個々の係数の解釈やプレゼンテーションの仕方には、ちょっと首を傾げるところがあります。
変数の方は元データがどういうものだったかにもよりそうですね。
アメリカだと、この手の実証分析が一つ出ると、それに対して同一データや類似データを使った反論やフォローがどんどん出てくるような気がするんですが、日本でそうならないのは、やはりデータの入手の難しさにあるんでしょうか。
早稲田も、痛いのか痛くないのか分からない腹を探られるぐらいなら、元データを個人情報に抵触しない範囲で公にすればいいのにと思うんですが・・・
統計・計量の話については専門の方からのご指摘は大歓迎ですので、どうかこれからも宜しくお願いいたします。

Posted by 47th : 2006年05月26日 00:43

論考が、月刊消費者信用に掲載されたときに読んでいらい、読んでいなかったので、読み直してみました。

付録データを見る限り、統計分析を待つまでもなく、破産を説明する有意な説明変数は、収入の減収しかありません。他の説明変数となる要因とされる状況は、正常に返済する借り手となんらかわらない。新規借入れ時の貸付、途上での債務の増加も、正常な債権と破産債権とは債務者属性にかわりがない。
唯一違いがあるのが、1万人のうち、5000人を超えるようなほぼ収入がなくなった債務者が5割に達する状況であること。表IV-8  
しかしながら、不思議なことですが、借入れ時、新規だろうが、途上での貸し増し時であろうと、そのときの所得の水準が示されていない。破綻時より貸出時の収入は重要であり、提供を受けなければ、支払い能力判断できないので、もっていないはずがないが、論考には公表がされていない。わかることは、表V-13から、10709人のうち、5914人が減収であることで、そのうち4895人が月収5万以下になっているということ。これは減収ではなく、収入を失くしただけでなく、働いていない状況である。論者が新規時の収入分布としてあげているデータV-9でわかるのは、年齢区分別の収入平均にすぎず、年収60万円以下が何人いたかは、どこからもわからない。もっともサラリーマン金融は、収入のないひとには貸さないし、与信評価に値しないので、貸さないという命題がは、現実の所与の前提条件として、誤りでないので、所得はあったことになる。しかし人数を示したIV-8や V-13とも比較ができないような、表V-9 のような表示法は、どういう意図があるのか。
いずれにしろ、破産者の収入がなくなったこと以外のデータは、どれも正常返済者との違いが出てこないので、どういう統計分析手法をとって分析してみたところで、結果は明らかであるが、どの程度説明力があるのか、どのくらい有意かを測定するに過ぎない。たぶん正常者と同じ動きをしたデータを説明変数として加えたため、説明力が落ちたであろうし、有意も下がっていると見られる。統計上、それほど有意とも見られない結果が出たのは、それが原因だろう。

さて、理由についてデータを離れて、考えてみよう。
平均的な借り手の収入が、397万円、月収が28万円とあるので、消費者金融からの借入れが、破綻時144万円(表V-11)で、自社が39万円と想定すれば(表V-11)、専業者借入れ総額では、183万円。住宅ローンがない場合には、クレジット・信販などから平均で217万円の借入れがあるので(表IV-3)、サンプルデータでの借入れ総額は、400万円となる。
生活費がいくらいるかは、個別の問題だけれど、仮に22万円を確保し、6万円を支払に回すことができれば、以下の例からわかるように、破産免責されるはずがない。年収からこの程度の支払は可能であろう。したがって、それでも破産するのは、支払ができない債務者であり、事実上、失職しているか、病気で収入が得られないことになるが、そういう債務者が50%もいることになる。破産認定が受けられる債務者だからといって、所得なしが5割とは、現実とはかなりずれてはいないか。

  ちなみに出所ことなる破産者1万人の調査データ表IV-3から、破産者の専業者貸付平均では、266万円とあり(クレジット信販を含め483万円)、今回ある特定の大手業者が提供したサンプルとは、専業者で80万円(45%)も差があることから、抽出過程で、恣意的に高額の貸付残高があって、破産になったデータが取りこぼされていることがわかる。本来、こうした場合、破産申し立てした債務者の負債総額分布を作成し、その比率に合った数を選び出すようなoptimizationをかけて抽出をすべきである。そこで、データは、恣意的に、当初から、専業者負債の小さい債務者、平均よりはるかに多額債務化していない債務者の分析結果を求めている。場合により、負債金額で下3割から選ばれた比率が相当高いといえるだろう。
 わざと負債の小さい破産申したて債務者を選んだことで、結論として、導き出そうとした命題、消費者金融業は、多重債務を生み出し、その結果としての破産の原因になっていないという(それとも仮説なのか)の確からしさを、意図的な操作で、意味のないものにしてしまう浅はかさを露呈する。借入れが平均値と同じであったら、結果はことなったであろう。

負債の大きさにかかわらず、収入がなくなり、それが今日将来も働けない状態であれば、債務超過認定をうけ、破産申請が認められる可能性は高い。負債が小さければ、もし月28万円の安定的収入があれば、全額免責される可能性は、かなり低いであろう。一部免責、債務整理でよかろうから、裁判所が全額債務免除するとも考えられない。しかし負債が大きくなった場合には、安定した所得があっても、返済不能となる分岐点がある。債務整理にのため、消費者金融借入183万円と266万円を年18%の金利で引きなおして、月の金利支払額を計算すると、
183x(18%/12+217x(15%/12)=54,575
266x(18%/12+217x(15%/12)=67,025
その差は金利支払だけで、年間で15万円ことなる。サンプルデータでは、債務者が月6万7千円を支払えれば、15万円が元本返済にあてられることができるから、その額しか支払えないとしても、元本275万円であれば、5年返済できるから(上の同じ金利を適用し)、125万円の債務免除ですむ(以下計算例)。しかし金利だけしか支払えなければ、そうはいかない。(月収28万円、年収397万円ならその程度は返済可能であろう。)
他方ある程度負債が大きく、元本残高が月支払能力では減らないような水準であれば、少しの減収があったり、あるいは子供の成長により生活費の増加で、支払が苦しくなり、そのうち、負債が持ちこたえられなくなる耐久年数がくる。負債の減少は、少しの増収で返済されようとしたであろうが、そのシナリオが崩れ、ちょっとした家族の病気や子どもの成長による学費の増加で生活費増加があれば、支払はできなくなる。
消費者金融は、そうした負債の大きさまで、貸していないという証明は、このデータからは、明らかに、故意に削除されたサンプリングをしている。早稲田大学と学者と研究者は、当然にそれを認識した上で、消費者金融が破産の原因の債務超過貸付を生んでいないと主張する不埒なやからではないか。

論者は、「新規時において、与信者による(破産を生じさせるような、私のコメント)無理な貸付けが行われている事実を確認することはできなかった。本研究では、借入した時点での相違を分析することにより、貸付時点での与信者の予見可能性を見た。この比較は、消費者金融会社が顧客の返済能力を超えた過剰な与信を行っているかということに関連する。つまり、消費者金融業者の過剰な与信が自己破産を助長しているのであれば、新規契約時の顧客属性から明らかにリスクの高い層への貸し出しが行われていると判断できる。」 「①新規時における与信者による無理な貸付け、②貸付実行後における与信者による追加的貸付け」モデルの説明力が低いこと自体が、消費者金融会社の与信能力が高いことを示唆している。」

そもそも金額の低いサンプルばかり選んで、先に結論ありきのサンプリングして、学者に平然と自分の正当性を証明しようとする業者の不実な態度は、どうなっているのか。学者も、サンプリングの方法について、説明を怠るべきではなかったであろう。

月数 金利 元本払 2,750,000
1 37,520 29,505 2,720,495
2 37,118 29,907 2,690,588
3 36,710 30,315 2,660,273
4 36,296 30,729 2,629,544
5 35,877 31,148 2,598,396
6 35,452 31,573 2,566,823
7 35,021 32,004 2,534,819
8 34,584 32,441 2,502,378
9 34,142 32,883 2,469,495
10 33,693 33,332 2,436,163
11 33,238 33,787 2,402,376
12 32,777 34,248 2,368,129
13 32,310 34,715 2,333,414
14 31,837 35,188 2,298,226
15 31,356 35,669 2,262,557
16 30,870 36,155 2,226,402
17 30,376 36,649 2,189,753
18 29,876 37,149 2,152,605
19 29,370 37,655 2,114,949
20 28,856 38,169 2,076,780
21 28,335 38,690 2,038,090
22 27,807 39,218 1,998,872
23 27,272 39,753 1,959,119
24 26,730 40,295 1,918,824
25 26,180 40,845 1,877,979
26 25,623 41,402 1,836,577
27 25,058 41,967 1,794,610
28 24,485 42,540 1,752,070
29 23,905 43,120 1,708,950
30 23,316 43,709 1,665,241
31 22,720 44,305 1,620,936
32 22,116 44,909 1,576,027
33 21,503 45,522 1,530,505
34 20,882 46,143 1,484,362
35 20,252 46,773 1,437,589
36 19,614 47,411 1,390,178
37 18,967 48,058 1,342,120
38 18,312 48,713 1,293,407
39 17,647 49,378 1,244,029
40 16,973 50,052 1,193,977
41 16,290 50,735 1,143,242
42 15,598 51,427 1,091,815
43 14,896 52,129 1,039,687
44 14,185 52,840 986,847
45 13,464 53,561 933,286
46 12,734 54,291 878,995
47 11,993 55,032 823,963
48 11,242 55,783 768,180
49 10,481 56,544 711,636
50 9,709 57,316 654,320
51 8,927 58,098 596,222
52 8,135 58,890 537,332
53 7,331 59,694 477,638
54 6,517 60,508 417,130
55 5,691 61,334 355,796
56 4,854 62,171 293,626
57 4,006 63,019 230,607
58 3,146 63,879 166,728
59 2,275 64,750 101,978
60 1,391 65,634 36,344

ところで、データBは、管理部に移管された債権を破産申立債権としてみなして分析されたとご指摘を受けたが、説明を読んだところ、申し立てられた債権とあり、ただし破産宣告を受けていないとあるに過ぎない。通常破産申し立ては、弁護士が疎明書類を作成して債務超過を証明しているので、破産免責が得られないことはないので、申し立てを破産とみなしてよかろうと考える。

なお所得の増減が破産の原因として説明力があると決定づけているが、所得については、与信評価時に証明をとっていない。アイフル事件でも明らかにされたが、できるだけ多くの貸付をしたいがため、大目の所得申告であっても、それがわかっていても、それを基準に返済能力を測り、貸付額を決定するという事実は、業界全般のことであろう。破産したとき、返済が滞ったとき、調査してみたら、収入が減るというのは、そもそものデータが誤っていたというケースが相当に見受けられ、それが全体10%以上占めていても、なんら不思議がないことを認識すべきであろう。

(管理人注:読みやすさのため改行箇所のみ管理人の方で調整しました)

Posted by 吉行誠 : 2006年05月28日 06:40

>吉行さん
回帰分析の中では、貸付時の年収は何れの場合も説明変数として入っていますので(その係数の解釈について疑問が残ることはエントリー中で書いたとおりですが)、モデルの説明力の比較においては考慮されていると思われます。
サンプリングの件については失礼いたしました。私も、最初に読んだときに管理債権移行時と読んで、すっかりすりこまれてしまっていました。自己破産申立てにおいて弁護士のスクリーニングが入っているので、宣告を受ける債務者とほぼ同様の構成になっているだろうという点は、私もそう思います。

Posted by 47th : 2006年05月28日 11:33

4/25の金融ビジネス寄稿論考を読まれると分かりますが、2001-2005の4年間の間に、大手3社で、100万円を超えるローンは、全体の1/3~40%に達しました(武富士を除く。武富士は、75%の債務者が50万~100円借入している)。
数年間に、各社ひとりあたりのローン単価は、10万円以上、増大しています。
大手4社では各社250万口座ありますから、一社で2500億円の残高増加。4社で総額1兆円。既存顧客が、他社借入件数を3件とすれば、ネット顧客数は、250万人で、ひとりあたり40万円増えたことになる。これは金利だけで、2737億円(年27%で計算)。
これでも多重債務を作っていないというのか。これは見逃された犯罪ではないのか。そして犯罪を見逃したのが、金融庁で、業者に貸付金を提供してきたのが、銀行保険業界だろう。
ところで、その間に、各社のポートフォリオ残高は、初めての人戦略でTV広告売ったけれど、新規客は増えず、これらのcredit per loanの増大は、途上で追加して貸したことがわかります。だから途上で貸付して、そして多重債務者を創造し続けた。
支払能力のあるenclosed accountsは、債務が膨らむばかり。
こうして彼らは、破産予備軍として、登録されている。
(管理人注:以下1文、管理人の判断により削除させていただきました)

さて、さて破産の研究で、説明ポイントをひとつ忘れました。
収入の減少=支払能力が減少すれば、どうなるでしゅうか。
通常、業者は、月10万円返せる能力があるとなれば、それでいくらまで貸せるか、月の約定返済率から、逆算します。3.5%であれば、元本は285万円で、10万円になります。それが収入がへったら、どうなりますか? たとえば、8万円しか返済できなければ(228万円が借入上限になりますが)、残高が減少していなければ、元本返済予定が遅くなり、期間が延びることになります。残高が減らなければ、29%/12とすれば、金利だけで69500円となり、もはや返済能力が7万円を下回るくらいになると、他で借り入れることもできず、破産の危機になるのです。
月収の減少は、other conditions being equal,統計上、相当な決定係数となるはずでしょう。分析は、collenealityの悪影響だけでなく、減少効果を打ち消すような雑音を入れすぎています。
とにかく、50%が年収ゼロに為っているのですから、彼らは即刻破産認定が受けられます。

Posted by 吉行誠 : 2006年05月28日 21:37

ライフイベントというさまざまな要因がある事由より、単純に破産件数と失業者を単純回帰すしますと、割合と当てはまり具合のよい結果がでます。
    2-year lag
slope= .09264 .09285
R^2 = 87% 91.2%
err = 29177 24044

誤差はかなり長期で、必ずしも説明されない期間を含め、25000件であれば、破産件数の15%くらいでしょうか。まだずれは大きいようですが、逆に離婚など異なる説明変数を入れたら、collenearlityがあるのか、説明力は落ちるのではないでしょうか。
ただ90年代に失業者の2%だった破産が、現在6%台半ばであるのをどう考えるか。
失業したときに、負債が破産するほど多いことを意味するのでしょうか。
そうすると、3倍くらいに貸し出しが増えて破産に貢献したことになりませんか。

失業者数 離婚件数 破産
1970 590,000
1975 1,000,000 119,135
1980 1,140,000 141,689
1985 1,560,000 166,640 14,625
1986 1,670,000 166,054 11,432
1987 1,730,000 158,227 9,774
1988 1,550,000 153,600 9,415
1989 1,420,000 157,811 9,190
1990 1,340,000 157,608 11,273
1991 1,360,000 168,969 23,288
1992 1,420,000 179,191 43,144
1993 1,660,000 188,297 43,545
1994 1,920,000 195,106 40,385
1995 2,100,000 199,016 43,414
1996 2,250,000 206,955 56,494
1997 2,300,000 222,635 71,299
1998 2,790,000 243,183 103,803
1999 3,170,000 250,529 122,741
2000 3,200,000 264,246 139,281
2001 3,400,000 285,911 160,457
2002 3,590,000 289,836 214,633
2003 3,500,000 286,000 242,377
2004 3,130,000 270,815 211,402
2005 2,940,000 184,294
2006 2,840,000 177,650

Posted by 吉行誠 : 2006年06月04日 22:49

>吉行さん
失業と破産者全体との間の相関が強いことは、おそらくそのとおりでしょうが、それだけでは、そこに消費者金融がどういう影響をもたらしているかを見極めることはできないと思います。

Posted by 47th : 2006年06月05日 00:04

消費者金融は、与信枠を決定する数千通りの組み合わせがある信用評価スコアリングがあるとのこと。大手では、みな過去の取引履歴と口座信用情報をつなげて、フィルタリングできるデータベースをもっており、対象既存口座だけで、一社当たり250万件です。
どうしてわざわざサンプリングしなければならなかったのでしょうか。通常、業者は、全部のデータで、パフォーマンス推定モデルを作り、コンピュータを回すことができます。そのほうが単純で、社内での説明に、バイアスが係っていない証明ですので、楽なこと。一部を捨てるとすれば、捨てるクライテリアが必要です。
なぜわざわざ、データベースから、どんな基準で抜き取ったか。それがわかりません

Posted by 山本美幸 : 2006年06月20日 10:44

>山本美幸さん
クレジット・スコアリングと今回の研究のアプローチの違いについては、吉行さんとのコメントのやりとりで触れているので、そちらもご覧下さい。
実際にどうやっているのかは分かりませんが、クレジット・スコアリングのモデルをつくる際にも抽出サンプルで処理をしないと、バイアスのチェックが難しくなるのではないかという気がします。また、サンプルの抽出方法において恣意的な基準が使われていなければ、1万件のデータがあれば統計的には意味のある結果が導き出せるはずです。
ただ、元となったデータのサンプリングにバイアスがあったのではないかという点については、吉行さんがコメントの中で具体的なデータをあげてご説明されていますので、そちらをご覧下さい。
私自身の立場は、少しクビを傾げたくはなるものの、現時点では、その内容を排斥することはできないので、同様のアプローチでの新しい研究を待ちたいと考えています。

Posted by 47th : 2006年06月22日 08:52

 
法律・経済・時事ネタに関する「思いつき」を書き留めたものです。
このブログをご覧になる際の注意点や管理人の氏素性についてはAbout This Blogご覧下さい。