順序ロジスティック回帰:読む・分析する・書く | 文献紹介

統計分析によって予測したい変数が,順序尺度かつ多値(3種類以上)の場合,順序ロジスティック回帰(Ordered Logistic Regression)を行います。この記事では,順序ロジスティック回帰を行っている論文を読み,実際に分析して,論文を書く際に参考になった書籍やスライドを紹介します(*順序ロジスティック回帰の説明ではなく,文献の紹介です)。

以下では,主に内田治著『SPSSによるロジスティック回帰分析』【初版】を参照して,補足的にその他の文献を紹介していきます。


1. 論文を読む

そもそも,「この論文を読みたい!」と思って順序ロジスティック回帰を学び始めました。目的変数が順序尺度であっても,間隔尺度とみなして重回帰分析を行っている研究も見かけますが,こちらの論文では順序ロジスティック回帰分析を行っていました。

Sayogo, Djoko Sigit; Pardo, Theresa A. Exploring the determinants of scientific data sharing: understanding the motivation to publish research data. Government Information Quartery. 2013, Vol. 30, Supplement 1, p. S19-S31.

『SPSSによるロジスティック回帰分析』では,第8章の2「累積ロジスティック回帰」が順序ロジスティック回帰の解説です。他に読んだ中では,石村貞夫ほか著『SPSSによるカテゴリカルデータ分析の手順』(第3版)第4章「順序回帰分析」の説明が簡潔で,概要を掴みやすかったです。

Sayogoらの論文紹介は「研究者による研究データ共有の決定要因は何か<文献紹介>」にまとめて,カレントアウェアネス-Eに掲載していただきました(2013/7/11)。


2. 分析する

自身の研究として,学術雑誌によるデータ共有ポリシーの強度を「必須」「推奨」「受諾」「なし」の4段階に分類して,分野横断で調査しました。「先行研究の手法を改良して,最新・広範な調査を!」と息巻いて始めたものの,あらゆる分野をカバーすることは難しく,ポリシーは時間とともに変化していきます。そこで,どのような雑誌が強いポリシーを持つのかを予測するモデルを作ることによって今後の調査に貢献したいと考え,SPSS ver.22を使って順序ロジスティック回帰分析を行いました。

ロジスティック回帰分析では複数の説明変数を組み合わせて回帰式を作りますが,安定した回帰式が得られるように(=多重共線性が生じないように),説明変数同士で相関がある場合は片方を落とします。また,目的変数を一意に判別できる(=完全分離の状態にある)説明変数があれば除外します。交互作用も検討して,最終的に残った変数を組み合わせて,目的変数を最もよく予測できる回帰式を作ります。以下では,私が実行した手順と『SPSSによるロジスティック回帰分析』の該当ページを示します。

2.1 データの準備

基本統計量(p.48-)

説明変数の平均値,中央値,標準偏差などの算出と散布図による外れ値の確認などを行います。また,各説明変数と目的変数の相関も調べておきます。

ダミー変数(p.72-)

SPSSは目的変数を自動的にダミー変数に変換してくれます。最後(数値ならば一番大きい値)のカテゴリが基準(レファレンス)になるので,「必須」が基準になるように4として,以下,「推奨」を3,「受諾」を2,「なし」を1にしました。

2.2 説明変数の絞り込み

多重共線性:相関分析(p.50)

説明変数同士に強い相関があると多重共線性によって回帰式に問題が起きるため,相関分析を行います。数値変数同士はPearsonの相関係数を,カテゴリ変数同士はSpearmanの順位相関係数を用いました。相関係数0.4以上を目安として,相関がみられた2変数(カテゴリ変数)は,他の変数との相関が高い方を除外しました。同じく相関が見られた2変数(数値変数)については,次項の線形回帰分析の結果,VIF値が高かった方を除外しました。

多重共線性:線形回帰(p.50-)

線形回帰で「共線性の診断」を実行して許容度とVIF値を確認します。『SPSSによるロジスティック回帰分析』によれば,”VIF値が10以上のときは,多重共線性による弊害が起きやすいと言われている(p.51)”とのことですので,10以上ならば除外します。

完全分離(p.119-)

説明変数=xのとき目的変数=a,説明変数=yのとき目的変数=b,というように,目的変数を一意に判別できる説明変数を回帰式に投入すると最尤解が求められなくなるため,このような完全分離の状態にある変数がないかどうかを確認します。クロス集計表や散布図を作成するので,あわせて外れ値がないかどうかも確認しました(p.130-)。

交互作用(p.82-)

説明変数同士の組み合わせによる影響を検討します。本研究では「分野」と他の変数の組み合わせによる影響が考えられたので,ダミー変数「分野グループ」を作成しました。

2.3 SPSSによる分析

変数選択(p.94-)

説明変数のうち,カテゴリ変数を「因子」に,数値変数を「共変量」に投入して,目的変数を最もよく予測する説明変数の組み合わせを検討します。『SPSSによるロジスティック回帰分析』では,総当り法と逐次変数選択法が紹介されています。

総当り法は,説明変数の全ての組み合わせで順序ロジスティック回帰分析を実行して,最適な組み合わせを選択します。変数の選択基準は,対数尤度,寄与率,正解率,有意性で,組み合わせによって偏回帰係数の符号(+-)が変わらない(=安定した)変数が良いようです。一般に,有意水準は0.05が使われますが,変数選択の際には厳しすぎるので”0.1〜0.3を使うとよいとされている”(p.98)そうです。

逐次変数選択法は,変数増加法と減少法があります。説明変数の追加/除去の基準を決めておいて,説明変数を一つずつ加除しながら最も良い回帰式を求めます。本研究は,Waldのχ2値が2以上,有意水準0.1程度(最終的に決定する際は0.05)を基準として,Nagelkerkeの寄与率を確認しながら説明変数を選びました。なお,回帰式の精度を示すNagelkerkeやCox-Snellの寄与率(擬似R2)は,重回帰分析などの決定係数R2よりも低めに出ます。

2.3 結果の確認

予測精度の計算(p.177)

回帰式から得られる予測値と実際の値を比較して予測精度を算出します。予測値はSPSSで出せるので,その正解率を手計算します。

平行線の検定(p.182)

いずれの回帰式でも説明変数の効果が均一であるという「平行性の仮定」が成り立つかどうかを確かめるため,平行線の検定を行います(三輪哲, 林雄亮著『SPSSによる応用多変量解析』「13.3.1 平行性の仮定(p.203-)」に詳しいです)。平行線の検定は「すべての回帰式について,説明変数の偏回帰係数(傾き)が等しい」が帰無仮説で,有意でなければ(有意確率が0.05以上ならば)採択されます。


3. 論文を書く

順序ロジスティック回帰を使った論文を読み比べて過不足のない書き方を探ろうとしたのですが,(当然)うまくいかず…「ロジスティック回帰分析」の書き方というスライドを参照しながら書きました。こちらは分析手順の確認にもなりました。

原稿を小野寺夏生先生に見ていただいたところ,「ポリシーの強度(目的変数)と有意な相関があるのに,選択しなかった変数の説明をするべきです」とのコメントをいただきました。ご指摘の通り,相関があるのに回帰式のあてはまりが悪い変数があり,試行錯誤したため追記しました。他にも多くのコメントをいただき,コメントの書き方も含めて大変勉強になりました。

また,分析とは直接関係ないのですが,査読過程で追記するように指示された点が複数あったため,やむを得ず数式などの細かい説明を削りました。投稿時に規定のページ数ギリギリだったので,次は紙幅に余裕を持たせて投稿しようと思います。反省。

池内有為, 逸村裕. 学術雑誌によるデータ共有ポリシー:分野間比較と特徴分析. Data sharing policies in scholarly journals across different disciplines: A comparative study. 日本図書館情報学会誌. 2016, Vol. 62, No. 1, p. 20-37.


Next

岸田和明先生の『図書館情報学における統計的方法』は,LIS分野の研究(実例)を挙げながら様々な手法を紹介しています。こちらを参考にしながら,新たな研究や手法に挑戦したいです。

「順序ロジスティック回帰:読む・分析する・書く | 文献紹介」への2件のフィードバック

  1. お世話になります。多重ロジスティック解析を行っている者です。質問なのですが、
    ロジスティック回帰分析で、多重共線性の問題解決のためには多重ロジスティック回帰の前に、前述の相関分析と線形回帰を行うという事でしょうか?
    その方法はどのようなものでしょうか?
    説明変数が多い場合、多重ロジスティック回帰を行う際にどのようにしたらよろしいでしょうか?
    また、多重ロジスティック回帰分析の過程でVIFを求める事は可能でしょうか?
    多岐にわたる内容で申し訳ありませんが、どうぞご教示ください。よろしくお願いします。

    1. 栗原さま,コメントありがとうございます。

      >多重共線性の問題解決のためには多重ロジスティック回帰の前に、前述の相関分析と線形回帰を行うという事でしょうか?
      はい,おっしゃる通りです。

      >その方法はどのようなものでしょうか?
      相関分析:説明変数を数値/カテゴリに分けて,それぞれの相関係数を確認しました(SPSS:分析>相関>2変量)。相関係数の基準(いくつ以上ならば「相関がある」とみなして除外するか)は分析者によるようです。私は0.4としました。

      線形回帰:分析>回帰>線形回帰(ステップワイズ法)で,統計量>共線性の診断を選択してVIF値を確認しました。紹介した文献では10以上を基準(除外する)としていました。

      >説明変数が多い場合、多重ロジスティック回帰を行う際にどのようにしたらよろしいでしょうか?
      一般には線形回帰分析で選択された説明変数を候補として,あてはまりのよい組み合わせを探すようです(総当り法や逐次変数選択法は手間がかかる+線形回帰で選ばれる変数がロジスティックでもあてはまりがよい場合が多いからだと思います)。
      私は逐次変数選択法でやってみましたが,線形回帰による変数の組み合わせよりも微妙にあてはまりがよいと考えられる組み合わせがあり,そちらを選びました。

      >多重ロジスティック回帰分析の過程でVIFを求める事は可能でしょうか?
      SPSSのロジスティック回帰分析では求められないため,上記の線形回帰分析を行って確認しました。

      お役に立てましたら幸いです。

oui へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。