【R×栄養統計】多重比較を行う理由と使い分けを紹介｜検定の多重性問題

みなさん，こんにちは。
シンノユウキ（shinno1993）です。

Rで多重比較を行う方法を紹介していきます．ボリュームがあるので，前編と後編とに分けて行います．
前編の今回は検定の多重性の問題，統計検定の使い分けについて紹介します．

多重比較を理解するステップ

検定の多重性の問題を理解する ← 今回紹介
多重比較の使い分けについて理解する ← 今回紹介
実際に検定してみる（次回）

ではいきましょう！

t検定を繰り返してはいけない理由
1. 一元配置分散分析の不便な点
2. 「検定の多重性」とは？
検定の使い分けは？
まとめ
連載目次

t検定を繰り返してはいけない理由

一元配置分散分析の不便な点

以前の記事では多標本のデータを比較する際の統計手法として一元配置分散分析やクラスカル・ウォリス検定を紹介しました：

【R×栄養統計】食べる速さでエネルギー摂取量に差がある？対応のない多標本の栄養統計

R言語で栄養統計を行う連載．対応のない多標本データを比較する際の統計手法について解説します．仮説検定としては，一元配置分散分析 (one-way ANOVA)，クラスカル・ウォリス検定を取り上げます．

こちらの方法でも，多標本で差があるかどうかを判断することはできます．ただし，どのグループ間で差があったかどうかを判断することはできません．A・B・Cと3つのグループがある場合，一元配置分散分析で差があると判断されても，どことどこのグループ間に差がある（例えばAとB）とは言えないのですね．

それを知るためには，それぞれのグループ間で比較する必要があります．A・B・Cの3つのグループだと，AとB，BとC，AとCといった具合に，それぞれで比較しなければなりません．

「これでOK！」と思えてしまいますが，実は問題も生じます．それが「検定の多重性の問題」です．このような比較を行う際に知っておかなければならない問題です．以下で少し詳しく見ていきます．

「検定の多重性」とは？

仮説検定を行う場合は有意水準を設けます．有意水準はαエラー，いわゆる第1種の過誤を犯す確率（帰無仮説が正しいのに棄却してしまう確率）で，5％ (0.05) が採用されることが多いです．帰無仮説が正しいのに棄却してしまう確率が5％よりも少ないならば，それは偶然の結果ではないと考えて良いのではないか，意味が有ることなのではないか，という考えのもとにこのくらいの値に設定されています．

しかし，検定を繰り返すことにより，全体としてみた場合の有意水準は大きくなってしまいます．たとえば有意水準を5％とした検定を3回行ったとしましょう．この場合，このうちのどれかでも有意となってしまう確率は 1- 0.95 ^ 3 で 14%となります．つまり，個々の検定における有意水準は5%であったとしても，全体として見た場合は，5％よりも水準が甘くなってしまうのです．

これが「検定の多重性の問題」です．それを防ぐためには特別のアプローチが必要となります．これについて以下で見ていくとしましょう．

一元配置分散分析ではどのグループに差があるかまではわからない
検定を繰り返す場合は「検定の多重性」が問題に
「検定の多重性」を解消するために特別なアプローチが必要

検定の使い分けは？

多重比較の2つのアプローチ

上記の問題を解決するために2通りのアプローチが考えられます．すなわち，

p値のみを調整する方法
統計量を調整する方法

です．

p値のみを調整する方法では，多重比較の場合に個々の検定の有意水準を厳しくすることにより検定の多重性を回避します．代表的なものはボンフェローニ補正です．

統計量を調整する方法では，1回だけの比較よりも統計量を低めに調整することで検定の多重性を回避します．代表的なものにはチューキーのHSD検定やダネット検定があります．

p値の調整 or 統計量の調整

これらの方法は，統計分析を行う目的やデータの特性に応じて使い分けるべきです．

まず，p値のみを調整する方法と統計量を調整する方法のどちらを選ぶべきか．それぞれボンフェローニ補正とチューキーのHSD検定を例とします．

この2つの方法は比較する群の数は多くない場合（3~4くらい）は結果は大きく違いません．ただし，それ以上の数になってくるとボンフェローニ補正では有意差が得られにくくなり，βエラー（差があるのにないとする）が起こりやすくなります．なので，群の数が多い場合はチューキーのHSD検定を選ぶべきかもしれません．

ただし，チューキーのHSD検定は対応のない群間での比較に用いられるもので，対応のある場合には使えません．それに対してボンフェローニ補正は基本的にどのような統計手法でも適用できるため，対応のある場合でも使うことができます．

チューキー or ダネット

チューキーのHSD検定とダネット検定．この2つを使い分けるポイントは，「どの群間で比較したいか」です．

３つの群があると考えてみましょう．BMI区分によって肥満と普通，痩せの３つの群があるとします．

チューキーのHSD検定は，全ての群について，そのそれぞれで比較します．上記の例だと，肥満-普通・肥満-痩せ・普通-痩せの３つの組み合わせを検定します．よって３回の検定が必要になります．

それに対してダネット検定の場合は，基準となる１つの群とその他の群とを比較します．上記の例ではたとえば肥満の人を基準とするとした場合，肥満-普通・肥満-痩せの２つの組み合わせを検定します．なので，２回の検定で済むということになります．

検定の結果として言いたいことが，たとえば肥満に関するものである場合，ダネット検定で基準となる群を肥満とすると解釈が分かりやすくなるかもしれません．それに対して総当たり方式で比較したい場合はチューキーのHSD検定を用いる必要があります．このあたりは，「検定の結果として何が言いたいのか」に大きく関わってきます．

まとめ

今回は多重比較を行うにあたり，

検定の多重性の問題
多重比較の使い分け

に焦点をあてて紹介しました．

次回は実際にRでコードを書いて多重比較を行っていきたいと思います．
次の記事はこちら！

【R×栄養統計】どの群間に差がある？対応のない多標本における多重比較

R言語で栄養統計を行う連載．対応のない多標本における多重比較の方法について紹介しています．仮説検定としてボンフェローニ補正，チューキーのHSD検定，ダネット検定を取り上げています．