統計の回帰分析で、回帰係数から予測する際に、元のあるデータから遠い場所にあるデータを分析することを外挿(ほがい)というが、なぜやってはいけないのか
簡単に説明します
使用したデータより離れ過ぎると異常値の可能性で分析できる保証できない
回帰係数を求める際に元データがあると思います。ここから推測値を出して回帰分析をします
しかし、予測したい数値があまりにも離れすぎている場合、本当にその公式に当てはめられるか?っという問題が出てきます
例えば気温とアイスの売上
気温があがると、アイスが売れる
日本だと40度近くまで気温が上がりますよね
もし気温が70度になった場合、等しくアイスが売れるかどうか?って考えてみてください
いやいや生物死んじゃうよ、売れるわけないよ。アイスなんて買ってる場合じゃない!
ってなりますよね
そうなると、通常環境での回帰分析と、あまりにも外れすぎた値を入れても期待通りの数字が出ない可能性があります。
なので極端に外れた目的変数をそのまま当てはめるとうまく機能しないので、まずは落ち着いて考えましょうてことですね