散布図のようにデータが点在しているグラフでは、データの傾向を把握しやすくするために「近似曲線」を描画するケースが多い。Excelには近似曲線を追加する機能が用意されているため、数学(統計学)が得意でなくても、手軽に近似曲線を描画することが可能だ。ただし、「それが本当に信頼できるのか?」には十分に注意する必要がある。

近似曲線の追加

前回の連載では、「通勤時間」と「睡眠時間」の関係性を探るための「散布図」を作成した。ここに適当な「グラフ タイトル」を入力すると、以下の図のようなグラフに仕上げられる。

    前回の連載で作成した散布図

これだけでも「通勤時間」と「睡眠時間」に相関関係があることは何となく理解できるが、「近似曲線」を追加すると、より鮮明に傾向を把握できるようになる。

近似曲線は、各データを数学的に処理することで「妥当と思われるライン」(線)を描画したものだ。これにより、データの傾向を大まかなイメージではなく、数値(数式)として捉えられるようになる。

文章で説明するよりも実例を見た方が理解しやすいと思われるので、先ほどの散布図に「近似曲線」を追加してみよう。いずれかのマーカーを右クリックし、「近似曲線の追加」を選択する。

    近似曲線を追加する操作

すると、画面右側に設定画面が表示される。ここでは、近似曲線の種類などを指定すればよい。たとえば、「直線」の近似曲線を描画したいときは「線形近似」を選択すればよい。

    近似曲線の書式設定

グラフに戻ると、以下の図のような「直線」が描画されているのを確認できる。これが「線形近似」の近似曲線となる。

    「線形近似」の近似曲線を追加した散布図

この直線の「通勤時間」が65分と100分の地点に注目すると、「睡眠時間」が約7:45から約7:30に減少していることを確認できる。つまり、「通勤時間」が35分ほど長くなると「睡眠時間」は15分ほど短くなる、と考えられる。両者を5で割ると、7分の「通勤時間」につき3分ずつ「睡眠時間」が減少していく、と推測できる。

このように「近似曲線」を使うと、具体的な数値でデータの傾向を把握できるようになる。ただし、「この推測が本当に正しいか?」には疑問の余地が残る。というのも、「通勤時間」と「睡眠時間」が必ずしも直線的な関係性になるとは限らないからだ。

これについては後ほど詳しく検討するとして、続いては、描画した近似曲線の書式を変更する方法について紹介していこう。

近似曲線の書式変更

近似曲線は「青色の点線」で描画されるが、この線の書式を自由に変更することも可能だ。線の書式を変更するときは、「近似曲線」を右クリックし、「枠線」コマンドで線の色、太さ、種類を指定すればよい。

    線の書式の指定

そのほか、近似曲線の設定を指定しなおすことも可能となっている。この場合は、「近似曲線」を右クリックし、「近似曲線の書式設定」を選択する。

    「近似曲線の書式設定」の呼び出し

すると、近似曲線を追加したときと同じ設定画面が表示され、近似曲線を再設定できるようになる。試しに、近似曲線の種類を「対数近似」に変更してみると、以下の図のような結果が得られる。

    近似曲線の書式設定

    近似曲線を「対数近似」に変更した例

先ほどの「線形近似」に比べて、よりデータ分布に沿った近似曲線を描画できたように見える。ただし、この近似曲線は信頼性に疑問を感じる部分がある。これについては、次節で詳しく解説していこう。

近似曲線を延長して予測するには?

近似曲線は、「データがない部分」の状況を予測するときにも活用できる。この場合は、近似曲線を前後に延長して描画する。

ここでは、「線形近似」(直線)に戻した近似曲線を使って、その操作手順を紹介していこう。「近似曲線」を右クリックし、「近似曲線の書式設定」を表示する。続いて、「前方補外」や「後方補外」に適当な数値を指定すると、近似曲線を延長できる。

今回は「数値の小さい側」に近似曲線を延長したいので、「後方補外」の値を変更した。現状において、近似曲線は「通勤時間」が57分の位置から描画されている。これより大きい数値(たとえば60)を「後方補外」に指定すると、近似曲線を0分以下の位置まで延長できる。

    「後方補外」の指定

グラフに戻ると、近似曲線が延長されているのを確認できるはずだ。ただし、「横軸の範囲」が55~105分に指定されているため、グラフから飛び出す部分は表示されない。

    延長された近似曲線

近似曲線を必要な部分まで表示するには、「横軸の範囲」や「縦軸の範囲」を変更してあげる必要がある。たとえば、横軸の「最小値」を0(分)に、縦軸の「最大値」を8:15に変更すると、グラフの表示は以下の図のように変化する。

    「縦軸と横軸の範囲」を調整した散布図

この図を見ると、「通勤時間が0分(テレワーク)になると、睡眠時間は約8:13まで伸びる」と予測できる。もちろん、この予測は、得られたデータを数学的に処理した結果でしかないため、「絶対に正しい」とは言い切れない。ひとつの目安として考えるのが基本だ。

続いては、近似曲線を「対数近似」に変更した例を紹介しておこう。近似曲線を延長する前は、「対数近似の方がデータ分布に沿っている」と感じた方も多いだろう。しかし、この近似曲線を延長すると以下の図のような結果になってしまう。

    近似曲線を「対数近似」に変更した場合

縦軸との交点を確認できないので、「縦軸の範囲」をさらに広げてみよう。すると、以下の図ような結果になる。

    「縦軸の範囲」を調整した散布図

この図を見ると、「通勤時間が0分(テレワーク)になると、人は毎日11時間ほど睡眠する」という予測になる。とはいえ、これは現実離れした予測といえるだろう。「いくら何でも、そこまで睡眠時間は長くならない」と考えるのが普通だ。となると、「対数近似」の近似曲線は不適切である可能性が高い、と考えられる。

このように近似曲線を使うと、データ分布の傾向を明確に把握したり、「データがない部分」の状況を把握したりすることが可能となる。ただし、「適切な近似曲線を選択している場合に限る」という条件が付くことを忘れてはいいけない。

通勤時間と睡眠時間の間に「直線的な反比例の関係がある」という何らかの根拠があるのであれば、「線形近似」を選択するのが正解だ。しかし、そのような根拠を示せない場合は、近似曲線は単なる目安でしかない。

「対数近似」や「指数近似」、「多項式近似」なども同様で、「何となくデータに沿っていそうだから・・・」と根拠なく選択するのは間違った使い方になる。

近似曲線は手軽に描画でき、かつ状況を把握しやすくしてくれる便利な機能であるが、実際に使用するときは、その根拠と信頼性について十分に検討しておく必要がある。近似曲線を「正しいもの」と盲目的に信頼するのは危険だ。安易に使うと、間違った結論や予測が導き出されてしまう危険性がある。このことをよく認識しておこう。