Rで栄養統計を学ぼう!第2回:代表値と散布度を算出してみよう

R言語

「Rで栄養統計を学ぼう!」の連載第2回。

今回は、足し算や割り算などの基本的な計算の方法をまず学習し、その次に、平均値や最頻値などの代表値を算出する方法をご紹介します。

また、分散や変動係数などの散布度も算出してみたいと思います。

コードもたくさん書いていきますが、頑張っていきましょう。

まずは四則演算から!

こちらは特に迷うことはないですよね。Excelなどで使用する四則演算と同じ記号を用います。

 

代表値を算出してみよう

では、次は代表値を算出してみましょう。

代表値とは?

代表値には、大きく分けて以下の3つがあります。

  • 平均値
  • 中央値
  • 最頻値

代表値というのは、数値の分布における集団的特徴を表現するために用いられます。

平均値は、n個のデータがあった場合、それぞれのデータの値を合算し、データの個数であるnで割った値です。

中央値は、n個のデータを小さい方から順番に並べた場合に、その中央に値する数値のことです。

最頻値は、n個のデータがあった場合、その中で最も多く出現する数値のことです。

では、さっそく、Rで代表値を算出してみましょう。

そのまえに、サンプルとなるデータを入力しておきましょう。まずは、以下のコードを記述してください。

このコードでは、testという変数に、1,2,3,4,5,5,6の値を代入しています。

変数というのは、データを入れるための箱になるようなもののことです。変数 <- 代入する値 で変数に値を代入させることができます。

c()は関数で、引数として入力した数値を結合させるという働きがあります。ちなみに、cはcombineの略です。

なお、Rでは、複数の値を縦または横に並べたものをベクトルといいます。また、単一の値のことをスカラーと呼びます。この辺りの理解は少し難しいところがあるのですが、こんな言い方をするんだなーと一応頭の片隅の置いておいてください。ちなみに、先ほど作成した変数testは、複数の値を持ちますのでベクトルです。

では、このデータの代表値を算出してみましょう。

平均値

平均値を算出するためには、mean関数を用います。

なので、testの平均値は、以下のように算出されます。

中央値

中央値を算出するためには、median関数を用います。

なので、testの中央値は、以下のように算出されます。

 

最頻値

Rでは、最頻値を算出する関数はありません。

そのため、どの数値が何度出現したかを表現できる、table関数を用います。

すると、上のような形式で表示されます。この場合、123456というのが、testに含まれている数字の一覧で、その下が、それらの数値が何回出現したかを示す度数です。

今回の場合は5の下にある2が最も頻度が高いということになりますので、testの最頻値は5です。

 

バラツキを表す指標

では次に、バラツキを示す指標である、分散、標準偏差、変動係数を算出する方法を紹介します。

そのまえに、今回もテストデータをまずは作成しましょう。

サンプルデータのダウンロード

以下のURLからサンプルデータの示されたcsvファイルをダウンロードしてください。

sample-2.csv

これをインポートします。

RStudioの右上のウインドウの、「Import Dataset」→「From Text(readr)」を選択してください。

 

新しいウインドウが開きますので、以下の画面に従って操作してください。

これで、サンプルデータをダウンロードすることができました。これからはこのデータを用いていきます。

なお、今回インポートしたデータは、データフレームの形をとっています。名前だけ聞くとわかりづらいですが、簡単にいうと、Excel形式のデータのように、行と列から構成されているデータのことです。

このデータフレームの、特定の列を参照するためには、データフレーム名$列名と記述します。今回インポートしたデータは、idとenergyの列を持っていますが、このenergyの列を参照したい場合には、sample$energyと記述することになります。

つまり、もしenergyの平均値を求めたいという場合は、以下のようになります。

分散

分散は、データの散らばり具合を示す指標です。偏差(個々の値-平均値)を2乗したものの平均です。Rではvar関数を用いることで算出できます。

標準偏差

分散の平方根が標準偏差です。分散は偏差を2乗しているため、その単位までもが2乗されたものになります。つまり、energyの単位はkcalですが、分散の場合はkcal² が単位となってしまうのです。そのため、平均値などを参照し。バラツキを確認したいといった場合には、単位が異なるために不便です。それを解消するものが標準偏差です。

Rにおいて、標準偏差はsd関数で求められます。

変動係数

最後は変動係数です。標準偏差の場合、そのバラツキ具合に単位がついてしまいます。そのため、単位の異なるものと比較したい場合などには不便です。それを解消するのが変動係数です。

Rで変動係数を算出する関数はありませんが、標準偏差を平均値で割ったものが変動係数です。なので、以下のように算出できます。

 

まとめ

今回は、Rにおける代表値およびバラツキの指標を算出する方法をご紹介しました。

それぞれの指標の解説はかなり少なくなってしまいましたが、まずはコードを書いて使えることも重要だと思います。頑張ってマスターしましょう。

 

連載目次