みなさん,こんにちは。
シンノユウキ(shinno1993)です。
今回は,足し算や割り算などの基本的な計算の方法をまず学習し,その次に,平均値や最頻値などの代表値を算出する方法をご紹介します.
コードもたくさん書いていきますが,頑張っていきましょう.
まずは四則演算から!
まずじゃ簡単な四則演算からやっていきます.足し算,引き算,掛け算,割り算です.これらは非常に簡単です.
#足し算は+で > 1+1 [1] 2 #引き算は-で > 2-1 [1] 1 #掛け算は*で > 1*2 [1] 2 #割り算は/で > 2/2 [1] 1
こちらは特に迷うことはないですよね.
Excelなどで使用する四則演算と同じ記号を用います.
とりあえず基本として抑えておきましょう.
代表値を算出してみよう
では,次は代表値を算出してみましょう.
代表値とは?
代表値には,大きく分けて以下の3つがあります.
- 平均値
- 中央値
- 最頻値
代表値というのは,数値の分布における集団的特徴を表現するために用いられます.
平均値は,n個のデータがあった場合,それぞれのデータの値を合算し,データの個数であるnで割った値です.
中央値は,n個のデータを小さい方から順番に並べた場合に,その中央に値する数値のことです.
最頻値は,n個のデータがあった場合,その中で最も多く出現する数値のことです.
では,さっそく,Rで代表値を算出してみましょう.
そのまえに,サンプルとなるデータを入力しておきましょう.まずは,以下のコードを記述してください.
test <- c(1,2,3,4,5,5,6)
このコードでは,testという変数に,1,2,3,4,5,5,6の値を代入しています.
変数というのは,データを入れるための箱になるようなもののことです.変数 <- 代入する値 で変数に値を代入させることができます.
c()は関数で,引数として入力した数値を結合させ,ベクトルとするという働きがあります.以下のように使用します:
ちなみに,cはcombineの略です.
なお,Rでは,複数の値を縦または横に並べたものをベクトルといいます.また,単一の値のことをスカラーと呼びます.この辺りの理解は少し難しいところがあるのですが,こんな言い方をするんだなーと一応頭の片隅の置いておいてください.ちなみに,先ほど作成した変数testは,複数の値を持ちますのでベクトルです.
では,このデータの代表値を算出してみましょう.
平均値
平均値を算出するためには,mean関数を用います.mean関数の使い方は以下の通りです:
なので,testの平均値は,以下のように算出されます.
> mean(test) [1] 3.714286
中央値
中央値を算出するためには,median関数を用います.median関数は以下のように使用します:
なので,testの中央値は,以下のように算出されます.
> median(test) [1] 4
最頻値
Rでは,最頻値を算出する関数はありません.
そのため,どの数値が何度出現したかを表現できる,table関数を用います.以下のように使用します:
> table(test) test 1 2 3 4 5 6 1 1 1 1 2 1
この場合,123456というのが,testに含まれている数字の一覧で,その下が,それらの数値が何回出現したかを示す度数です.
今回の場合は5の下にある2が最も頻度が高いということになりますので,testの最頻値は5ということになります.
まとめ
今回は,Rにおける四則演算と代表値を算出する方法について紹介しました.
それぞれの指標の解説はかなり少なくなってしまいましたが,まずはコードを書いて使えることも重要だと思います.頑張ってマスターしましょう.
連載目次
- 【R×栄養統計】RとRStudioをインストールしよう
- 【R×栄養統計】四則演算と代表値の算出をやってみよう現在のページ
- 【R×栄養統計】データの読み込み方法を習得しよう【TXT・CSV,・XLSX】
- 【R×栄養統計】性別と肥満度に関係があるか?カテゴリデータの栄養統計
- 【R×栄養統計】正規分布しているか?正規性を確認する方法を紹介します
- 【R×栄養統計】男女でエネルギー摂取量に差はある?対応のない2群間の栄養統計
- 【R×栄養統計】栄養指導に効果はあった?対応のある2群間の栄養統計
- 【R×栄養統計】食べる速さでエネルギー摂取量に差がある?対応のない多標本の栄養統計
- 【R×栄養統計】多重比較を行う理由と使い分けを紹介|検定の多重性問題
- 【R×栄養統計】どの群間に差がある?対応のない多標本における多重比較