4 整然データ
1 整然データ
1.1 raw データの持ち方
データを手作業で集めでエクセルに入力するときいくつか注意点があります。
以下のルールに従っていないとデータの読み込みプロセスでうまいこといきません。
1.1.1 A1から始める
左上から埋め始めましょう
謎の空白行、空白列を作らないように
1.1.2 ヘッダーは一行
一番上にヘッダー (その列の名前) を書きます。に行目に保続情報を書いたりしない。
1.1.3 セルは結合しない
一つのセルに一つの値を入れる。
ここまでの注意点を踏まえたうえで、整然データというデータの持ち方をみます。基本的に人間がデータを見るのではなく、PC側がデータを見るための配置です。
1.2 整然データ
データを集計して、表にまとめるときには、いくつかの方法があります。が、データ分析上望ましいのは、変数が列、測定単位が行の形です。 これを整然データといい、以下のルールを守っています。
- それぞれの変数は、自身の列を有していないといけない。
- それぞれの観測は、自身の行を有していないといけない。
- それぞれの値は、自身のセルを有していないといけない。
1.3 例:重工業3社の売上高
同じデータでも、表の作り方によって整然データになったりならなかったりします。
1.3.1 Wide形式の表
not tidy data
1.3.2 整然データの形
1.3.3 変数がどこにあるか(緑=企業 / 赤=年度 / 青=売上高)
Wide:変数が行や列に分散
- 「企業」は1列にまとまっているが、「年度」はヘッダー、「売上高」は中身、と変数がバラバラに配置されている
Long:変数がすべて列に並ぶ
- 1列=1変数 の整然データ。色も列単位できれいに分かれる
1.3.4 1つの観測値はどこにあるか(緑=川崎重工業の2017年度のレコード)
Wide:観測値がバラバラ
- 「川崎重工業の2017年度」を取り出すには、行ラベル・列ラベル・セル本体 の3か所を見る必要がある
Long:観測値が1行にまとまる
- 「川崎重工業の2017年度」のレコードは1行にすべて入っているので扱いやすい
1.3.5 よくない形:1つのセルに複数の値
- 川崎重工業の2016年度のセルに
1,518,830と1,605,842の2つの値が入っている - そのままでは数値として扱えない
1.3.6 修正した形
- 「売上高」と「売上高(修正)」を別々の列として分離
- 1つのセルは1つの値で構成される