3.1 查看dataframe/tibble并了解它们的结构

3.1.1 dataframe/tibble的基本概念

dataframe是R中存储复杂(多变量)数据的规范格式,它直观易操作。tibble是tidyverse的一部分,它是dataframe的进化版,功能更强大,更易操作。

我们来看个例子:

首先加载tidyverse:

require(tidyverse)

以后每次跟着本书使用R的时候,都要先加载tidyverse,不再重复提醒了。

tidyverse中自带一些范例数据,比如我们输入:

mpg

一个正确的dataframe/tibble,每一行代表的是一个observation(硬翻译的话是“观测单位”,但是我觉得这个翻译不好),每一列代表的是一个variable(变量),且同一个变量的数据类型必须一样。像这样的数据被称为“tidy data”(“整齐的数据”)。虽然看起来简单,直观,理所当然,但是现实中上人们经常会做出“不整齐”的数据。把不整齐的数据弄整齐是第??章的重点。

3.1.2 查看更多数据

R默认显示tibble的前10行。如果想看前n行或最后n行,可以分别使用head()tail()函数,比如:

tail(mpg, 6) # `mpg`的最后6行
#> # A tibble: 6 x 11
#>   manufacturer model  displ  year   cyl trans drv     cty   hwy fl    class
#>   <chr>        <chr>  <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
#> 1 volkswagen   passat   1.8  1999     4 auto… f        18    29 p     mids…
#> 2 volkswagen   passat   2    2008     4 auto… f        19    28 p     mids…
#> 3 volkswagen   passat   2    2008     4 manu… f        21    29 p     mids…
#> 4 volkswagen   passat   2.8  1999     6 auto… f        16    26 p     mids…
#> 5 volkswagen   passat   2.8  1999     6 manu… f        18    26 p     mids…
#> 6 volkswagen   passat   3.6  2008     6 auto… f        17    26 p     mids…

若要在source栏中从头到尾查看全部数据,可以使用View函数:

View(mpg)