本文概述
如果你想参加我们的R入门课程, 这里是链接。
什么是数据帧?
你可能还记得关于矩阵的章节, 你放入矩阵中的所有元素都应为同一类型。当时, 《星球大战》中的数据集仅包含数字元素。
但是, 进行市场调查时, 你经常会遇到以下问题:
- ‘你结婚了吗?’或”是/否”问题(逻辑)
- ‘你几岁?’ (数字)
- “你对此产品有何看法?”或其他”开放式”问题(字符)
- …
输出, 即受访者对上述问题的回答, 是不同数据类型的数据集。你通常会发现自己使用的数据集包含不同的数据类型, 而不仅仅是一种。
数据帧的数据集变量作为列, 观察值作为行。对于来自不同统计软件包(例如SAS或SPSS)的用户而言, 这将是一个熟悉的概念。
使用说明
点击”提交答案”。内置示例数据帧mtcars中的数据将被打印到控制台。
快速查看你的数据集
哇, 好多车!
在数据分析中处理大型数据集并不罕见。当使用(极端)大型数据集和数据帧架时, 作为数据分析人员的首要任务是对其结构和主要元素有一个清晰的了解。因此, 仅显示整个数据集的一小部分通常很有用。
那么如何在R中做到这一点呢?好了, 函数head()使你能够显示数据帧的最初观察结果。同样, 函数tail()打印出数据集中的最后观察值。
head()和tail()都打印一个称为” header”的顶行, 其中包含数据集中不同变量的名称。
使用说明
在mtcars数据集上调用head()以查看标题和最初的观察结果。
看一下结构
函数str()是经常用于快速概览数据的另一种方法。函数str()向你显示数据集的结构。对于数据帧, 它告诉你:
观测值总数(例如32种汽车类型)变量总数(例如11种汽车功能)变量名称的完整列表(例如mpg, cyl …)每个变量的数据类型(例如num)第一个观察通常, 在接收新数据集或数据帧时, 首先要做的就是应用str()函数。在深入进行实际分析之前, 这是一种获取更多数据见解的好方法。
使用说明
研究mtcar的结构。确保你看到与上述相同的数字, 变量和数据类型。
创建数据帧
由于使用内置数据集甚至不足以创建自己的数据集, 因此本章的其余部分基于你自己开发的数据集。戴上喷气背包, 因为是时候进行一些太空探索了!
作为第一个目标, 你想要构建一个描述我们太阳系中八个行星的主要特征的数据帧。根据你的好朋友Buzz所说, 行星的主要特征是:
- 行星的类型(地面或天然气巨人)。
- 行星的直径相对于地球的直径。
- 行星相对于地球绕太阳旋转的自转。
- 行星是否具有环(真或假)。
在Wikipedia上进行了一些高质量的研究之后, 你会充满信心地创建必要的向量:名称, 类型, 直径, 旋转度和环号;这些向量已经在右侧被编码。这些向量中的每个向量中的第一个元素对应于第一个观察值。
你可以使用data.frame()函数构造一个数据帧。作为参数, 你可以传递之前的向量:它们将成为数据帧的不同列。因为每一列都有相同的长度, 所以传递的向量也应具有相同的长度。但是请不要忘记, 它们可能(而且很可能)包含不同类型的数据。
使用说明
使用函数data.frame()构造一个数据帧。依次将向量名称, 类型, 直径, 旋转和环作为参数传递给data.frame()。调用生成的数据帧planets_df。
如果你想从本课程中学习更多信息, 请点击这里。
评论前必须登录!
注册