本文概述
如果你想免费学习R入门课程, 请点击这里。
因子级别
初次获得数据集时, 你经常会注意到它包含具有特定因子级别的因子。但是, 有时出于清晰或其他原因, 你可能希望更改这些级别的名称。 R允许你使用level()函数执行此操作:
levels(factor_vector) <- c("name1", "name2", ...)
一个很好的例证是调查提供给你的原始数据。每个问卷的一个常见问题是受访者的性别。在这里, 为简单起见, 仅记录了两个类别:” M”和” F”。 (通常, 调查数据需要更多类别;无论哪种方式, 你都可以使用一个因素来存储分类数据。)
survey_vector <- c("M", "F", "F", "M", "M")
如果使用笔和纸收集数据, 则使用缩写” M”和” F”记录性别可能会很方便, 但是在分析数据时会引起混淆。此时, 为了清楚起见, 你通常会希望将因子级别更改为”男性”和”女性”, 而不是” M”和” F”。
注意:分配级别的顺序很重要。如果键入level(factor_survey_vector), 你将看到它输出[1]” F”” M”。如果在创建矢量时未指定因子的级别, R将自动按字母顺序分配它们。要正确地将” F”映射到”女性”, 将” M”映射到”男性”, 级别应按此顺序设置为c(“女性”, “男性”)。
使用说明
- 签出从Survey_vector构建因子向量的代码。你应该在下一条指令中使用factor_survey_vector。
- 将factor_survey_vector的因子级别更改为c(” Female”, ” Male”)。在此注意矢量元素的顺序。
总结一个因素
完成本课程后, R中最喜欢的功能之一将是summary()。这将使你快速了解变量的内容:
summary(my_var)
回到我们的调查, 你想知道你的研究中有多少”男性”反应, 以及多少”女性”反应。 summary()函数为你提供了该问题的答案。
使用说明
询问survey_vector和factor_survey_vector的summary()。解释两个向量的结果。在这种情况下, 它们都同样有用吗?
有序因素
由于”男性”和”女性”是无序(或标称)因子级别, 因此R返回警告消息, 告诉你”大于”运算符没有意义。如前所述, R对这些因素的级别附加相等的值。
但这并非总是如此!有时, 你还将处理在类别之间确实具有自然顺序的因素。如果是这种情况, 我们必须确保将这些信息传递给R …
假设你正在领导由五个数据分析师组成的研究团队, 并且你想评估他们的绩效。为此, 你要跟踪他们的速度, 将每个分析人员评估为”慢”, “中”或”快速”, 然后将结果保存在speed_vector中。
使用说明
第一步, 为speed_vector分配一个具有5个条目的矢量, 每个分析师一个。每个条目应为”慢”, “中”或”快速”。使用以下列表:
- 分析师1是中级,
- 分析师2的速度很慢,
- 分析师3的速度很慢,
- 分析师4为中级
- 分析师5很快。
无需指定这些因素。
如果你想从本课程中学习更多信息, 请点击这里。
评论前必须登录!
注册