01变量是分类变量吗
墨初 知识笔记 177阅读
什么是分类变量?
答:分类变量 分类变量 (也称为 因子 或 定性变量 )是将观察指标分类的变量。 它们具有数量有限的不同值,称为级别。 例如,性别是可以分为两个级别的分类变量:男性或女性。 回归分析时需要用数值变量。
每个变量都有变量的值和变量的类型吗?
答:每个变量都有变量的值和变量的类型。. 我们按照变量的类型对变量进行划分。. 统计学中的变量(variables)大致可以分为数值变量(numrical)和分类变量(categorical)。. 数值型变量是值可以取一些列的数,这些值对于 加法、减法、求平均值等操作是有意义的。. 而分类变量对于上述的操作是没有意义的。.
什么是连续型变量?
答:连续型变量(continuous): 在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。 如身高、绳子的长度等。 和离散型变量相比,连续型变量有“真零点”的概念,所以可以进行乘除操作。 有序分类变量(ordinal) :描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢 。
多分类变量如何编码?
答:多分类变量又可分为有序(等级)或无序(也叫名义),如果是有序(ordinal)分类变量,一般可按对因变量影响由小到大的顺序编码为1、2、3、...,或按数据的自然大小,将它当作连续型变量处理。 如果是无序的(nominal)分类变量,则需要采用 哑变量 (dummy variables)进行编码,下面以职业(J)为例加予以说明。