我们知道,独热编码(OneHotEncoder)会增加数据集的维度。但是标签编码(LabelEncoder)不会。为什么?

用独热编码(OneHotEncoder),数据集的维度(也即特征)增加是因为它为分类变量中存在的的每一级都创建了一个变量。例如:假设我们有一个变量“颜色”。这变量有 3 个层级,即红色、蓝色和绿色。

对“颜色”变量进行一位有效编码会生成含0和1值的 Color.Red,Color.Blue 和 Color.Green 三个新变量。在标签编码中,分类变量的层级编码为0,1和2,因此不生成新变量。标签编码主要是用于二进制变量。

发表评论

后才能评论