线性回归中的scikit学习,分类(但数值)特征

我在scikit-learn中使用线性回归,并且我的数据集包含一些分类但数值的功能。 我的意思是说,有一些功能,例如房屋所在的地区的价值,由1到7之间的整数表示:这个数字越高,房屋的价值就越高。 我是否应该在使用诸如OneHotEncoder之类的编码器进行线性回归之前,对使用数字表示类别(城市地区)的特征进行预处理?还是仅当类别用字符表示时才是强制性的? 先感谢您..

评论
  • seaque
    seaque 回复

    如果我理解正确,则您无需对它们进行热编码,因为它们是顺序的,即顺序中有含义。例如,如果数字是产品代码,并且没有7表示“优于”或“大于” 4的感觉,那么您可能希望对这些变量进行一次热编码,但是在这种情况下,您将丢失信息通过一键编码。