如何处理超过33000个城市的分类变量?

我在Python中工作。我对分类变量“城市”有疑问。

我正在一个超过100万行的大型数据集上构建预测模型。 我有100多个功能。其中之一是“城市”,由33 000个不同的城市组成。

除了例如,还有其他方法可以处理此变量吗?一种热编码,假人等? (例如,在使用一种热编码时,我遇到了性能问题,模型中的功能太多,并且内存不足。)

有什么办法可以解决这个问题?

评论
  • 水立方
    水立方 回复

    您可以使用熊猫进行数据分析。它对于大型数据集也非常有效。谢谢