我在Python中工作。我对分类变量“城市”有疑问。
我正在一个超过100万行的大型数据集上构建预测模型。 我有100多个功能。其中之一是“城市”,由33 000个不同的城市组成。
除了例如,还有其他方法可以处理此变量吗?一种热编码,假人等? (例如,在使用一种热编码时,我遇到了性能问题,模型中的功能太多,并且内存不足。)
有什么办法可以解决这个问题?
我在Python中工作。我对分类变量“城市”有疑问。
我正在一个超过100万行的大型数据集上构建预测模型。 我有100多个功能。其中之一是“城市”,由33 000个不同的城市组成。
除了例如,还有其他方法可以处理此变量吗?一种热编码,假人等? (例如,在使用一种热编码时,我遇到了性能问题,模型中的功能太多,并且内存不足。)
有什么办法可以解决这个问题?
您可以使用熊猫进行数据分析。它对于大型数据集也非常有效。谢谢