如何处理超过33000个城市的分类变量?

我在Python中工作。我对分类变量“城市”有疑问。

我正在一个超过100万行的大型数据集上构建预测模型。 我有100多个功能。其中之一是“城市”,由33 000个不同的城市组成。

除了例如,还有其他方法可以处理此变量吗?一种热编码,假人等? (例如,在使用一种热编码时,我遇到了性能问题,模型中的功能太多,并且内存不足。)

有什么办法可以解决这个问题?