熊猫数据框的多变量回归

有人可以将我指向一种算法或Python模块,该算法或Python模块可以帮助我在下面的数据框中进行回归。我的问题是,首先,它是一个数据框,我需要找到两列之间的最佳匹配(一个是另一列和某些参数的函数,另一个是我的实验数据),其次,回归变量的数量是变得很大。详细信息如下:

常见回归变量:

var1, var2

数据框(模板):

Column1 Column2 Column3 Column4
x01 var01.3 f(x01, var1, var2, var01.3) resp01.01
x02 var01.3 f(x02, var1, var2, var01.3) resp01.02
x03 var01.3 f(x03, var1, var2, var01.3) resp01.03
x04 var01.3 f(x04, var1, var2, var01.3) resp01.04
x05 var01.3 f(x05, var1, var2, var01.3) resp01.05
..  ..      ..                          ..
x16 var01.3 f(x16, var1, var2, var01.3) resp01.16
# Next sequence
x01 var02.3 f(x01, var1, var2, var02.3) resp02.01
x02 var02.3 f(x02, var1, var2, var02.3) resp02.02
x03 var02.3 f(x03, var1, var2, var02.3) resp02.03
x04 var02.3 f(x04, var1, var2, var02.3) resp02.04
x05 var02.3 f(x05, var1, var2, var02.3) resp02.05
..  ..      ..                          ..
x16 var02.3 f(x16, var1, var2, var02.3) resp02.16
# More lines here
x01 var12.3 f(x01, var1, var2, var12.3) resp12.01
x02 var12.3 f(x02, var1, var2, var12.3) resp12.02
x03 var12.3 f(x03, var1, var2, var12.3) resp12.03
x04 var12.3 f(x04, var1, var2, var12.3) resp12.04
x05 var12.3 f(x05, var1, var2, var12.3) resp12.05
..  ..      ..                          ..
x16 var12.3 f(x16, var1, var2, var12.3) resp12.16

期望的目标:

Column3~=Column4

本质上,数据帧是第1列的16个值的12个重复,每个16行序列的12个值相同,但12个重复的每一个之间不同,第3列是Column1,Cloumn2和var1和var2的函数。 Column4是我的参考数据。我想让Column3与Column4尽可能接近(我猜RMSE是标准吗?)。

我对回归变量的总结: var1,var2 var01.3至var12.3(12个变量) x01至x16(16个变量) 回归变量总数2 + 12 + 16 = 40

有人可以给我提示如何解决这个问题吗? 先感谢您!

评论
  • pculpa
    pculpa 回复

    statsmodels是我将在这种情况下使用的软件包...它具有详细的文档..从这里开始。