如何在具有数字字符串数字数字的熊猫中读取自定义表格?

我一直在尝试读取大熊猫中的自定义表格,但很长一段时间以来一直出现错误。

这是表格的轮廓:

Number string number number

  • 两个词之间只有一个空格
  • 一个单词是一个数字或只是一个英语单词
  • 没有NANS

文件名:station.tsv

794 Kissee Mills MO 140 73 
824 Loma Mar CA 49 131 
603 Sandy Hook CT 72 148 
478 Tipton IN 34 98 
619 Arlington CO 75 93 
711 Turner AR 50 101 
839 Slidell LA 85 152 
411 Negreet LA 99 105 
588 Glencoe KY 46 136 
665 Chelsea IA 99 60
957 South El Monte CA 74 80


Note that the row `957 South El Monte CA 74 80` is  
actually 33rd row for my data.
If it was only 11th row, 
pandas gives no error, 
but if it is large nth row it gives error.

我的尝试

df = pd.read_csv('station.tsv', header=None, sep=' ')

ParserError: Error tokenizing data. 
C error: Expected 7 fields in line 33, saw 8

有没有办法用一些正则表达式来解析数据,例如:

regexp = r'(\d+)\s+(\w+)\s+(\d+)\s+(\d+)'

读取文本数据并从中创建数组。

我期望为此使用NUMPY,PANDAS或任何其他python库。

评论