我是否可以基于列表中每个项目的首次出现来拆分.text语料库(在python中)?

我有一个很大的.txt语料库,我希望根据列表中每个项目的初次出现将text.split()分为几个小节:

"No. 1.", "No. 2.", "No. 3." etc. up to "No. 4800."

这些值标志着每个新文档的开始,我希望将其全部划分为一个新文档并为其创建一个文档术语矩阵。在文档中,这些数字出现了几次,但首次出现总是标志着新文档的开始。

拆分“ No”没有用,因为文本中还有许多其他实例。我已经创建了所有1-4800指标的列表,但是无法弄清楚如何根据该列表拆分文本。任何帮助/想法将不胜感激!

评论