Python,从网页提取文字

我正在一个项目中,我正在爬网数千个网站以提取文本数据,最终用例是自然语言处理。

我知道诸如美丽汤中的.get_text()函数之类的解决方案。这种方法的问题在于,它从网站上获取所有文本,其中大部分与该特定页面上的主要主题无关。在大多数情况下,网站页面将专用于一个主要主题,但是在侧面,顶部和底部可能会存在有关其他主题或促销或其他内容的链接或文字。

使用.get_text()函数,它可以一次性返回站点页面上的所有文本。问题在于它将所有内容组合在一起(相关部分与不相关的部分。是否存在另一个类似于.get_text()的函数,该函数返回所有文本但作为列表,并且每个列表对象都是文本的特定部分,因此可以知道新主题在哪里开始和结束。

另外,有没有办法确定网页上文本的主体?

评论