Python-从图片中抓取文字(alt标签)

我一直在使用BeautifulSoup成功地从网站上抓取一些信息,但是在从图像/链接上抓取“ alt”标签时遇到了问题。

这是我到目前为止使用的代码:

import requests
from bs4 import BeautifulSoup

page = "https://www.transfermarkt.com/fc-porto/startseite/verein/720?saison_id=2017"
tree = requests.get(page, headers=headers)
soup = BeautifulSoup(pageTree.content, 'html.parser')

Players = soup.find_all("a", {"class": "spielprofil_tooltip"})
Value = soup.find_all("td", {"class": "rechts hauptlink"})
Age = soup.find_all("td", {"class": "zentriert"})
Team = Soup.find_all("a", {"class": "vereinprofil_tooltip"})

我在最后一行遇到问题,因为它提取了整个工具提示信息,我只需要包含在“ alt”标记中的文本。有什么建议?

评论
  • hrerum
    hrerum 回复

    从您的问题尚不清楚,应该保留什么样的信息团队。只需回答您的问题-“我只需要包含在“ alt”标记中的文本”即可。

    imgs = [a.find('img') for a in soup.find_all("a", {"class": "vereinprofil_tooltip"}) if a.find('img')]
    team = [img.get('alt') for img in imgs]
    

    Get all img tags nested under a tags then get alt attribute from each img.

    
    Output:
    
    ['Olympiacos Piraeus',
     'FC Porto',
     'FC Famalicão',
     'Omonia Nicosia',
     'Atlético Madrid',
     'FC Porto',
     'Tigres UANL',
     'Zenit St. Petersburg',
     'Kasimpasa',
     'FC Porto',
     'FC Porto B',
     'Leicester City',
     'Manchester United',
     'CF Monterrey',
     'FC Porto',
     'Vorskla Poltava',
     'Atlético Madrid',
     'Sevilla FC',
     'FC Porto',
     'Vitória Guimarães SC',
     'Varzim SC',
     'Portimonense SC',
     'FC Porto',
     'FC Porto',
     'Hebei China Fortune',
     'UD Las Palmas',
     'Al Rayyan Sports Club',
     'SC Braga',
     'Levante UD',
     'FC Porto',
     'FC Porto',
     'FC Porto',
     'Eintracht Frankfurt',
     'RC Strasbourg Alsace',
     'Real Zaragoza',
     'FC Porto',
     'SL Benfica',
     'Sporting CP',
     'SC Braga',
     'Rio Ave FC',
     'GD Chaves',
     'CS Marítimo',
     'Vitória Guimarães SC',
     'FC Porto']
    

    不确定这是否是您期望的输出