• xpath路径表达式笔记
    简单说,xpath就是选择XML文件中节点的方法。 所谓节点(node),就是XML文件的最小构成单位,一共分成7种。 - element(元素节点) - attribute(属性节点) - text (文本节点) - namespace (名称空间...
  • 我用Python爬了点你们需要的电影,这些电影真的很不错~
    点击上方“何俊林”,马上关注,每天早上8:50准时推送真爱,请置顶或星标本文作者:羽翼,原文链接:https://www.cnblogs.com/fwc1994/p/5878934.html最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以点击阅读原文自行下载。刚开始学习python希望可以获得宝贵的意见。先来简单介绍一下,网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然...
  • 用Python给自己DIY一款小说阅读器,你要不看看?
    来源公众号:Python爬虫实践之路前一段时间书荒的时候,在喜马拉雅APP发现一个主播播讲的小说-大王饶命。听起来感觉很好笑,挺有意思的,但是只有前200张是免费的,后面就要收费。一章两毛钱,本来是想要买一下,发现说的进度比较慢而且整本书要1300多张,算了一下,需要200大洋才行,而且等他说完,还不知道要到什么时候去。所以就找文字版的来读,文字版又有它的缺点,你必须手眼联动才行。如果要忙别的事情,但是又抑制不住想看的冲动,就很纠结了。在网上找了一圈,没有其他的音频。而且以前用的那些有阅读功能的软件,比如微...
  • 爬虫|利用Xpath选择器从HTML中提取数据(两种方式)
    点击上方“涛哥聊Python”,选择“星标”公众号重磅干货,第一时间送达本文转载自Python爬虫与数据挖掘前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章:手把手教你如何新建scrapy爬虫框架的第一个项目(上)手把手教你如何新建scrapy爬虫框架的第一个项目(下)关于Scrapy爬虫项目运行和调试的小技巧(上篇)关于Scrapy爬虫项目运行和调试的小技巧(下篇)今天我们将介绍在Scrapy中如何利用Xpath选择器从HTML中提取目...
  • 爬取微博36C的妹子,慎入!自带营养快线!
    作为一名十好青年,微博也关注了许多互联网&科技类的博主。本着学习的心态日常刷着微博。突然看到一条微博。点开评论,瞬间惊呆了。下图可能引起不适,未成年人,请在家长的陪同下观看。评论1.5W条,一页一页的去翻,身为程序员这显然不是我们的风格。本着学习为主的心态,我决定把他们都保存在我的硬盘里!!!俗话说,能爬移动端就不要爬PC端,但是在操作手机抓包爬的过程中,遇到了很多坑。一时没有解决。于是转移阵地到PC端微博。F12打开开发者工具,刷新页面。看到有这样一条Get请求 weibo.com/aj/v6/comme...
  • 爬取微博36C的妹子,慎入!请自带纸巾!
    点击上方蓝字,选择“置顶或者星标”第一时间收到精彩推送!作为一名十好青年,微博也关注了许多互联网&科技类的博主。本着学习的心态日常刷着微博。突然看到一条微博。点开评论,瞬间惊呆了。下图可能引起不适,未成年人,请在家长的陪同下观看。评论1.5W条,一页一页的去翻,身为程序员这显然不是我们的风格。本着学习为主的心态,我决定把他们都保存在我的硬盘里!!!俗话说,能爬移动端就不要爬PC端,但是在操作手机抓包爬的过程中,遇到了很多坑。一时没有解决。于是转移阵地到PC端微博。F12打开开发者工具,刷新页面。看到有这样一...
  • Web UI自动化测试之基础知识篇
    最近LuckyFrame QQ官方群里很多小伙伴在问有关Web UI自动化测试的事情,接下来的一段时间,小熊会系统和大家分享下。今天这篇文章主要是针对UI自动化 零基础 或者经验较少的小伙伴哦~~在平台上做UI自动化,可能首先,我们需要知道,需要具备哪方面技能才好下手?小熊认为主要是以下几点:1:前端相关技术HTML、JavaScript 基础知识2:合适的工具选型Selenium WebDriver 的基本原理和元素定位方法、元素操作方法。3:一门编程语言就像前面说的,selenium支持多种语言,根据个...
  • 我用 Python 爬了点你们喜欢的电影,这些电影真的很不错
    点击“开发者技术前线”,选择“星标”13:21 在看|星标|留言, 真爱最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址。刚开始学习python希望可以获得宝贵的意见。并创建相应的文件目录。有一个需要注意的地方就是编码问题,但是也是被这个编码纠缠了好久,通过查看网页的源代码,我们可以发现,网页的编码采用的是GB2312,这里通过XPath构造Tree对象是需要对文本信息进行解码操作,将gb2312变成Unicode编码,这样DOM树结构才是正确的,要不然在后面解析的时候就会出现问题。
  • Python网络数据采集入门教程
    在这篇文章中,我们将介绍Python提供的几乎所有的网络数据采集工具,你可以将本文看作是我们的《终极网络数据采集指南》的系列文章。注意:当我在这篇博客文章中谈论Python时,你应该假设我谈论的是Python3。它被称为会话cookies,用于存储数据。在接下来的部分中,我们将看一些使用Python执行HTTP请求,并从响应中提取我们想要的数据的不同方法。1)手动打开一个socket(套接字)并发送HTTP请求Socket在Python中执行HTTP请求的最基本方法是打开一个socket并手动发送HTTP请求。2) urllib3 和 LXML免责声明:在Python的urllib中很容易迷失方向。
  • 这学期用Python斗图,让你不再难上加难!
    1目 标 场 景平常和小伙伴们斗图的过程中,你是否觉得微信的表情收藏夹不够用,或者是查找太麻烦,不够个性化?那是否可以利用 Python,帮我们挑选到合适的表情,发送到指定的朋友和微信群呢?本文的目标是根据关键字爬取「斗图啦」网站上的表情文件,然后登录网页微信端,挑选到合适的表情图片下载到本地,最后发送给指定的对象。#图形显示库pip3installmatplotlib#安装itchatpip3installitchat3分 析 思 路我们打开斗图啦的官网,输入关键字「装逼」,点击搜索,发现页面分页后匹配到了很多表情图片。首先,我们利用 xpath 获取到当前页面内所有表情父容器元素的列表。
  • 实操 | 从0到1教你用Python来爬取整站天气网
    Scrapy Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。下载器,用于下载网页内容,并将网页内容返回给蜘蛛。蜘蛛,蜘蛛是主要干活的,用它来制订特定域名或网页的解析规则。引擎从调度那获取接下来进行爬取的页面。引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。系统重复第二部后面的操作,直到调度中没有请求。