认识达内从这里开始

认真做教育专心促就业

如何入门python写爬虫，纯干货分享，认真看完（2）

发布：潍坊达内
来源：潍坊达内
时间：2019-01-31 16:25

潍坊达内的小编总结，当然并没有去系统看 urllib 和 BeautifulSoup 了，我需要把眼前实例中的问题解决，比如下载、解析页面，基本都是固定的语句，直接用就行。
当然 BeautifulSoup 中的基本方法是不能忽略的，但也无非是 find、get_text（）之类，信息量很小。就这样，通过别人的思路和自己查找美丽汤的用法，完成了豆瓣电影的基本信息爬取。
3,爬虫渐入佳境
有了一些套路和形式，就会有目标，可以接着往下学了。自己去摸索爬取更多的信息，爬取多个页面。这个时候就发现基础不足了，比如爬取多个元素、翻页、处理多种情况等涉及的语句控制，又比如提取内容时涉及到的字符串、列表、字典的处理，还远远不够。
再回去补充 Python 的基础知识，就很有针对性，而且能马上能用于解决问题，也就理解得更深刻。
后来认识到 xpath 之后相见恨晚，这才是入门必备利器啊，直接Chrome复制就可以了，指哪打哪。即便是要自己写 xpath,以w3school上几页的 xpath 教程，一个小时也可以搞定了。
4,跟反爬虫杠上了

通过 requests+xpath,我可以去爬取很多网站网站了，后来自己练习了小猪的租房信息和当当的图书数据。爬拉勾的时候发现了问题，自己的请求根本不会返回信息，然后终于知道别人代码中的 headers 是干啥的了。

潍坊达内

接着是各种定位不到元素，然后知道了这是异步加载，数据根本不在网页源代码中，需要通过抓包来获取网页信息。于是在各种 JS、XHR的文件中 preview,寻找包含数据的链接。
当然知乎还好，本身加载的文件不多，找到了 json 文件直接获取对应的数据。（这里要安利一个chrome插件：jsonview,让小白轻松看懂 json 文件）
在这里就对反爬虫有了认识，当然这还是最基本的，更严格的IP限制、验证码、文字加密等等，可能还会遇到很多难题。
比如后来在爬其他网站的时候就被封了IP,简单的可以通过 time模块控制爬取频率的方法解决，限制比较严格或者需要保证爬取速度，就尝试用代理IP来解决。
当然，后来也试了一下 Selenium,这个就真的是按照真实的用户浏览行为（点击、搜索、翻页）来实现爬虫，所以对于那些反爬虫特别厉害的网站，又没有办法解决，Selenium 超级好用，虽然速度稍微慢点。
5,尝试强大的 Scrapy 框架
有了 requests+xpath 和抓包大法，就可以做很多事情了，豆瓣各分类下的电影，58同城、知乎、拉勾这些网站基本都没问题。不过，当爬取的数据量级很大，而且需要灵活地处理各个模块的话，会显得很力不从心。
于是了解到强大的 Scrapy 框架，它不仅能便捷地构建 Request,还有强大的 Selector 能够方便地解析 Response,然而最让人惊喜的还是它超高的性能，可以将爬虫工程化、模块化。
以上就是潍坊达内给大家做的内容详解，更多关于IT的学习，请继续关注潍坊达内

< 上一篇：如何入门python写爬虫，纯干货分享，认真看完（1）

下一篇：如何入门python写爬虫，纯干货分享，认真看完（3） >