数据爬虫面试题汇总

由于手机端不支持这种展示方式,当然,为了手机方便阅读,下面会贴出所有面试题答案链接,不过大家最好在 PC 电脑端阅读哈,相关面试题还会持续更新,尽量补充完善起来,建议收藏帅地的网站哦。

以下链接点进去就是答案

1. Python匹配HTML tag的时候,<.>和<.?>有什么区别?

2. 简述用过的爬虫框架或者模块有哪些?优缺点?

3. 写爬虫是用多进程好?还是多线程好?

4. 简述常见的反爬虫和应对方法?

5. 数据爬虫中遇到验证码的解决?

6. 爬虫过程中“极验”滑动验证码如何破解?

7. 数据爬虫后的数据是怎么存储?

8. 爬虫 Cookie过期的处理问题?

9. 描述下Scrapy框架运行的机制?

10. 简述你对Scrapy的理解?

11. 图片、视频爬取怎么绕过防盗连接?

12. 如何开启增量爬取?

13. 爬取下来的数据如何去重,说一下scrapy的具体的算法依据?

14. 阐述Scrapy的优缺点?

15. 阐述scrapy-redis对比scrapy的区别?

16. Scrapy框架中各组件的工作流程?

17. 如何在Scrapy框架中如何设置代理(两种方法)?

18. Scrapy框架中如何实现大文件的下载?

19. Scrapy的pipelines如何丢弃一个item对象?

20. Scrapy中的pipelines工作原理?

21. Scrapy中如何实现的记录爬虫的深度?

22. Scrapy中如何进行自定制命令?

23. Scrapy中如何实现暂停爬虫?