数据爬虫面试题汇总

八股文_数据爬虫 0 1.0K

由于手机端不支持这种展示方式，当然，为了手机方便阅读，下面会贴出所有面试题答案链接，不过大家最好在 PC 电脑端阅读哈，相关面试题还会持续更新，尽量补充完善起来，建议收藏帅地的网站哦。

以下链接点进去就是答案

1. Python匹配HTML tag的时候，<.*>和<.*?>有什么区别？

2. 简述用过的爬虫框架或者模块有哪些？优缺点？

3. 写爬虫是用多进程好？还是多线程好？

4. 简述常见的反爬虫和应对方法？

5. 数据爬虫中遇到验证码的解决?

6. 爬虫过程中“极验”滑动验证码如何破解？

7. 数据爬虫后的数据是怎么存储？

8. 爬虫 Cookie过期的处理问题？

9. 描述下Scrapy框架运行的机制？

10. 简述你对Scrapy的理解？

11. 图片、视频爬取怎么绕过防盗连接？

12. 如何开启增量爬取？

13. 爬取下来的数据如何去重，说一下scrapy的具体的算法依据？

14. 阐述Scrapy的优缺点?

15. 阐述scrapy-redis对比scrapy的区别？

16. Scrapy框架中各组件的工作流程？

17. Scrapy框架中如何实现大文件的下载？

18. Scrapy的pipelines如何丢弃一个item对象？

19. Scrapy中的pipelines工作原理？

20. Scrapy中如何实现的记录爬虫的深度？

21. Scrapy中如何进行自定制命令？

22. Scrapy中如何实现暂停爬虫？

23. 如何在Scrapy框架中如何设置代理（两种方法）？

发表评论取消回复

后才能评论