Python 爬虫面试题阅读指南(必看)

大家好,我是帅地。 为了方便大家复习,这些面试题的展示采取了右边面试题目,左边答案的方式,方便大家按需查看。 由于手机端不支持这种展示方式,当然,为了手机方便阅读,下面会贴出所有面试题答案链接,不过大家最好在 PC 电脑端阅读哈,相关面试题还会持续更新,尽量补充完善起来,建议收藏帅地的网站哦。

面试题链接汇总

常见问题

1. 爬取数据后使用哪个数据库存储数据的,为什么?

2. 你用过的爬虫框架或者模块有哪些?谈谈他们的区别或者优缺点?

3. 写爬虫是用多进程好?还是多线程好? 为什么?

4. 常见的反爬虫和应对方法?

5. 需要登录的网页,如何解决同时限制 ip,cookie,session(其中有一些是动态生成的)在不使用动态爬取的情况下?

6. 验证码的解决?

7. 使用最多的数据库(Mysql,Mongodb,redis 等),对他们的理解?

8. 写一个邮箱地址的正则表达式?

9. 如何定时启动你的爬虫项目?

10. 爬的那些内容数据量有多大,多久爬一次,爬下来的数据是怎么存储?

11. cookie 过期的处理问题?

12. 动态加载又对及时性要求很高怎么处理?

13. 谈一谈你对 Selenium 和 PhantomJS 了解?

14. 代理 IP 里的“透明”“匿名”“高匿”分别是指?

15. robots 协议有什么用处?

16. 为什么 requests 请求需要带上 header?

17. dumps,loads 与 dump,load 的区别?

18. 平常怎么使用代理的?

19. IP 存放在哪里?怎么维护 IP?对于封了多个 ip 的,怎么判定 IP 没被封?

20. 怎么获取加密的数据?

21. 假如每天爬取量在 5、6 万条数据,一般开几个线程,每个线程 ip 需要加锁限定吗?

22. 怎么监控爬虫的状态?

23. 描述下 scrapy 框架运行的机制?

框架

24. 谈谈你对 Scrapy 的理解?

25. 什么是增量爬取?

26. 爬虫向数据库存数据开始和结束都会发一条消息,是 scrapy 哪个模块实现的?

27. 爬取下来的数据如何去重,说一下具体的算法依据?

28. Scrapy 的优缺点?

29. 什么是 scrapy-redis 中的指纹?是如何去重的?

30. 怎么设置深度爬取?

31. scrapy 和 scrapy-redis 有什么区别?为什么选择 redis 数据库?

32. 分布式爬虫主要解决什么问题?

33. 什么是反向代理?作用是什么?

34. 什么是分布式存储?

35. 你所知道的分布式爬虫方案有哪些?

发表评论

后才能评论