如何定时启动你的爬虫项目?

(1) 最简单的方法:直接使用 Timer 类

1. import time
2. import os
3.
4. while True:
5. os.system("scrapy crawl News")
6. time.sleep(86400) #每隔一天运行一次 24*60*60=86400s

(2) 使用 sched

1. import sched
2. #初始化 sched 模块的 scheduler 类
3. #第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。
4. schedule = sched.scheduler ( time.time, time.sleep )
5.
6. #被周期性调度触发的函数
7. def func():
8. os.system("scrapy crawl News")
9. def perform1(inc):
10. schedule.enter(inc,0,perform1,(inc,))
11. func() # 需要周期执行的函数
12. def mymain():
13. schedule.enter(0,0,perform1,(86400,))
14.
15. if __name__=="__main__":
16. mymain()
17. schedule.run() # 开始运行,直到计划时间队列变成空为止

(3) 使用 Crontab

发表评论

后才能评论