meijushow 项目进度和状态:
- 爬虫代码基本完成,目标资源站数据能全部爬取入库
- meijushow web 前端还没动工
- meijushow 后台还没动工
- meijushow 后台管理系统没有接入
- 生产服务器端已经通过 docker 部署 splash。
- 生产服务器没有成功部署 scrapy 爬虫项目
- 缺少 systemd 或者 supervisor 管理爬虫服务器守护进程
- 缺少周期性计划爬虫任务,任务的周期需要是随机的,防止被流量监控
- 缺少 IP 代理池
- 经过 splash server 的随机 UA (用户代理) 还没经过验证
没有处理爬虫效率优化,比如根据资源列表页的更新日期等其他因素判断来过滤不必要的请求
- 由于爬取各种不稳定因素(网络延迟,目标服务器超负载,被 ban。。。),
如果处理的根据列表页的更新日期来过滤详情页的请求达到优化爬取效率,
那么如果详情页数据没有爬取完整呢?比如美剧下载资源,需要等到下一次爬取才能把数据爬完整,
但是那些归档的美剧呢?如果这样也就没有机会爬完整了,只能手工排查数据完整性了。
- 没有配置 生产/开发/测试 环境,比如 settings 文件数据库连接配置需要区分