该爬虫在python3.4环境下开发,理论支持3.4以及以上版本,配置mysql进行数据存储,有兴趣可以自己改别的pipeline,mysql需要新建一个movie库并执行movie.sql脚本
该爬虫实现了增量、全量爬取飘花电影网与电影天堂 电影爬取爬取的字段包括:电影名称 年份 豆瓣评分 电影描述 海报链接 更新时间 来源 下载链接 等信息,安装后加上定时任务即可享受你的私人日更影库啦
- wget https://github.com/ijustlearn/movie/archive/master.zip
unzip master.zip
cd movie-master/movie/
virtualenv -p python3 --no-site-packages venv
source venv/bin/activate
- 部署到linux系统请把pywin32==223 从 requirements.txt中去掉(这个包是用于windows开发时debug用的)
pip install -r requirements.txt
wim settings
文件,配置sql地址,以及邮件发送地址- mysql新增movie库字符集选择utf-8, 然后执行mvoie.sql脚本
scrapy crawl piaohua -a is_inc=true
#爬取飘花网is_inc=true增量爬取,false全量爬取scrapy crawl dy2018 -a is_inc=true
#爬取电影天堂网is_inc=true增量爬取,false全量爬
- 报错 Invalid environment marker: python_version < '3' 请使用
pip3 install -r requirements.txt
- 报错 twisted/test/raiser.c:4:20: fatal error: Python.h: No such file or directory 参考https://stackoverflow.com/questions/43047284/how-to-install-python3-devel-on-red-hat-7 安装 python3-devel
本爬虫严禁用于任何商业用途,如果好用请star,谢谢~