Skip to content

Latest commit

 

History

History
68 lines (62 loc) · 1.7 KB

goods.md

File metadata and controls

68 lines (62 loc) · 1.7 KB

基于Scrapy+Selenium的电商爬虫系统

项目部署说明

环境配置

Python虚拟环境配置 Python3.6.5+ 在 https://npm.taobao.org/mirrors/chromedriver/ 下载和chrome 浏览器版本对应的chromedriver 驱动,并设置环境变量

python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenium\AutomationProfile

项目部署

  • 把根目录文件.env_example复制到根目录.env,并修改相关配置作为当前环境的配置文件

项目管理

爬虫管理相关指令

商品信息

爬取淘宝商品

python taobao_good_spider.py

爬取京东商品

python jd_good_spider.py

爬取拼多多商品

python start -spider pdd -is_shop -key_words 理发器,健康秤

爬取亚马逊商品

python start -spider amazon -is_shop -key_words 理发器,健康秤

评论信息

全量爬取京东商品的评论

python design/spiders/shop/commeny.py jd all  

全量爬取淘宝商品的评论

python design/spiders/shop/commeny.py taobao all  

全量爬取天猫商品的评论

python design/spiders/shop/commeny.py tmall all  

全量爬取拼多多商品的评论

python design/spiders/shop/commeny.py pdd all  

指定分类爬取京东商品的评论

python design/spiders/shop/commeny.py jd 吹风机  

全量爬取京东商品的评论(1,反转待爬取商品列表)

python design/spiders/shop/commeny.py jd all 1