Skip to content
#

scrapy

Here are 2,051 public repositories matching this topic...

crawlab
seamusic
seamusic commented Feb 15, 2020

Bug 描述
按教程文档说明的,使用docker-compose up -d 安装启动后,直接执行task报错
不知道哪里有问题呢?
我的docker运行环境是win10

`2020-02-15 15:58:04 [scrapy.utils.log] INFO: Scrapy 1.8.0 started (bot: xueqiu)
22020-02-15 15:58:04 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.6.9 (default, Nov 7 2019, 10:44:02) - [GCC 8.3.0], pyOpenSSL 19

xyz-blue
xyz-blue commented Feb 24, 2018

我最近也在学习下Python的网络爬虫,非常感谢你的分享。
我今天在搭建好环境后尝试Spider_Python项目时遇到一个问题,无法连接mongodb,提示的错误是pymongo不存在Connection模块,然后我在网上找了下pymongo的用法,做了如下修改后可以正常运行并存入mongodb。
` # 连接数据库,db和posts为数据库和集合的游标
def Connection(self):
#connect to mongo(localhost:27017)
mongoclient = pymongo.MongoClient()
mongodb = mongoclient[self.database]
posts = mongodb.posts
return posts

z1220726337
z1220726337 commented Jan 30, 2019

我运行的是这4条代码,有可以获得IP,但用python客户端调用没办法取出来

  • 启动scrapy worker,包括代理IP采集器和校验器

    python crawler_booter.py --usage crawler
    python crawler_booter.py --usage validator

  • 启动调度器,包括代理IP定时调度和校验

    python scheduler_booter.py --usage crawler
    python scheduler_booter.py --usage validator
    1

LWsmile
LWsmile commented Nov 27, 2018

linux:HTTPConnectionPool(host='192.168.0.24', port=6801): Max retries exceeded with url: /listprojects.json (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x7f0a78b2d828>: Failed to establish a new connection: [Errno 111] Connection refused',))
windows:HTTPConnectionPool(host='localhost', port=6801): Max retries exceeded with url: /jobs (Caused by Ne

实战🐍多种网站、电商数据爬虫🕷。包含🕸:淘宝商品、微信公众号、大众点评、企查查、招聘网站、闲鱼、阿里任务、博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评、携程、小米应用商店❤️❤️❤️。微信爬虫展示项目:

  • Updated Apr 16, 2020
  • Python
dingyuanhong2006
dingyuanhong2006 commented Sep 17, 2019

Bug 描述 (Describe the bug)

from scrapy.conf import settings

ModuleNotFoundError: No module named 'scrapy.conf'

如何重现 (To Reproduce)

基于win10 , 编译执行 scrapy crawl lianjia

桌面环境 Desktop (please complete the following information)

  • 操作系统(OS): win10

  • Python: 3.7

  • Scrapy:1.7.3

  • Redis:

  • Elastic search:

  • Kibana:

附加信息 (Additional context)

添加有利

🏀 Python3 网络爬虫实战(部分含详细教程)猫眼 腾讯视频 豆瓣 研招网 微博 笔趣阁小说 百度热点 B站 CSDN 网易云阅读 阿里文学 百度股票 今日头条 微信公众号 网易云音乐 拉勾 有道 unsplash 实习僧 汽车之家 英雄联盟盒子 大众点评 链家 LPL赛程 台风 梦幻西游、阴阳师藏宝阁 天气 牛客网 百度文库 睡前故事 知乎 Wish

  • Updated Apr 16, 2020
  • Python

豆瓣电影top250、斗鱼爬取json数据以及爬取美女图片、淘宝、有缘、CrawlSpider爬取红娘网相亲人的部分基本信息以及红娘网分布式爬取和存储redis、爬虫小demo、Selenium、爬取多点、django开发接口、爬取有缘网信息、模拟知乎登录、模拟github登录、模拟图虫网登录、爬取多点商城整站数据、爬取微信公众号历史文章、爬取微信群或者微信好友分享的文章、itchat监听指定微信公众号分享的文章

  • Updated May 15, 2019
  • Python

Improve this page

Add a description, image, and links to the scrapy topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the scrapy topic, visit your repo's landing page and select "manage topics."

Learn more

You can’t perform that action at this time.