用scrapy写的爬虫代码段怎么封装成一个api_Python

2条回答

我是大脸猫

2楼 · 2020-12-25 10:14

1.安装pyinstaller

2.安装pywin32

3.安装其他模块

4.在爬虫项目里进行相关操作，参照博友：https://blog.csdn.net/la_vie_est_belle/article/details/79017358

　　4.1在scrapy.cfg文件同路径下创建s_spider.py

　　4.2写入相关代码

# -*- coding: utf-8 -*-

from scrapy.crawler import CrawlerProcess

from scrapy.utils.project import get_project_settings

# 这里是必须引入的

import robotparser

import scrapy.spiderloader

import scrapy.statscollectors

import scrapy.logformatter

import scrapy.dupefilters

import scrapy.squeues

import scrapy.extensions.spiderstate

import scrapy.extensions.corestats

import scrapy.extensions.telnet

import scrapy.extensions.logstats

import scrapy.extensions.memusage

import scrapy.extensions.memdebug

import scrapy.extensions.feedexport

import scrapy.extensions.closespider

import scrapy.extensions.debug

import scrapy.extensions.httpcache

import scrapy.extensions.statsmailer

import scrapy.extensions.throttle

import scrapy.core.scheduler

import scrapy.core.engine

import scrapy.core.scraper

import scrapy.core.spidermw

import scrapy.core.downloader

import scrapy.downloadermiddlewares.stats

import scrapy.downloadermiddlewares.httpcache

import scrapy.downloadermiddlewares.cookies

import scrapy.downloadermiddlewares.useragent

import scrapy.downloadermiddlewares.httpproxy

import scrapy.downloadermiddlewares.ajaxcrawl

import scrapy.downloadermiddlewares.chunked

import scrapy.downloadermiddlewares.decompression

import scrapy.downloadermiddlewares.defaultheaders

import scrapy.downloadermiddlewares.downloadtimeout

import scrapy.downloadermiddlewares.httpauth

import scrapy.downloadermiddlewares.httpcompression

import scrapy.downloadermiddlewares.redirect

import scrapy.downloadermiddlewares.retry

import scrapy.downloadermiddlewares.robotstxt

import scrapy.spidermiddlewares.depth

import scrapy.spidermiddlewares.httperror

import scrapy.spidermiddlewares.offsite

import scrapy.spidermiddlewares.referer

import scrapy.spidermiddlewares.urllength

import scrapy.pipelines

import scrapy.core.downloader.handlers.http

import scrapy.core.downloader.contextfactory

# 自己项目用到的

#import scrapy.pipelines.images # 用到图片管道

import openpyxl # 用到openpyxl库

process = CrawlerProcess(get_project_settings())

# 'sk' is the name of one of the spiders of the project.

process.crawl('sk')

process.start() # the script will block here until the crawling is finished

　　4.3在s_spider.py目录下：shift+右键，然后点击‘’在此处打开命令窗口‘’，输入：pyinstaller crawl.py，生成dist，build（可删）和crawl.spec（可删）。

　　4.4在s_spider.exe目录下创建文件夹scrapy，然后到自己安装的scrapy文件夹中把VERSION和mime.types两个文件复制到刚才创建的scrapy文件夹中。

　　4.5重新打包运行.exe即可，需要爬虫支持，不能单独运行。

ann

3楼 · 2021-01-04 15:00

#环境python3.6

#爬取APP无忧借条

#通过用户账号密码爬取用户个人信息（我这账号密码已打码）

爬虫部分代码

#coding:utf8

importhashlib

importtime

importurllib3

importjson

headers={'Accept':'*/*','Accept-Encoding':'gzip,deflate','Accept-Language':'zh-CN,en-US;q=0.8',

'User-Agent':'Mozilla/5.0(Linux;Android6.0.1;Redmi3SBuild/MMB29M;wv)AppleWebKit/537.36(KHTML,likeGecko)Version/4.0Chrome/53.0.2785.49MobileMBrowser/6.2TBS/043632Safari/537.36jinjiedao'}

origin_data={}#原始数据

result={}#提取后数据

http=urllib3.PoolManager()#http连接池

urllib3.disable_warnings()#禁用各种urllib3警告

#获取token

deflogin(phone,password):

login_url='https://www.gushistory.com/jjdApi/user/login'

headers['refer']='https://www.gushistory.com/jjdapp/html/register/login.html?telephone='+phone

md5=hashlib.md5()

md52=hashlib.md5()

md5.update(password.encode(encoding='utf-8'))#第一次md5

md52.update(md5.hexdigest().encode(encoding='utf-8'))#第二次md5

#创建登陆参数字典

data={'c_telephone':phone,'c_pwd':md52.hexdigest()}

response=excute(login_url,'GET',data)

origin_data['login']=response

returnresponse['token']

#获取登陆后的信息

defgetAccountInfo(token):

account_url='https://www.gushistory.com/jjdApi/user/getHomepageInfo'

headers['refer']='https://www.gushistory.com/jjdapp/html/index.html'

data={'token':token}

response=excute(account_url,'GET',data)

origin_data['account']=response

user_info=response['userInfo']

result['balance']=user_info['n_left_amt']#余额

result['wait_repay_amt']=user_info['n_to_repay_amt']#待还金额

result['wait_receive']=user_info['n_to_receive_amt']#代收金额

result['lender_cnt']=response['borrowInfo']['n_lender_cnt']#出借金额

result['phone']=user_info['c_telephone']#手机号

if'c_name'inuser_info:#名称

result['name']=user_info['c_name']

else:

result['name']='未实名'

if'c_id_card_no'inuser_info:#身份证号

result['id_card']=user_info['c_id_card_no']

returnresult

defexcute(url,method,data):

ifdata==None:

data={}

data['timestamp']=int(round(time.time()*1000))

r=http.request(url=url,method=method,headers=headers,fields=data)

response=json.loads(r.data.decode('utf-8'))

ifresponse['code']==200:

returnresponse['object']

else:

response['error']='处理失败'

returnresponse

if__name__=="__main__":

phone='1516842****'

pwd='123456'

token=login(phone,pwd)

getAccountInfo(token)

运行完结果为json数据

以上是爬虫部分，接下来先把API接口模板写好：

fromflaskimportFlask,g

fromflask_restfulimportreqparse,Api,Resource

fromflask_httpauthimportHTTPTokenAuth

#Flask相关变量声明

app=Flask(__name__)

api=Api(app)

#RESTfulAPI的参数解析--put/post参数解析

parser_put=reqparse.RequestParser()

parser_put.add_argument("user",type=str,required=True,help="needuserdata")

parser_put.add_argument("pwd",type=str,required=True,help="needpwddata")

#这部分是爬虫功能

defto_do(arg1,args2):

return"thisisinfo"

#操作（post/get）资源列表

classTodoList(Resource):

defpost(self):

"""

添加一个新用户:curlhttp://127.0.0.1:5000/users-XPOST-d"name=Brown&age=20"-H"Authorization:tokenfejiasdfhu"

"""

args=parser_put.parse_args()

#构建新用户

user=args['user']

pwd=args['pwd']

info={"info":to_do(user,pwd)}

#资源添加成功，返回201

returninfo,201

#设置路由，即路由地址为http://127.0.0.1:5000/users

api.add_resource(TodoList,"/users")

if__name__=="__main__":

app.run(debug=True)

接下来将爬虫部分镶嵌到到模板里面，完整代码如下：

fromflaskimportFlask,g

fromflask_restfulimportreqparse,Api,Resource

fromflask_httpauthimportHTTPTokenAuth

importhashlib

importtime

importurllib3

importjson

#Flask相关变量声明

app=Flask(__name__)

api=Api(app)

#RESTfulAPI的参数解析--put/post参数解析

parser_put=reqparse.RequestParser()

parser_put.add_argument("user",type=str,required=True,help="needuserdata")

parser_put.add_argument("pwd",type=str,required=True,help="needpwddata")

headers={'Accept':'*/*','Accept-Encoding':'gzip,deflate','Accept-Language':'zh-CN,en-US;q=0.8',

'User-Agent':'Mozilla/5.0(Linux;Android6.0.1;Redmi3SBuild/MMB29M;wv)AppleWebKit/537.36(KHTML,likeGecko)Version/4.0Chrome/53.0.2785.49MobileMBrowser/6.2TBS/043632Safari/537.36jinjiedao'}

origin_data={}#原始数据

result={}#提取后数据

http=urllib3.PoolManager()#http连接池

urllib3.disable_warnings()#禁用各种urllib3警告

#获取token

deflogin(phone,password):

login_url='https://www.gushistory.com/jjdApi/user/login'

headers['refer']='https://www.gushistory.com/jjdapp/html/register/login.html?telephone='+phone

md5=hashlib.md5()

md52=hashlib.md5()

md5.update(password.encode(encoding='utf-8'))#第一次md5

md52.update(md5.hexdigest().encode(encoding='utf-8'))#第二次md5

#创建登陆参数字典

data={'c_telephone':phone,'c_pwd':md52.hexdigest()}

response=excute(login_url,'GET',data)

origin_data['login']=response

returnresponse['token']

#获取登陆后的信息

defgetAccountInfo(token):

account_url='https://www.gushistory.com/jjdApi/user/getHomepageInfo'

headers['refer']='https://www.gushistory.com/jjdapp/html/index.html'

data={'token':token}

response=excute(account_url,'GET',data)

origin_data['account']=response

user_info=response['userInfo']

result['balance']=user_info['n_left_amt']#余额

result['wait_repay_amt']=user_info['n_to_repay_amt']#待还金额

result['wait_receive']=user_info['n_to_receive_amt']#代收金额

result['lender_cnt']=response['borrowInfo']['n_lender_cnt']#出借金额

result['phone']=user_info['c_telephone']#手机号

if'c_name'inuser_info:#名称

result['name']=user_info['c_name']

else:

result['name']='未实名'

if'c_id_card_no'inuser_info:#身份证号

result['id_card']=user_info['c_id_card_no']

returnresult

defexcute(url,method,data):

ifdata==None:

data={}

data['timestamp']=int(round(time.time()*1000))

r=http.request(url=url,method=method,headers=headers,fields=data)

response=json.loads(r.data.decode('utf-8'))

ifresponse['code']==200:

returnresponse['object']

else:

response['error']='处理失败'

returnresponse

defto_do(phone,password):

token=login(phone,password)

returngetAccountInfo(token)

#操作（post/get）资源列表

classTodoList(Resource):

defpost(self):

"""

添加一个新用户:curlhttp://127.0.0.1:5000/users-XPOST-d"name=Brown&age=20"-H"Authorization:tokenfejiasdfhu"

"""

args=parser_put.parse_args()

#构建新用户

user=args['user']

pwd=args['pwd']

info={"info":to_do(user,pwd)}

#资源添加成功，返回201

returninfo,201

#设置路由

api.add_resource(TodoList,"/users")

if__name__=="__main__":

app.run(debug=True)

这是用postman测试工具模拟浏览器请求，得出的结果

用scrapy写的爬虫代码段怎么封装成一个api

相关问题推荐

等你来答

热门问答

相关文章

用scrapy写的爬虫代码段怎么封装成一个api

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间