当前位置:首页 > 生活百科

ip代理服务器搭建(搭建稳定的代理ip池)

栏目:生活百科日期:2025-03-03浏览:0

一、建立IP代理池的思路:

做爬虫时,遇到访问太频繁IP被封是难以避免的,而本地单个IP是不足以进行大规模爬取,并且自己并不想购买付费代理,那么,构建一个IP代理池是非常有必要的。思路如下:

图1

二、建立IP 代理池的步骤:

爬取代理IP:搜索选择代理IP网站,选取免费代理;代码如下:

# _*_ coding:UTF-8 _*_# 开发作者:Jason Zhang# 创建时间:2020/12/29 17:58# 文件名称:爬取代理IP.PY# 开发工具:PyCharmimport requestsimport lxml.htmlimport osheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url_list = &['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]ip_list = &[]for url in url_list:    r = requests.get(url,headers=headers)    etree = lxml.html.fromstring(r.text)    ips = etree.xpath('//tr&[@class="odd"]')    for ip in ips:        IP = ip.xpath('//td/text()')        ip = IP&[0] +':'+ IP&[1]        ip_list.append(ip)f = open('ip.txt','wb')f.write(','.join(ip_list).encode('utf-8'))f.close(

验证代理IP:

通过网络访问来验证代理IP的可用性和访问速度,将之前爬取到的代理IP地址从ip.txt文件中提取出来,分别试用代理IP去访问某个网站首页,仅保留响应时间在2秒内的IP,并保存在QIP.txt中,代码如下:

# _*_ coding:UTF-8 _*_# 开发作者:关中老玉米# 创建时间:2020/12/29 18:27# 文件名称:验证代理IP.PY# 开发工具:PyCharmimport requestsip_list = open('ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}qurl = 'https://www.baidu.com' #用百度来测试IP是否能正常连网for i in ip_list: #设置超时时间timeout为2 s,超时则为不可用IP    r = requests.get(url, proxies={'http': 'http://' + ip&[i]}, headers=headers,timeout=2)    if r.text:        qip.append(qip&[i])    else:        continuef = open('quality_ip.txt','wb')f.write(','.join(quality_ip).encode('utf-8'))f.close()

使用代理IP:

建立IP代理池之后,有以下两种使用代理IP的方式。

# _*_ coding:UTF-8 _*_# 开发作者:Jason Zhang# 创建时间:2020/12/31 18:03# 文件名称:使用代理IP.PY# 开发工具:PyCharm# (1)使用随机 IP,代码如下:import randomimport requestsip_list = open('quality_ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url = 'http://*********'r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)# (2)因为免费的代理时效很短,在后续的爬取任务中很容易失效,所以当出现访问错误(响应码不等于 200)时,更换 IP,代码如下:ip_list = open('qip.txt').read().split(',')headers = {    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}for ip in ip_list:    for i in range(len(url_list)):        r = requests.get(url_list&[i], proxies={'http': 'http://'+ip},headers=headers)        if r.status_code != 200:            break

“ip代理服务器搭建(搭建稳定的代理ip池)” 的相关文章

上海地铁故障最新消息(官方公布其最新实时新闻)

今天上午,有市民反映上海地铁15号线桂林路站有大量水涌入。东方网记者从上海地铁证实了此事。虽然地铁15号线桂林路站目前处于未开通状态,但这一突发事件仍导致地铁1...

m4a在线转mp3转换器(音频m4a转化mp3格式的方法)

说到最熟悉的音频格式,相信大家首先会想到的就是mp3了吧?不过在Windows系统中,音频格式的文件其实有很多,除了有咱们比较熟悉的mp3之外,还有flac、m...

专业网络推广的优势是什么,宣传推广方案分析

你是否还在为网络推广这些困难感到困惑:比如资金链不够,但是搜索竞价成本还在日益提高?同行业之间的竞争也日趋激烈,行业利润也正在大幅度降低,眼前工作的安排让人力不...

eset nod32删除文件(实操eset永久激活工具)

近日Phobos勒索软件家族Eking勒索病毒较活跃,今天接到一个oracle数据库勒索病毒加密的案例,由于DBF文件被全加密,但是可以从加密的DMP备份文件恢...

ipad2怎么升级系统版本(苹果平板闪退解决方法)

自从IPADAIR2发布后,相信很多朋友都心动不已,和我一样跃跃欲试想升级了吧。所以就有了这个业余的晒单,供大家参考、娱乐一下。其实本人并非苹果粉,IPAD和安...

互联网营销公司排名,互联网发展趋势分析

许多企业、个人从事的一些比较大的项目,他们不知道推广有什么作用,也不去尝试网络推广。导致客户稀少,客源短缺。接下来志强博客就来为大家讲解一下推广的作用。做推广的...

2023年电商需要收税吗(官方公布电商收税新规)

在过去的15年,由于电商不需要缴税,可以靠流量红利冲击实体商业。但当电商税出台后,百万卖家将面临淘汰,实体店就会重获新生。那么电商缴税,会给实体店带来哪些商机呢...

filezilla无法连接到服务器怎么回事(原因及其有效解决

修复阿里云漏洞后无法通过filezilla连接FTP,也无法通过putty登录服务器,重启也无效;提示错误:disconnected:Nosupportedau...

redis实现分布式锁方式(redis分布式锁三个方法)

为什么需要分布式锁在聊分布式锁之前,有必要先解释一下,为什么需要分布式锁。与分布式锁相对就的是单机锁,我们在写多线程程序时,避免同时操作一个共享变量产生数据问题...

功率电压电流公式口诀(220v电流计算口诀)

在工作中,经常都会需要用到估算设备或者用电器电流。比如:加热管单相电动机在实际的电气接线,配线,维修过程中,很多的师傅往往看一眼设备或者用电器的功率就能够知道对...