导语
博主的代理池正式建立起来啦,已部署在服务器。现无偿开放代理获取请求端口,欢迎使用!
正文
池子介绍
一、总体逻辑:
代码语言为Python,数据库为Mysql。数据库表格分为 active(可用) 与 death(不可用) 表格。代理质量以分数作为判断标
准,初始分数为70,分数上限100分。代码定期对active与death表格代理进行验证,具体规则见验证模块。二、获取模块
爬虫二十四小时不间断监测、爬取各大免费代理网站代理。入库前进行第一次验证,验证通过则放入active表格,并设置初始分数 70 分。三、验证模块
active、death两表格代理分开验证。active表格间隔三十六分钟进行一次验证。若验证成功,且分数低于70,立即恢复为初始
分数70。若分数高于初始分数,分数加一,上限100;若可用状态代理验证失败, 分数立即降至15分,否则继续分数减一,直至为
零移除active表格,同时将其插入death表格。death表格作为备用爱 补充库,同样以分数进行判断,初始分数14分。间隔十二小时验证一次,成功即恢复可用状态,否则分数继续减一,直至为零彻底移出数据库。
更新维护
2020-4-22日更新
新增分协议类型存储(HTTP/HTTPS),之前是不区分协议,统一存储为HTTP。待HTTPS协议类型代理数量上来以后,将新增HTTPS端口地址,或这考虑统一改用POST请求模式。
2020-4-28日更新
18:00-21:00暂停调整数据库存储字段,期间暂停开放API端口。
重要变化:API端口返回json键值有所改变,新格式请参考 数据说明 。2020-4-29日更新
在线更新,主要为细节更新,内容如下:
- 优先验证存活代理(70分值及以上代理),进一步确保端口代理可用性。
- 内部代码细节优化,验证方式调整,提高执行效率。
异常捕获、处理机制优化。
2020-5-01日更新
- 新增代理爬取源。
- 下调 不可用代理初始 分数,由原来的15分下降至12分。
- HTTPS 类型代理放入API端口,由于数量较少,暂不作单独开放端口处理。
2020-5-04日更新
可能由于之前比较偏重数量的原因,亦或开发经验不足,导致代理校验模块出现比较大的疏忽,代理池代理可用百分比较小。例如:没有考虑到广告代理(无论访问什么网址,均会自动跳转到某一特定网址,真是够绝的),以及无效的302,301,304访问等等。在这一次更新中,博主对验证代理池代理有效性作了较大调整,基本上解决了上述问题,进一步优化代码。当然了,若你觉得获取代理池质量实在差劲,也欢迎你评论区留言批评、或给出你的验证想法,实在感谢!
- 代码细节改进。
- 异常捕获、以及异常处理代码优化。
- 调整代理验证逻辑,提高验证质量。
- 调高API端口代理分数下限,之前与放入代理池起步分数相同(70分),目前为71分。
2020-5-08日更新
端口代码优化,提高效率,新增限制IP访问。IP访问规则如下:
- 每一IP,10秒内最大访问频率3次,超过访问限制返回 403
- 增加请求头校验,访问请求需携带User-Agent请求头,否则返回 400
增加IP访问黑名单,若发现疯狂抓取,将封锁IP。
2020-5-16日更新
很抱歉,由于原服务器续费成本高昂,且运行内存较低,博主不得已更换服务器。但由于各种杂七杂八的原因,原来服务器部分数据未能及时备份,导致网站停摆一天。现网站以及代理池已基本恢复正常运行,如有问题,欢迎评论区留言。
注: 至此,博主的代理池开发,基本上算得上是完善了。由于时间与精力实在有限,博主将会降低更新维护的频率,但承诺保持代理代理池数量及API端口保持稳定,有效运行。若你有新的免费代理网站or代理源,欢迎下方评论区留言,谢谢!2020-6-13日更新
调低端口访问限制,十秒内最大访问次数十次。
2020-12-31日更新
- 调低端口访问限制,十秒内最大访问次数二十五次。
代理池服务器代码全面更新,由之前的PHP代码全部转换为Python Flask代码,灵活性更强,稳定性更高,效率更佳。
2021-05-30日更新
在这半年以来,虽然很长时间没有发布更新日志了,但是其实博主还是悄悄地对代理池进行了优化、改进的,包括但不限于:
- 优化api端口请求视图代码,增加专用的https请求端口。
- 添加定时分析代理池数量、质量、请求次数等数据分析功能。
- 爬虫以及数据库操作代码优化,逐渐向sqlalchemy过度。
- 存储所有入库代理信息
api端口请求访问控制调整
2021-06-15 ####日更新
这一次更新主要是将原先的pymysql数据库操作更变的更方便、更简单明了、操作性更强的sqlalchemy
- 数据库由pymysql sql语句操作转为sqlalchemy orm类型操作
- 代码细节优化
联系博主
本站代理服务将长期开放,若你在使用服务过程中,遇到突发状况,如请求网址失效,返回错误、数据错乱等,请查看本文 更新维护 一栏,了解情况。你也可以留言评论,or直接联系博主,博主看到后会尽快答复。联系邮箱: zqc8@vip.qq.com
注: 博主正在考虑开发一款 网站评论邮件通知系统 ,不过最近时间不是很充裕,得需要一段时间。到时候大家留言评论只要留下真实邮箱,就可以直接收到博主or其他网友给你的回复信息啦!
数据返回示例
# 数据返回成功示例
{"code":200,"msg":"Succeed","data":{"proxy":"0.0.0.0:80","port":"80","type":"http","score":100,"response_time":1,"verify_time":"2021-05-30 xx:xx:xx"},"warning":"1.本站代理Ip均收集自互联网平台,不归本平台所有,我们不能确保您的数据传输安全性,请勿使用此代理传输任何个人敏感信息,若造成信息泄露、个人损失,责任自负!2.禁止将代理用于任何非法用途,包括但不限于:网络攻击、发布虚假/煽动/反社会主义言论、恶意攻击他人等,若违反国家相关规定,责任由使用者自负!"}
代理池接口地址
责任声明
- 本站代理Ip均收集自互联网平台,不归本平台所有,我们不能确保您的数据传输安全性,请勿使用此代理传输任何个人敏感信息,若造成信息泄露、个人损失,责任自负!
- 禁止将代理用于任何非法用途,包括但不限于:网络攻击、发布虚假/煽动/反社会主义言论、恶意攻击他人等,若违反国家相关规定,责任由使用者自负!
其他事项
结语
如有任何问题,欢迎评论区下方留言,推荐大家加入博主创建的Python交流群,获取代理池/停机维护最新更新动态等。QQ群号:894840395
40 comments
兄弟写的非常好 https://www.cscnn.com/
看的我热血沸腾啊https://www.ea55.com/
怎么收藏这篇文章?
楼主牛逼 我来看看
|´・ω・)ノ
牛啊
卡那看看!!!!!!!
由于访问频率过快,以下IP地址之前已被限制访问:121.89.213. 、124.23.134.、223.72.72.** 现已解除访问限制。请各位在发送请求时记得控制一下请求频率:每10秒钟最大访问次数不得超过50次。
非常抱歉,拥有新更换Ubuntu系统,对Linux系统不熟悉,在2021.5.10日,误删了系统自带的Python,导致服务器接近半瘫痪,无法访问访问,基础功能无法运行。几经周折,耗费了好些功夫才把系统恢复过来。目前代理池等服务已经恢复,尽情享用。
支持大佬
支持
接口地址在哪
文章当中有呀,在代理池端口API那一栏,
好
新的代理端口已经升级完毕啦!欢迎各位继续使用!
几经折腾,最近已经基本上完成了 代理池端口服务器的改造,已经完成测试,能够正常运行,目前正在配置服务器,相信不久就能够重新启用,大家敬请期待!
抱歉,由于最近忙着备考,加上正在把端口服务代码由PHP整合到Python Flask ,并且正在开发一些其他用途的端口,所以目前的代理获取端口是停止运行状态的,我会尽快完成整合,开放时间另行通知。
看看
支持一下
冒泡冒泡www
大佬nb
楼主牛逼
1
好好好
谢谢博主了,辛苦赞一个
支持一下
啊啊啊
ヾ(≧∇≦*)ゝ支持一下
(´இ皿இ`)
失效了哦
api端口已恢复,需要注意一下,json数据返回格式有所改变,原本ip键更改为 proxy,值为一个完成的代理 ,如:127.0.0.1:88 ,具体请参见文章数据类型说明。
更新维护,调整一下数据库,今晚22点应该能解决,请稍等哈。
厉害啊
666支持一下
嗯哼
感谢大佬
是打发士大夫撒旦法士大夫撒上
瞧瞧,
我就来瞅瞅不说话。