导语

博主的代理池正式建立起来啦,已部署在服务器。现无偿开放代理获取请求端口,欢迎使用!

正文

池子介绍

点我查看池子介绍全文

一、总体逻辑:
代码语言为Python,数据库为Mysql。数据库表格分为 active(可用) 与 death(不可用) 表格。代理质量以分数作为判断标
准,初始分数为70,分数上限100分。代码定期对active与death表格代理进行验证,具体规则见验证模块。

二、获取模块
爬虫二十四小时不间断监测、爬取各大免费代理网站代理。入库前进行第一次验证,验证通过则放入active表格,并设置初始分数 70 分。

三、验证模块
active、death两表格代理分开验证。active表格间隔三十六分钟进行一次验证。若验证成功,且分数低于70,立即恢复为初始
分数70。若分数高于初始分数,分数加一,上限100;若可用状态代理验证失败, 分数立即降至15分,否则继续分数减一,直至为
零移除active表格,同时将其插入death表格。

death表格作为备用爱 补充库,同样以分数进行判断,初始分数14分。间隔十二小时验证一次,成功即恢复可用状态,否则分数继续减一,直至为零彻底移出数据库。

更新维护

点我查看更新维护日志

2020-4-22日更新

新增分协议类型存储(HTTP/HTTPS),之前是不区分协议,统一存储为HTTP。待HTTPS协议类型代理数量上来以后,将新增HTTPS端口地址,或这考虑统一改用POST请求模式。

2020-4-28日更新

18:00-21:00暂停调整数据库存储字段,期间暂停开放API端口。
重要变化:API端口返回json键值有所改变,新格式请参考 数据说明 。

2020-4-29日更新

在线更新,主要为细节更新,内容如下:

  1. 优先验证存活代理(70分值及以上代理),进一步确保端口代理可用性。
  2. 内部代码细节优化,验证方式调整,提高执行效率。
  3. 异常捕获、处理机制优化。

    2020-5-01日更新

  4. 新增代理爬取源。
  5. 下调 不可用代理初始 分数,由原来的15分下降至12分。
  6. HTTPS 类型代理放入API端口,由于数量较少,暂不作单独开放端口处理。

2020-5-04日更新

可能由于之前比较偏重数量的原因,亦或开发经验不足,导致代理校验模块出现比较大的疏忽,代理池代理可用百分比较小。例如:没有考虑到广告代理(无论访问什么网址,均会自动跳转到某一特定网址,真是够绝的),以及无效的302,301,304访问等等。在这一次更新中,博主对验证代理池代理有效性作了较大调整,基本上解决了上述问题,进一步优化代码。当然了,若你觉得获取代理池质量实在差劲,也欢迎你评论区留言批评、或给出你的验证想法,实在感谢!

  1. 代码细节改进。
  2. 异常捕获、以及异常处理代码优化。
  3. 调整代理验证逻辑,提高验证质量。
  4. 调高API端口代理分数下限,之前与放入代理池起步分数相同(70分),目前为71分。

2020-5-08日更新

端口代码优化,提高效率,新增限制IP访问。IP访问规则如下:

  1. 每一IP,10秒内最大访问频率3次,超过访问限制返回 403
  2. 增加请求头校验,访问请求需携带User-Agent请求头,否则返回 400
  3. 增加IP访问黑名单,若发现疯狂抓取,将封锁IP。

    2020-5-16日更新

    很抱歉,由于原服务器续费成本高昂,且运行内存较低,博主不得已更换服务器。但由于各种杂七杂八的原因,原来服务器部分数据未能及时备份,导致网站停摆一天。现网站以及代理池已基本恢复正常运行,如有问题,欢迎评论区留言。
    注: 至此,博主的代理池开发,基本上算得上是完善了。由于时间与精力实在有限,博主将会降低更新维护的频率,但承诺保持代理代理池数量及API端口保持稳定,有效运行。若你有新的免费代理网站or代理源,欢迎下方评论区留言,谢谢!

    2020-6-13日更新

    调低端口访问限制,十秒内最大访问次数十次。

    2020-12-31日更新

  4. 调低端口访问限制,十秒内最大访问次数二十五次。
  5. 代理池服务器代码全面更新,由之前的PHP代码全部转换为Python Flask代码,灵活性更强,稳定性更高,效率更佳。

    2021-05-30日更新

    在这半年以来,虽然很长时间没有发布更新日志了,但是其实博主还是悄悄地对代理池进行了优化、改进的,包括但不限于:

  6. 优化api端口请求视图代码,增加专用的https请求端口。
  7. 添加定时分析代理池数量、质量、请求次数等数据分析功能。
  8. 爬虫以及数据库操作代码优化,逐渐向sqlalchemy过度。
  9. 存储所有入库代理信息
  10. api端口请求访问控制调整

    2021-06-15 ####日更新

    这一次更新主要是将原先的pymysql数据库操作更变的更方便、更简单明了、操作性更强的sqlalchemy

  11. 数据库由pymysql sql语句操作转为sqlalchemy orm类型操作
  12. 代码细节优化

联系博主

点我获取博主联系方式

本站代理服务将长期开放,若你在使用服务过程中,遇到突发状况,如请求网址失效,返回错误、数据错乱等,请查看本文 更新维护 一栏,了解情况。你也可以留言评论,or直接联系博主,博主看到后会尽快答复。联系邮箱: zqc8@vip.qq.com

注: 博主正在考虑开发一款 网站评论邮件通知系统 ,不过最近时间不是很充裕,得需要一段时间。到时候大家留言评论只要留下真实邮箱,就可以直接收到博主or其他网友给你的回复信息啦!

数据返回示例

点我查看数据返回示例

# 数据返回成功示例
{"code":200,"msg":"Succeed","data":{"proxy":"0.0.0.0:80","port":"80","type":"http","score":100,"response_time":1,"verify_time":"2021-05-30 xx:xx:xx"},"warning":"1.本站代理Ip均收集自互联网平台,不归本平台所有,我们不能确保您的数据传输安全性,请勿使用此代理传输任何个人敏感信息,若造成信息泄露、个人损失,责任自负!2.禁止将代理用于任何非法用途,包括但不限于:网络攻击、发布虚假/煽动/反社会主义言论、恶意攻击他人等,若违反国家相关规定,责任由使用者自负!"}

代理池接口地址

点我查看代理池api网址


此处内容需要评论回复后(审核通过)方可阅读。

责任声明

  • 本站代理Ip均收集自互联网平台,不归本平台所有,我们不能确保您的数据传输安全性,请勿使用此代理传输任何个人敏感信息,若造成信息泄露、个人损失,责任自负!
  • 禁止将代理用于任何非法用途,包括但不限于:网络攻击、发布虚假/煽动/反社会主义言论、恶意攻击他人等,若违反国家相关规定,责任由使用者自负!

其他事项

1.获取代理方法:直接Get端口网址即可,数据以json形式返回

2.代理池代理均从各大免费ip网站动态爬取,代理质量请自行筛选

3.本站保留端口开放权限,更新维护/本人使用时,会暂时关闭端口服务

4.每10秒钟最大访问次数不得超过100次,否则在十秒周期内将无法获取数据。

5.每10秒钟最大访问次数不得超过150次,否则将被拉入访问黑名单,拒绝访问。

结语

如有任何问题,欢迎评论区下方留言,推荐大家加入博主创建的Python交流群,获取代理池/停机维护最新更新动态等。QQ群号:894840395

Last modification:December 24, 2021
如果觉得我的文章对你有用,请随意赞赏