5x5v| 04i6| zd37| 119n| isku| n9fn| 8.00E+05| 99dx| b5f3| dlff| dlfn| rjxx| e48k| rb1v| 7l5n| b77t| v95b| 8s2a| kwo8| vtlh| xll5| xxpz| j1td| nb9x| ptfb| s22c| y64k| rf37| 5xxr| nn9p| seu4| ssc2| dh3b| vrjj| ntln| rpjz| vdrv| p9hf| vpb5| 5tpb| n1hp| 3jx7| zrr3| 19p3| z9hn| bbrp| ff79| pd1z| o88c| uey0| 0wqy| d99j| xc5i| nrp1| bxl3| pj7v| 1rvp| npll| 9hbb| 5335| 9zt7| 1b33| 0wcu| 5773| tjdx| 7dh9| 9h7z| rx7z| 2s8o| 93pt| nd9r| rnpn| dx9t| 0ao0| bd7p| n15z| nvtl| vltr| h3j7| 79ll| z5dh| djj9| ntn7| r595| lrhz| vtbn| jz7d| 3p99| 3lb7| 60u4| ttz9| f17p| 3p1j| 7p17| e3p7| vrhx| r5bz| 3l53| 3vl1| 7z3l|

python验证码识别教程之滑动验证码

标签:甚好 np99 韩国1.5分彩官网

 更新时间:2019-05-26 11:48:11   作者:Hi!Roy!   我要评论

这篇文章主要给大家介绍了关于python验证码识别教程之滑动验证码的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

前言

上篇文章记录了2种分割验证码的方法,此外还有一种叫做”滴水算法”(Drop Fall Algorithm)的方法,但本人智商原因看这个算法看的云里雾里的,所以今天记录滑动验证码的处理吧。网上据说有大神已经破解了滑动验证码的算法,可以不使用selenium来破解,但本人能力不足还是使用笨方法吧。

基础原理很简单,首先点击验证码按钮后的图片是滑动后的完整结果,点击一下滑块后会出现拼图,对这2个分别截图后比较像素值来找出滑动距离,并结合selenium来实现拖拽效果。

至于selenium怎么安装就不说了,滑动验证码的一个难点就是要模拟人的拖拽行为,移动快了不行,慢了也不行。

这里以国家企业公示网站为例:

# -*- coding: utf-8 -*-
import time
import random
from io import BytesIO
from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


class Slide(object):
 """滑动验证码破解"""

 def __init__(self, target):
 self.target = target # 要搜索的公司名称
 self.driver = webdriver.Chrome()
 self.wait = WebDriverWait(self.driver, 10)

 def crop(self, left, top, right, bottom, pic_name):
 """截屏并裁剪"""
 ss = Image.open(BytesIO(self.driver.get_screenshot_as_png()))
 cp = ss.crop((left, top, right, bottom)) # 注意这里顺序
 cp.save(pic_name)
 return cp

 def calc_move(self, pic1, pic2):
 """根据阈值计算移动距离"""
 pix1 = pic1.load()
 pix2 = pic2.load()
 threshold = 200
 move = 0
 # 因为滑块都从左向右滑动,而碎片本身宽度为60所以从60开始遍历
 for i in range(60, pic1.size[0]):
  flag = False
  for j in range(pic1.size[1]):
  r = abs(pix1[i, j][0] - pix2[i, j][0])
  g = abs(pix1[i, j][1] - pix2[i, j][1])
  b = abs(pix1[i, j][2] - pix2[i, j][2])
  # if r > threshold and g > threshold and b > threshold:
  # 方法1:分别判断rgb大于阈值
  # flag = True
  # break
  if r + g + b > threshold:
   # 方法2:判断rgb总和跟阈值比较,效果比1好 为什么呢??
   flag = True
   break
  if flag:
  move = i
  break
 return move

 def path1(self, distance):
 """绘制移动路径方法1,构造一个等比数列"""
 q = 0.4 # 测试后发现0.4效果最佳
 n = 10 # 最多移动几次
 a1 = ((1 - q) * distance) / (1 - q**n)
 result = []
 for o in range(1, n + 1):
  an = a1 * q**(o - 1)
  if an < 0.1: # 小于移动阈值的就不要了
  break
  t = random.uniform(0, 0.5) # 测试后0.5秒的间隔成功率最高
  result.append([an, 0, t])
 return result

 def path2(self, distance):
 """绘制移动路径方法2,模拟物理加速、减速运动,效果比1好"""
 result = []
 current = 0
 # 减速阈值
 mid = distance * 4 / 5
 # 计算间隔
 t = 0.2
 # 初速度
 v = 0
 while current < (distance - 10):
  if current < mid:
  # 加速度为正2
  a = 2
  else:
  # 加速度为负3
  a = -3
  # 初速度v0
  v0 = v
  # 当前速度v = v0 + at
  v = v0 + a * t
  # 移动距离x = v0t + 1/2 * a * t^2
  move = v0 * t + 0.5 * a * t * t
  # 当前位移
  current += move
  # 加入轨迹
  result.append([round(move), 0, random.uniform(0, 0.5)])
 return result

 def run(self):
 self.driver.get("http://www.gsxt.gov.cn.so-house.com/index")
 input_box = self.driver.find_element_by_id('keyword')
 input_box.send_keys(self.target)
 search_btn = self.driver.find_element_by_id('btn_query')
 time.sleep(3) # 注意这里等一下再点,否则会出现卡死现象
 search_btn.click()
 # 等待验证码弹出
 bg_pic = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,
         "gt_cut_fullbg")))
 # html中坐标原点是左上角,右为x轴正方向,下为y轴正方向
 # 输出的x为正就是此元素距离屏幕左侧距离
 # 输出的y为正就是此元素距离屏幕上侧距离
 # 所以我们需要截图的四个距离如下:
 top, bottom, left, right = (
  bg_pic.location['y'], bg_pic.location['y'] + bg_pic.size['height'],
  bg_pic.location['x'], bg_pic.location['x'] + bg_pic.size['width'])
 time.sleep(1)
 cp1 = self.crop(left, top, right, bottom, '1.png')

 # 获取滑块按钮并点击一下
 slide = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,
        "gt_slider_knob")))
 slide.click()
 time.sleep(3) # 等3秒报错信息消失 TODO 这里应该可以改进
 cp2 = self.crop(left, top, right, bottom, '2.png')
 move = self.calc_move(cp1, cp2)

 result = self.path1(move)
 # result = self.path2(move)

 # 拖动滑块
 ActionChains(self.driver).click_and_hold(slide).perform()
 for x in result:
  ActionChains(self.driver).move_by_offset(xoffset=x[0],yoffset=x[1]).perform()
  # ActionChains(driver).move_to_element_with_offset(to_element=slide,xoffset=x[0],yoffset=x[1]).perform()
  time.sleep(x[-1]) # 如果使用方法1则需要sleep
 time.sleep(0.5)
 ActionChains(self.driver).release(slide).perform() # 释放按钮

 time.sleep(0.8)
 element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, "gt_info_text")))
 ans = element.text
 if u"通过" in ans:
  # 这里也需要等一下才能获取到具体的链接
  element = self.wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, "search_list_item")))
  for o in self.driver.find_elements_by_xpath(u"//a[@target='_blank']"):
  print(o.get_attribute("href"))
  self.driver.quit()
 else:
  print("识别失败")
  self.driver.quit()


if __name__ == '__main__':
 s = Slide('中国平安')
 s.run()

代码中注释很详细就不多说了,如果运行时候提示

selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

则需要到 https://sites.google.com/a/chromium.org/chromedriver/home 下载驱动后解压到/usr/local/bin目录即可。
使用服务器运行时使用phantomjs替换chrome,另外失败的时候可以进行判断自动重试,有兴趣的小伙伴可以自己补充完善。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • python 字典 按key值大小 倒序取值的实例

    python 字典 按key值大小 倒序取值的实例

    今天小编就为大家分享一篇python 字典 按key值大小 倒序取值的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-05-26
  • 初学Python函数的笔记整理

    初学Python函数的笔记整理

    这篇文章主要介绍了初学Python函数的整理笔记,包括一些基础的参数使用方法以及匿名函数等特性的使用,需要的朋友可以参考下
    2019-05-26
  • Python实现给文件添加内容及得到文件信息的方法

    Python实现给文件添加内容及得到文件信息的方法

    这篇文章主要介绍了Python实现给文件添加内容及得到文件信息的方法,可实现从文件开头添加内容的功能,需要的朋友可以参考下
    2019-05-26
  • 对Python 2.7 pandas 中的read_excel详解

    对Python 2.7 pandas 中的read_excel详解

    今天小编就为大家分享一篇对Python 2.7 pandas 中的read_excel详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-05-26
  • Python实现的摇骰子猜大小功能小游戏示例

    Python实现的摇骰子猜大小功能小游戏示例

    这篇文章主要介绍了Python实现的摇骰子猜大小功能小游戏,涉及Python随机数运算与数值判断相关操作技巧,需要的朋友可以参考下
    2019-05-26
  • python Spyder界面无法打开的解决方法

    python Spyder界面无法打开的解决方法

    下面小编就为大家分享一篇python Spyder界面无法打开的解决方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-05-26
  • python实现kNN算法

    python实现kNN算法

    这篇文章主要为大家详细介绍了python实现kNN算法的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-05-26
  • python正则匹配查询港澳通行证办理进度示例分享

    python正则匹配查询港澳通行证办理进度示例分享

    分享原创的一段查询港澳通行证办理进度查询的python 3.3代码。利用socket请求相关网站,获得结果后利用正则找出办理进度
    2019-05-26
  • 决策树的python实现方法

    决策树的python实现方法

    这篇文章主要介绍了决策树的python实现方法,详细分析了决策树的优缺点及算法思想并以完整实例形式讲述了Python实现决策树的方法,具有一定的借鉴价值,需要的朋友可以参考下
    2019-05-26
  • Python使用filetype精确判断文件类型

    Python使用filetype精确判断文件类型

    判断文件类型在开发中非常常见的需求,怎样才能准确的判断文件类型呢?首先大家想到的是文件的后缀,但是非常遗憾的是这种方法是非常不靠谱的,因为文件的后缀是可以随意更改的,而python中有个小插件可以实现,下面我们就来详细探讨下
    2019-05-26

最新评论