代码高亮测试

  • A+
所属分类:编程语言

百度网盘批量 工具  百度云

python代码

 

 

Code   ViewCopyPrint
  1. #-*-coding:utf-8-*-
  2. from selenium import webdriver
  3. import requests
  4. import re
  5. import time
  6. def get_sitemap():
  7.     req = requests.get("http://blog.az009.com/sitemap-posttype-post.201804.xml/")
  8.     pattern = re.compile("<loc>(http://blog.az009.com/.*?.html)</loc>")
  9.     lists = pattern.findall(req.text)
  10.     # print(lists)
  11.     return lists
  12. # firefox_profile = webdriver.FirefoxProfile()
  13. # firefox_profile.set_preference('permissions.default.image', 2)  # 某些firefox只需要这个
  14.     # firefox_profile.set_preference('browser.migration.version', 9001)  # 部分需要加上这个
  15. # 禁用css
  16. #     firefox_profile.set_preference('permissions.default.stylesheet', 2)
  17. # 禁用flash
  18. #     firefox_profile.set_preference('dom.ipc.plugins.enabled.libflashplayer.so', 'false')
  19. # 禁用js
  20. #     firefox_profile.set_preference('javascript.enabled', 'false')
  21. browser = webdriver.Firefox()
  22. # browser = webdriver.Firefox(firefox_profile=firefox_profile)
  23. for i,url in enumerate(get_sitemap()[13:]):
  24.     try:
  25.         browser.get(url)
  26.         print("正在爬取第: {}个网页".format(i))
  27.         js = "var q=document.documentElement.scrollTop=5000"
  28.         browser.execute_script(js)
  29.         time.sleep(1)
  30.     except Exception:
  31.         continue
  32. # browser.close()

weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: