Python Web Crawle Pt.7 - Selenium

我们每天都与浏览器打交道，甚至工作也与浏览器相关，从浏览器抓取、提取、提交信息，成了你的家常便饭。你每天不断的重复着做一件事，完全出于习惯，就像程序化的机器人一样，那为何不交给程序呢？

WebBrowser简介

我们先利用自带的webbrowser，它可以打开浏览器并获取指定页面。

1 2	import webbrowser webbrowser.open('https://bing.com/')

很简单，是不是？

我们再用它来完成一个稍微复杂点的动作，比如将一个地址通过命令行参数或者剪贴板，然后在 Google 地图上打开它。

首先，我们需要搞清楚网址是怎么构成的,比如在Google地图查找一下西湖。

1	https://www.google.com/maps/place/%E8%A5%BF%E6%B9%96/@30.243081,120.1258987,14z/data=!3m1!4b1!4m5!3m4!1s0x344b62c0d149f2cb:0xf0f28861cfd37ec9!8m2!3d30.2427011!4d120.1502699?hl=zh-CN

%E8%A5%BF%E6%B9%96: 西湖的URLEncode编码,可以在这里解码(https://tool.oschina.net/encode?type=4)，打作英文的话，是west+lake(west%20lake)。

至于其他的参数，你不必管它，因为网站常常在 URL 中添加额外的数据，用于帮助追踪访问者或定制网站数据。

所以网址的构成是：https://www.google.com/maps/place/ + Keywords，那这样接下去就很简单了,如下：

#! python3 
# mapIt.py
import webbrowser, sys 
if len(sys.argv) > 1: 
    ## sys.argv 变量保存了程序的文件名和命令行参数的列表，这里去掉程序的名称
    address = ' '.join(sys.argv[1:])  
else: 
    ## 处理剪贴板内容，从剪切板得到信息 
    address = pyperclip.paste() 
 
webbrowser.open('https://www.google.com/maps/place/' + address)

在终端键入python mapIt.py west lake, hangzhou 即可在Google地图中打开杭州西湖的地图，此时sys.argv 为['mapIt.py', 'west', 'lake,', 'hangzhou']，如果你还不知道它的用法的话。

Selenium简介

python的selenium 模块是个好东西，它能让我们的程序模拟真实的人类直接控制浏览器来完成复杂的网页操作。

首先呢，我们需要安装浏览器驱动，谷歌浏览器在这儿：https://chromedriver.storage.googleapis.com/index.html 火狐浏览器在这儿：https://github.com/mozilla/geckodriver/releases，记得与你的浏览器版本号相匹配，并添加环境变量。

Webdriver

现在，我们就可以用selenium启动浏览器啦，以谷歌浏览器为例：

from selenium import webdriver
browser = webdriver.Chrome()
type(browser) 
# <class 'selenium.webdriver.chrome.webdriver.WebDriver'>

此时，运行程序，会自动打开一个浏览器测试窗口，此外selenium提供其他的浏览器接口：

browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.Safari()
~~browser = webdriver.PhantomJS()~~(已弃用)

在页面中寻找元素

selenium提供成**find_element_**和 **find_elements_**方法，可以让我们快速的在页面中寻找我们需要的元素，

find_element(By.XX, “YY”)	find_elements(By.XX, ‘YY’)
find_element_by_id	find_elements_by_id
find_element_by_name	find_elements_by_name
find_element_by_xpath	find_elements_by_xpath
find_element_by_link_text	find_elements_by_link_text
find_element_by_partial_link_text	find_elements_by_partial_link_text
find_element_by_tag_name	find_elements_by_tag_name(不区分大小写)
find_element_by_class_name	find_elements_by_class_name
find_element_by_css_selector	find_elements_by_css_selector

1
2
3

input= browser.find_element_by_css_selector('#q')
input = browser.find_element_by_xpath('//*[@id="q"]')
input = browser.find_element_by_id('q')

如果页面上没有元素匹配该方法要查找的元素，selenium 模块就会抛出 NoSuchElement异常。如果你不希望这个异常让程序崩溃，就在代码中添加 try 和 except 语句。

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
    input = browser.find_element_by_id('kw')
except: 
    print('Was not able to find an element with that id.') 
finally:
    browser.close()

一旦有了 WebElement 对象，我们就可以做很多事情了，

属性或方法	描述
tag_name	标签名，例如’a’表示元素
get_attribute(name)	该元素 name 属性的值
text	该元素内的文本，例如hello中的’hello’
clear()	对于文本字段或文本区域元素，清除其中输入的文本
is_displayed()	如果该元素可见，返回 True，否则返回 False
is_enabled()	对于输入元素，如果该元素启用，返回 True，否则返回 False
is_selected()	对于复选框或单选框元素，如果该元素被选中，选择 True，否则返回 False
location	一个字典，包含键’x’和’y’，表示该元素在页面上的位置

我们还可以通过click()方法以及键盘事件，模拟鼠标键盘与web页面的交互行为,还可调用 send_keys()方法对的或元素发送文本。 我们模拟一下，自动登录到阿里巴巴网站，填写表单： <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 </pre></td><td class="code"><pre>browser.get('https://passport.alibaba.com/icbu_login.htm') emailElem = browser.find_element_by_id('fm-login-id') emailElem.send_keys('your@emailaddress') passwordElem = browser.find_element_by_id('fm-login-password') passwordElem.send_keys('yourpassword') passwordElem.submit() </pre></td></tr></table></figure> 这里列出了常用的 Keys 变量，需从<code>selenium.webdriver.common.keys</code>d导入， <table> <thead> <tr> <th>属性</th> <th>含义</th> </tr> </thead> <tbody> <tr> <td>Keys.DOWN, Keys.UP, Keys.LEFT,Keys.RIGHT</td> <td>键盘箭头键</td> </tr> <tr> <td>Keys.ENTER, Keys.RETURN</td> <td>回车和换行键</td> </tr> <tr> <td>Keys.HOME, Keys.END,Keys.PAGE_DOWN,Keys.PAGE_UP</td> <td>Home 键、End 键、PageUp 键和 Page Down 键</td> </tr> <tr> <td>Keys.ESCAPE, Keys.BACK_SPACE,Keys.DELETE</td> <td>Esc、Backspace 和字母键</td> </tr> <tr> <td>Keys.F1, Keys.F2, . . . , Keys.F12</td> <td>键盘顶部的F1到F12键</td> </tr> <tr> <td>Keys.TAB</td> <td>Tab 键</td> </tr> </tbody> </table> 然后我们可以模拟，使浏览器滚动到页面的顶部或底部，以淘宝为例： <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 </pre></td><td class="code"><pre>from selenium import webdriver from selenium.webdriver.common.keys import Keys browser = webdriver.Firefox() browser.get('https://taobao.com') htmlElem = browser.find_element_by_tag_name('html') htmlElem.send_keys(Keys.END) # scrolls to bottom htmlElem.send_keys(Keys.HOME) # scrolls to top </pre></td></tr></table></figure> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 </pre></td><td class="code"><pre> from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait browser = webdriver.Chrome() try: browser.get('https://www.baidu.com') input = browser.find_element_by_id('kw') input.send_keys('Python') input.send_keys(Keys.ENTER) wait = WebDriverWait(browser, 10) wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) print(browser.current_url) # print(browser.page_source) finally: browser.close() </pre></td></tr></table></figure> <pre><code><selenium.webdriver.remote.webelement.WebElement (session="79a05cb08e038e55bb67cccde1a721d3", element="0.01975843313654524-2")> https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=Python&rsv_pq=c70562c000041f36&rsv_t=a076ZhTKlVhfEEZFBKnGxzdC3PrCjQyUZvslmdIJf7Lfi77BXx4uTsdjolI&rqlang=cn&rsv_enter=1&rsv_sug3=6&rsv_sug2=0&inputT=476&rsv_sug4=477 </code></pre> <h2 id="find-nodes"><a class="markdownIt-Anchor" href="#find-nodes"></a> Find Nodes</h2> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 </pre></td><td class="code"><pre>from selenium import webdriver import time from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC browser = webdriver.Chrome() browser.get('https://www.taobao.com') # browser.implicitly_wait(10) wait = WebDriverWait(browser, 10) input = wait.until(EC.presence_of_element_located((By.ID, 'q'))) button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search'))) print(input, button) input.send_keys('iPhone') time.sleep(1) input.clear() input.send_keys('iPad') button = browser.find_element_by_class_name('btn-search') button.click() browser.close() </pre></td></tr></table></figure> <pre><code><selenium.webdriver.remote.webelement.WebElement (session="83231186bd470037ae4c1216f6f09b9f", element="0.8243104404533572-1")> <selenium.webdriver.remote.webelement.WebElement (session="83231186bd470037ae4c1216f6f09b9f", element="0.8243104404533572-2")> </code></pre> <h2 id="action-chains"><a class="markdownIt-Anchor" href="#action-chains"></a> Action chains</h2> ActionChains 类提供了鼠标操作的常用方法： <ol> <li>perform()：执行所有 ActionChains 中存储的行为。</li> <li>context_click()：右击。</li> <li>double_click()：双击。</li> <li>drag_and_drop()：拖动。</li> <li>move_to_element()：鼠标悬停。</li> </ol> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 </pre></td><td class="code"><pre>from selenium import webdriver from selenium.webdriver import ActionChains browser = webdriver.Chrome() url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable' browser.get(url) browser.switch_to.frame('iframeResult') source = browser.find_element_by_css_selector('#draggable') target = browser.find_element_by_css_selector('#droppable') actions = ActionChains(browser) actions.drag_and_drop(source, target) actions.perform() browser.close() </pre></td></tr></table></figure> <pre><code><selenium.webdriver.common.action_chains.ActionChains at 0x5a78df0> </code></pre> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 </pre></td><td class="code"><pre>from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.zhihu.com/explore') browser.execute_script('window.scrollTo(0, document.body.scrollHeight)') browser.execute_script('alert("To Bottom")') </pre></td></tr></table></figure> <h2 id="iframe"><a class="markdownIt-Anchor" href="#iframe"></a> iFrame</h2> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 </pre></td><td class="code"><pre>import time from selenium import webdriver from selenium.common.exceptions import NoSuchElementException browser = webdriver.Chrome() url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable' browser.get(url) browser.switch_to.frame('iframeResult') try: logo = browser.find_element_by_class_name('logo') except NoSuchElementException: print('NO LOGO') browser.switch_to.parent_frame() logo = browser.find_element_by_class_name('logo') print(logo) print(logo.text) </pre></td></tr></table></figure> <pre><code>NO LOGO <selenium.webdriver.remote.webelement.WebElement (session="012ebef8608abbba12f8298de6cebb25", element="0.9532684819811263-2")> RUNOOB.COM </code></pre> <h2 id="tabs"><a class="markdownIt-Anchor" href="#tabs"></a> Tabs</h2> 利用以下的方法，selenium 也可以模拟点击各种浏览器按钮： <table> <thead> <tr> <th>方法</th> <th>~</th> </tr> </thead> <tbody> <tr> <td>browser.back()</td> <td>点击“返回”按钮。</td> </tr> <tr> <td>browser.forward()</td> <td>点击“前进”按钮。</td> </tr> <tr> <td>browser.refresh()</td> <td>点击“刷新”按钮。</td> </tr> <tr> <td>browser.quit()</td> <td>点击“关闭窗口”按钮。</td> </tr> </tbody> </table> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 </pre></td><td class="code"><pre>from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.jianshu.com/') # browser.execute_script('document.documentElement.scrollTop=8000') # browser.execute_script('alert("To Bottom")') i=100 for i in range(2,90): #也可以设置一个较大的数，一下到底 js = "var q=document.documentElement.scrollTop={}".format(i*500) #javascript语句 browser.execute_script(js) try: browser.find_element_by_link_text('阅读更多').click() except: continue time.sleep(3) </pre></td></tr></table></figure> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 </pre></td><td class="code"><pre>import time from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.baidu.com/') browser.get('https://www.taobao.com/') browser.get('https://www.python.org/') browser.back() time.sleep(1) browser.forward() browser.close() </pre></td></tr></table></figure> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 </pre></td><td class="code"><pre>import time from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.baidu.com') browser.execute_script('window.open()') print(browser.window_handles) browser.switch_to_window(browser.window_handles[1]) browser.get('https://www.taobao.com') time.sleep(1) browser.switch_to_window(browser.window_handles[0]) browser.get('https://python.org') browser.close() </pre></td></tr></table></figure> <pre><code>['CDwindow-1AAC3D9C5F28FBD541D8295A9819C9AE', 'CDwindow-5F635540847830EFF044936342578F88'] </code></pre> <h2 id="cookies"><a class="markdownIt-Anchor" href="#cookies"></a> Cookies</h2> 修改浏览器的 cookie <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 </pre></td><td class="code"><pre>from selenium import webdriver option = webdriver.ChromeOptions() options.headless=True ## 无头浏览器 browser = webdriver.Chrome(options=option) browser.get('https://www.zhihu.com/explore') print(browser.get_cookies()) browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) print(browser.get_cookies()) browser.delete_all_cookies() print(browser.get_cookies()) browser.close() </pre></td></tr></table></figure> <pre><code>[{'domain': '.zhihu.com', 'httpOnly': False, 'name': 'l_n_c', 'path': '/', 'secure': False, 'value': '1'}, --snip--] [] </code></pre> 我们还可以把cookie保存到一个文件，以便下次方便调用。 <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 </pre></td><td class="code"><pre>import os import pickle import time from selenium import webdriver import random ## 屏蔽浏览器通知 options = webdriver.ChromeOptions() prefs = { 'profile.default_content_setting_values' : { 'notifications' : 2 } } options.add_experimental_option('prefs',prefs) browser = webdriver.Chrome(options = options) # wait = WebDriverWait(brower, 10) ## 登录阿里巴巴 browser.get('https://passport.alibaba.com/icbu_login.htm') ali_cookies = browser.get_cookies() cookies_nologin = {} for item in ali_cookies: cookies_nologin[item['name']] = item['value'] print(cookies_nologin) print("\n") emailElem = browser.find_element_by_id('fm-login-id') emailElem.send_keys('username') passwordElem = browser.find_element_by_id('fm-login-password') passwordElem.send_keys('password') passwordElem.submit() browser.implicitly_wait(10) ali_cookies = browser.get_cookies() cookies = {} for item in ali_cookies: cookies[item['name']] = item['value'] outputPath = open('cookie.pickle','wb') pickle.dump(cookies,outputPath) print(browser.get_cookies()) print(cookies) print("\n") time.sleep(30) browser.quit() </pre></td></tr></table></figure> <h2 id="爬取淘宝链接"><a class="markdownIt-Anchor" href="#爬取淘宝链接"></a> 爬取淘宝链接</h2> <figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 </pre></td><td class="code"><pre>from selenium import webdriver from selenium.common.exceptions import TimeoutException import time browser = webdriver.Chrome() browser.get('https://www.taobao.com') try: items = browser.find_elements_by_css_selector('.service-bd li a') for item in enumerate(items): print("## [",item[1].text,"]","(",item[1].get_attribute('href'),")",sep="") print("---") pat = ".service-bd li[data-groupid='{0}'] i".format(101 + int(item[0]/3)) # print(pat) browser.find_element_by_css_selector(pat).click() time.sleep(2) pat = "//div[@data-index='{0}']//div[@class='service-panel'][{1}]//p//a".format(int(item[0]/3),int(item[0]%3+1)) # print(pat) things = browser.find_elements_by_xpath(pat) for thing in enumerate(things): print("[",thing[1].text,"]","(",thing[1].get_attribute('href'),")",sep="",end=" "*(16 - len(thing[1].text))) if (thing[0] + 1) % 8==0: print() print("\n") except TimeoutException: print('Time Out') except AttributeError: print("Check AttributeError") finally: browser.close() </pre></td></tr></table></figure> <h2 id="references"><a class="markdownIt-Anchor" href="#references"></a> REFERENCES</h2> <ol> <li><a href="http://selenium-python.readthedocs.io/">http://selenium-python.readthedocs.io/</a></li> <li><a href="https://cuiqingcai.com/5630.html">https://cuiqingcai.com/5630.html</a></li> <li><a href="http://inventwithpython.com/">http://inventwithpython.com/</a></li> <li><a href="https://automatetheboringstuff.com/">https://automatetheboringstuff.com/</a> - Python编程快速上手让繁琐工作自动化</li> </ol>