<wbr id="wsjqy"></wbr>

          <form id="wsjqy"></form>
          <sub id="wsjqy"></sub>
          <nav id="wsjqy"><listing id="wsjqy"></listing></nav>
          更多課程 選擇中心


          Python培訓

          400-111-8989

          爬取豆瓣讀書頁面,Python用16行代碼就搞定了!

          • 發布:Java程序媛
          • 來源:51Testing軟件測試網
          • 時間:2019-03-26 16:28

          我們一直說Python比較簡單,代碼體量沒有別的程序那么大,對于初學者,尤其是零編程基礎的初學者來說,感觸沒有那么明顯,那么今天就讓你見識一下:爬取豆瓣讀書頁面,Python用16行代碼就搞定了!

          爬取豆瓣讀書頁面,Python用16行代碼就搞定了!

          python+selenium這個很神奇的組合,或許你還不知道selenium是什么,不過沒關系,我先給你百度一下:

          Selenium (瀏覽器自動化測試框架):

          Selenium 是一個用于Web應用程序測試的工具。

          Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。

          支持的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。這個工具的主要功能包括:測試與瀏覽器的兼容性——測試你的應用程序看是否能夠很好得工作在不同瀏覽器和操作系統之上。測試系統功能——創建回歸測試檢驗軟件功能和用戶需求。支持自動錄制動作和自動生成 .Net、Java、Perl等不同語言的測試腳本。

          原諒我是一個沒怎么見過世面的程序員,當我看到代碼運行之后電腦自動打開瀏覽器那一刻覺得簡直不要太酷!所以我必須要寫一篇文來和大家一起分享一些喜悅的心情。

          首先我們先確定好要爬取的目標網頁:

          豆瓣讀書下一個標簽為小說的頁面:

          https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4:

          敲黑板!干貨來了同志們!下面我將帶領著大家用16行代碼實現我們的這個爬蟲。僅僅需要16行代碼,看了不吃虧,看了不上當!

          先來解析一下我們想要爬取的目標網頁的結構:

          先找到包含所有圖書內容的標簽——一個類名為content的div盒子.

          再找包含每一本書內容的標簽——li.

          雖然我們發現了每一本書的內容都包含在li標簽下,但是還沒有找到包含具體文本信息的標簽,所以還要繼續找。

          找到了,就是它:可愛的類名為“info”的div盒子!

          分析好網頁結構之后,現在我們就可以開始動手寫代碼啦。前方高能!

          源代碼如下:

          #coding:utf-8from selenium import webdriverclass DouBan:
          
          def __init__(self):
          
          self.dr = webdriver.Chrome() #指定selenium進行自動化操作時選用谷歌瀏覽器
          
          self.dr.get('https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4/') #要打開的網頁
          
          def print_content(self):
          
          total_book = self.dr.find_element_by_id('wrapper') #先定位到包含所有圖書的div盒子中
          
          books = total_book.find_elements_by_class_name('info') #找到已經定位到的div盒子里的每一個包含圖書介紹的子div
          
          i = 1
          
          for book in books: #通過for循環依次把每一本圖書的內容取出來
          
          print (str(i)+ book.text + '
          
          ') #將爬取到的內容打印
          
          i += 1
          
          def quit(self):
          
          self.dr.quit() #爬取數據完成后關閉瀏覽器
          
          DouBan().print_content()

          大家有沒有看到,代碼運行之后電腦自己打開了瀏覽器進入我們的目標頁面,然后爬取完我們想要的數據之后又自己關閉了瀏覽器,很神奇有沒有!超酷有沒有!

          怎么樣,是不是覺得超級簡單易懂?那還不趕緊pip install selenium 來自己試一試!

          預約申請免費試聽課

          填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

          上一篇:簡單直白——一文搞懂什么是Python閉包!
          下一篇:Python中只有用time模塊表示時間這一種方式嗎?

          如何運用Python編程處理大數據?用Python編程處理大數據的技巧是什么?

          Python面向對象編程的知識點都在這了!

          Python的高級特征及用法(部分)

          聽說這些Python知識,很少有人知道!

          • 掃碼領取資料

            回復關鍵字:視頻資料

            免費領取 達內課程視頻學習資料

          • 視頻學習QQ群

            添加QQ群:1143617948

            免費領取達內課程視頻學習資料

          Copyright ? 2021 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

          選擇城市和中心
          黑龍江省

          吉林省

          河北省

          湖南省

          貴州省

          云南省

          廣西省

          海南省

          网友自拍 偷拍 校园性爱青青草曰逼视屏老鸭窝国产偷自视频区视频 百度 好搜 搜狗
          <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>