小編這次要給大家分享的是詳解python中urllib爬蟲模塊,文章內容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。
前言
網絡爬蟲也稱為網絡蜘蛛、網絡機器人,抓取網絡的數據。其實就是用Python程序模仿人點擊瀏覽器并訪問網站,而且模仿的越逼真越好。一般爬取數據的目的主要是用來做數據分析,或者公司項目做數據測試,公司業務所需數據。
而數據來源可以來自于公司內部數據,第三方平臺購買的數據,還可以通過網絡爬蟲爬取數據。python在網絡爬蟲方向上有著成熟的請求、解析模塊,以及強大的Scrapy網絡爬蟲框架。
爬蟲分類
1、通用網絡爬蟲:搜索引擎使用,遵守robots協議(君子協議)
robots協議 :網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
2、聚焦網絡爬蟲 :自己寫的爬蟲程序
爬蟲爬取數據步驟
請求模塊
from urllib import request
request.urlopen() 向網站發起請求并獲取響應對象
參數:
URL:需要爬取的URL地址
timeout: 設置等待超時時間,指定時間內未得到響應拋出超時異常
響應對象(response)方法
from urllib import request url = 'http://www.baidu.com/' # 向百度發請求,得到響應對象 response = request.urlopen(url) # 返回網頁源代碼 print(response.read().decode('utf-8')) # 返回http響應碼 print(response.getcode()) # 200 # 返回實際數據URL地址 print(response.geturl()) # http://www.baidu.com/
分享名稱:詳解python中urllib爬蟲模塊-創新互聯
瀏覽地址:http://newbst.com/article20/dgigco.html
成都網站建設公司_創新互聯,為您提供靜態網站、網站導航、企業建站、電子商務、品牌網站制作、App設計
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯