免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

詳解python中urllib爬蟲模塊-創新互聯

小編這次要給大家分享的是詳解python中urllib爬蟲模塊,文章內容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。

創新互聯建站成立于2013年,我們提供高端網站建設公司重慶網站制作成都網站設計、網站定制、成都全網營銷推廣微信小程序、微信公眾號開發、seo優化排名服務,提供專業營銷思路、內容策劃、視覺設計、程序開發來完成項目落地,為成都假山制作企業提供源源不斷的流量和訂單咨詢。

前言

網絡爬蟲也稱為網絡蜘蛛、網絡機器人,抓取網絡的數據。其實就是用Python程序模仿人點擊瀏覽器并訪問網站,而且模仿的越逼真越好。一般爬取數據的目的主要是用來做數據分析,或者公司項目做數據測試,公司業務所需數據。

而數據來源可以來自于公司內部數據,第三方平臺購買的數據,還可以通過網絡爬蟲爬取數據。python在網絡爬蟲方向上有著成熟的請求、解析模塊,以及強大的Scrapy網絡爬蟲框架。

爬蟲分類

1、通用網絡爬蟲:搜索引擎使用,遵守robots協議(君子協議)

robots協議 :網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

2、聚焦網絡爬蟲 :自己寫的爬蟲程序

爬蟲爬取數據步驟

  • 確定需要爬取的URL地址
  • 由請求模塊向URL地址發出請求,并得到網站的響應
  • 從響應內容中提取所需數據
    • 所需數據,保存
    • 頁面中有其他需要繼續跟進的URL地址,繼續第2步去發請求,如此循環

請求模塊

from urllib import request

request.urlopen()  向網站發起請求并獲取響應對象

參數:

URL:需要爬取的URL地址

timeout: 設置等待超時時間,指定時間內未得到響應拋出超時異常

響應對象(response)方法

  • string = response.read().decode('utf-8') 獲取響應對象內容(網頁源代碼),返回內容為字節串bytes類型,順便需要decode轉換成string。
  • url = response.geturl() 返回實際數據的URL地址
  • code = response.getcode() 返回HTTP響應碼
from urllib import request
url = 'http://www.baidu.com/'

# 向百度發請求,得到響應對象
response = request.urlopen(url)

# 返回網頁源代碼
print(response.read().decode('utf-8'))

# 返回http響應碼
print(response.getcode())    # 200
# 返回實際數據URL地址
print(response.geturl())    # http://www.baidu.com/

分享名稱:詳解python中urllib爬蟲模塊-創新互聯
瀏覽地址:http://newbst.com/article20/dgigco.html

成都網站建設公司_創新互聯,為您提供靜態網站網站導航企業建站電子商務品牌網站制作App設計

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

成都做網站