【爬蟲例項1】python3下使用beautifulsoup爬取資料並存儲txt檔案

阿新 • • 發佈：2018-12-16

1：執行環境：

python： 3.7.0
系統：Windows
IDE：pycharm 2017

2：需要安裝的庫：

requests 和 beautifulsoup

3：完整程式碼：

 # coding:utf-8
    import requests
    from bs4 import BeautifulSoup
    import  bs4
    
    
    def gethtml(url,headers):
        response =  requests.get(url,headers=headers)
        try:
            if response.status_code == 200:
                print('抓取成功網頁長度：',len(response.text))
                response.encoding = 'utf-8'
                return response.text
        except BaseException as e:
            print('抓取出現錯誤：',e)
    
    def getsoup(html):
        soup = BeautifulSoup(html,'lxml')
        for tr in soup.find('tbody').children:  #生成tr的tag列表
            if isinstance(tr,bs4.element.Tag):
                td = tr('td')          #迴圈獲取所有tr標籤下的td標籤，並生成tag列表
                t = [td[0].string, td[1].string,'    ',td[2].string,'   ',td[3].string]   #提取前四td字串
                list.append(t)
    
    def write_data(list):
       for i in list:   #迴圈提取list中的元素
        with open('daxue.txt','a') as  data:
                    print(i,file=data)          #寫入檔案
    
    
    if __name__ == '__main__':
        list = []
        url = 'http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2018.html'
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
        }
        html = gethtml(url,headers)
        getsoup(html)
        write_data(list)

4：執行結果:

在這裡插入圖片描述
注：這只是一個學習的demo,寫的不是很精美，還有很多優化的地方，先弄懂原理然後慢慢磨練吧。

【爬蟲例項1】python3下使用beautifulsoup爬取資料並存儲txt檔案

1：執行環境： python： 3.7.0 系統：Windows IDE：pycharm 2017 2：需要安裝的庫： requests 和 beautifulsoup 3：完整程式碼： # cod

【Python3 爬蟲學習筆記】動態渲染頁面爬取 2

動作鏈在互動操作中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

【爬蟲入門1】css選擇器

css選擇器 css選擇器：一種快速定位元素的方法基本用法<1> * 選擇所有元素 .class .intro 選擇所有class="intro"的元素 #id #firstname 選擇所有id = "firstname"的元素 elemen

【泡咖啡1】linux下caffe編譯以及python環境配置手記

caffe是一個深度學習的庫，相信搞深度學習的話，不是用這個庫就是用theano吧。要想使用caffe首先第一步就是要配置好caffe的環境。在這裡，我主要說的是在debian的linux環境下如何配置好caffe的庫。因為python編寫程式比較方便，在文章最後，我還會具體說明如何配置python環境。本

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

【爬蟲筆記1】改進——基於selenium和影象識別的百度指數爬蟲

最近在和小夥伴一同做一個有關投資者情緒分析的專案，除了實現一些文字挖掘的演算法外，其實這個專案絕大部分的任務量是在文字資料的獲取上，也就是網路爬蟲。以前雖學了些H5+CSS網路開發的技術，但網路爬蟲接觸很少，索性花了點時間把爬蟲技術從頭到尾學了一遍。這不到一個月來，利用閒餘時

【Python3.6爬蟲學習記錄】（十）爬取教務處成績並儲存到Excel檔案中（哈工大）

前言：基本上每天都會產生一點小想法，在實現的過程中，一步步解決問題，併產生新的想法，就比如，這次是儲存為Excel檔案。這感覺很美妙！目錄：一，安裝並簡單使用xlwt 1.1 安裝xlwt 1.2 寫入Excel程式碼 1

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

Requests獲取網頁資料運用Requests獲得網頁 import requests ##獲取單個網頁資料 def get_one_page(url): response = requests.get(url) r

【python】模擬使用者登入爬取資料帶cookie情況處理

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request, urllib.parse, urllib.error import http.cookiejar # 登入地址 LOGIN_URL =

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

[python爬蟲] Selenium爬取內容並存儲至MySQL資料庫

前面我通過一篇文章講述瞭如何爬取CSDN的部落格摘要等資訊。通常，在使用Selenium爬蟲爬取資料後，需要儲存在TXT文字中，但是這是很難進行資料處理和資料分析的。這篇文章主要講述通過Selenium爬取我的個人部落格資訊，然後儲存在資料庫MySQL中，以便

Python爬蟲-利用百度地圖API介面爬取資料並儲存至MySQL資料庫

首先，我這裡有一份相關城市以及該城市的公園數量的txt檔案：其次，利用百度地圖API提供的介面爬取城市公園的相關資訊。所利用的API介面有兩個： 1、http://api.map.baidu.com/place/v2/search?q=公園&

Python爬蟲系列：爬取小說並寫入txt檔案

Python爬蟲系列 ——爬取小說並寫入txt檔案文章介紹瞭如何從網站中爬取小說並寫入txt檔案中，實現了單章節寫取，整本寫取，多執行緒多本寫取。爬蟲使用的python版本為python3，有些系統使用python指令執行本指令碼，可能出現錯誤，

爬蟲入門講解（用urllib庫爬取資料）

首先介紹說明什麼是爬蟲？是一種按照一定的規則，自動地抓取網際網路資訊的程式或者指令碼。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。在 Python中有很多庫可以用來抓取網頁爬蟲分類通用爬蟲（General Purpose

爬蟲實戰：從鏈家網爬取資料

學習python已經很久了，從各個大牛的技術部落格中獲益良多。現在也想把自己的小小收穫公開一下，以方便大家學習python，讓python更加普及的應用。下面我準備寫一個爬蟲例項：從鏈家網爬取福田區二手房的資料。環境： win10專業版 python3.6（需

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

【python3 自動化之mysql操作】python3下的mysql入門基礎

1、所需資源：pycharm，python3.6，module：pymysql 2、pycharm配置mysql：新新增一個mysql資料庫 ip:192.168.112.54 埠：3306 賬號：root &nb

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

【2018.05.11】python3.6+selenium 下拉框select定位百度-設定-搜尋設定...儲存設定

常用方法二次定位直接定位其它方法 select_by_index() :通過索引定位 select_by_value() :通過value值定位 select_by_visible_text() :通過文字值定位 deselect

【爬蟲例項1】python3下使用beautifulsoup爬取資料並存儲txt檔案

1：執行環境：

2：需要安裝的庫：

3：完整程式碼：

4：執行結果:

相關推薦