爬蟲（進階），爬取網頁資訊並寫入json檔案

阿新 • • 發佈：2019-02-17

import requests  # python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫
import re
import json
from bs4 import BeautifulSoup
import copy
print('正在爬取網頁連結……')
List = []
for page in range(8):
    if page == 0:
        url = 'http://usagz.bailitop.com/public/'
    else:
        url = 'http://usagz.bailitop.com/public/' + str(page + 1) + '.html'
    print('-----------正在爬取第' + str(page + 1) + '頁------')
    html = requests.get(url)
    html.raise_for_status()
    html.encoding = 'utf-8'
    try:
        soup = BeautifulSoup(html.text, 'html.parser')
        soup = str(soup)
        # 正則表示式找到網頁連結
        href = re.compile('http://usagz\.bailitop\.com/public/\d*/\d*\.html')
        URLs = re.findall(href, soup)
        flag = 0
        # 過濾前面重複的3條
        for webUrl in URLs:
            flag = flag + 1
            if flag > 4:
                List.append(webUrl)
                # 每個頁面15條資料
    except Exception as e:
        print(e)

print(List)
# 建立字典
data = {'title': '', 'content': '', 'time': ''}
dataList = []

for webSite in List:
    print('\n')
    html = requests.get(webSite)
    html.raise_for_status()
    html.encoding = 'utf-8'
    try:
        soup = BeautifulSoup(html.text, 'html.parser')
        soup = str(soup)
        # 標題
        reg = re.compile('<div id="CLM_one">.*<h1>(.*)</h1>.*</div>', re.S)
        title = re.findall(reg, soup)
        title = title[0]
        if title.count('img'):
            # 去前面的標籤
            title = title.split('>', 1)
            title = title[1]
            # 去後面的標籤
            title = title.split('<', 1)
            title = title[0]

        # 日期
        reg = re.compile('\d{4}-\d\d-\d\d')
        date = re.findall(reg, soup)
        date = date[0]

        # 正文
        reg = re.compile('<div class="center_main">(.*)</div>.*<div class="text-c" id="pages"', re.S)
        content = re.findall(reg, soup)
        content = content[0]
        # 替換文字
        content = content.replace('百利天下', '智課')
        # 更新字典資訊
        data['title'] = title
        data['content'] = content
        data['time'] = date
        # 加入List
        dataList.append(data)
        # 更改字典地址
        data = copy.copy(data)
    except Exception as e:
        print(e)
# 轉換json，注意編碼
jsonList = json.dumps(dataList, ensure_ascii=False)
print(jsonList)
# 寫入檔案
with open("record.json", "w", encoding='utf-8') as f:
    f.write(jsonList)
    print("載入入檔案完成...")

import requests  # python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫
import re
import json
from bs4 import BeautifulSoup
import copy
import urllib.request
import urllib.parse

def downloadPostPage(url, dictdata, headers, charset='utf-8', reqnum=5):
    data = bytes(urllib.parse.urlencode(dictdata), encoding=charset)
    req = urllib.request.Request(url, data, headers=headers, method='POST')
    info = None
    try:
        response = urllib.request.urlopen(req)
        info = response.read().decode(charset)
    except Exception as e:
        # 伺服器錯誤
        print(e)
    return info

if __name__ == '__main__':
    dic = {
        'title': '標題',
        'abstract': '摘要',
        'studentInfo': {
            'study_exp': '最高教育經歷',
            'school_type': '院校型別',
            # 成績分類 託福 小託福 SSAT SLEP
            'grade': []
        },
        'offerInfo': {
            'school': 'value1',
            'degree': 'value2',
            'date': 'value2'
        },
        'paragraphs': [
            {'title': '標題1', 'content': 'content1'},
            {'title': '標題2', 'content': 'content2'},
            {'title': '標題3', 'content': 'content3'},
            {'title': '標題4', 'content': 'content4'},
            {'title': '標題5', 'content': 'content5'}
        ]
    }
    dicList = []
    urlList = []
    url = 'http://case.bailitop.com/cases/yuanxiaoajax.shtml'
    headers = {
        "Accept": "application/json, text/javascript, */*; q=0.01",
        "X-Requested-With": "XMLHttpRequest",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",
        "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    }
    for jzgd in range(1):
        dictdata = {
            'jzgd': 4, 'type': 2, 'mbcountry': '美國', 'mbdegree': '高中', 'univ': '', 'major': '', 'gpa': '',
            'toefl': '',
            'ielts': ''
        }
        # 請求url ， 請求引數dictdata ，   構造的頭headers  ， 請求次數reqnum
        info = downloadPostPage(url, dictdata, headers=headers, reqnum=1)
        jsonLoads = json.loads(info)[0]
        reg = re.compile('http://case\.bailitop\.com/yuanxiao/\d*\.shtml')
        urlList = urlList + re.findall(reg, jsonLoads)
    print(urlList)
    for webSite in urlList:
        print('\n')
        html = requests.get(webSite)
        html.raise_for_status()
        html.encoding = 'utf-8'
        try:
            data1 = {'type': '', 'value': ''}
            soup = BeautifulSoup(html.text, 'html.parser')

            # 正文
            soupContent = soup.find("div", class_="anli_wenzhang")

            title1 = str(soupContent.p)
            reg = re.compile('【(.*)】', re.S)
            title = re.findall(reg, title1)
            # print(title)
            flag = 1
            content1 = ''
            content2 = ''
            content3 = ''
            content4 = ''
            content5 = ''
            title2 = ''
            title3 = ''
            title4 = ''
            title5 = ''
            for sibling in soupContent.p.next_siblings:
                sibling = str(sibling)
                sibling = sibling.replace('\r', '')
                sibling = sibling.replace('\n', '')
                if sibling.count('【'):
                    flag = flag + 1
                    reg = re.compile('【(.*)】', re.S)
                    if flag == 2:
                        title2 = re.findall(reg, sibling)
                    elif flag == 3:
                        title3 = re.findall(reg, sibling)
                    elif flag == 4:
                        title4 = re.findall(reg, sibling)
                    elif flag == 5:
                        title5 = re.findall(reg, sibling)
                else:
                    if flag == 1:
                        if content1 == '':
                            content1 = content1 + sibling
                        else:
                            content1 = content1 + '\n' + sibling
                    elif flag == 2:
                        if content2 == '':
                            content2 = content2 + sibling
                        else:
                            content2 = content2 + '\n' + sibling
                    elif flag == 3:
                        if content3 == '':
                            content3 = content3 + sibling
                        else:
                            content3 = content3 + '\n' + sibling
                    elif flag == 4:
                        if content4 == '':
                            content4 = content4 + sibling
                        else:
                            content4 = content4 + '\n' + sibling
                    elif flag == 5:
                        if content5 == '':
                            content5 = content5 + sibling
                        else:
                            content5 = content5 + '\n' + sibling
            content1 = content1.replace('</p>', '')
            content1 = content1.replace('<p>', '')
            content2 = content2.replace('</p>', '')
            content2 = content2.replace('<p>', '')
            content3 = content3.replace('</p>', '')
            content3 = content3.replace('<p>', '')
            content4 = content4.replace('</p>', '')
            content4 = content4.replace('<p>', '')
            content5 = content5.replace('</p>', '')
            content5 = content5.replace('<p>', '')
            content3 = content3.replace('百利天下', '智課')
            content4 = content4.replace('百利天下', '智課')
            content5 = content5.replace('百利天下', '智課')
            content1 = content1.replace('\u3000', '')
            content2 = content2.replace('\u3000', '')
            content3 = content3.replace('\u3000', '')
            content4 = content4.replace('\u3000', '')
            content5 = content5.replace('\u3000', '')
            content5 = content5.replace('\n', '')
            content5 = content5.replace('<br/>', '')
            if content5.count('<p'):
                reg = re.compile('(.*?)<p', re.S)
                content5 = re.findall(reg, content5)
            dic['paragraphs'][0]['title'] = title[0]
            dic['paragraphs'][1]['title'] = title2[0]
            dic['paragraphs'][2]['title'] = title3[0]
            dic['paragraphs'][3]['title'] = title4[0]
            dic['paragraphs'][4]['title'] = title5[0]
            dic['paragraphs'][0]['content'] = content1
            dic['paragraphs'][1]['content'] = content2
            dic['paragraphs'][2]['content'] = content3
            dic['paragraphs'][3]['content'] = content4
            dic['paragraphs'][4]['content'] = content5

            soup = str(soup)

            # 摘要  有個\r\n 手動刪
            reg = re.compile('<p><strong>摘要</strong>：(.*)</p>.*<div.*class="zixun">', re.S)
            abstract = re.findall(reg, soup)[0]
            abstract = abstract.replace('百利天下', '智課')
            dic['abstract'] = abstract
            print(abstract)

            # title 個別<strong>未解決，手動刪
            reg = re.compile('<h2>(.*)</h2>', re.S)
            title = re.findall(reg, soup)[0]
            if title.count('<strong') == 1:
                reg = re.compile('<strong.*?>(.*)', re.S)
                title = re.findall(reg, title)[0]
                title = title.replace('</strong>', '')
            dic['title'] = title
            print(title)

            # offer詳情
            reg = re.compile(
                '<p>錄取院校：(.*)</p>\n<p></p>\n<p>授予學位：(.*)</p.*<p>入學時間：(.*?)</p>\n</div>\n<div class="g_btns">', re.S)
            offerInfo = re.findall(reg, soup)[0]
            dic['offerInfo']['school'] = offerInfo[0]
            dic['offerInfo']['degree'] = offerInfo[1]
            dic['offerInfo']['date'] = offerInfo[2]
            print(offerInfo)

            # 學生檔案
            reg = re.compile(
                '<p>最高教育經歷：(.*)</p>\n<p>院校型別：(.*)</p>\n<p></p>\n<p>語言成績：(.*?)</p>', re.S)
            studentInfo = re.findall(reg, soup)
            if len(studentInfo) == 0:
                # 只有 最高教育經歷 院校型別
                reg = re.compile(
                    '<p>最高教育經歷：(.*)</p>\n<p>院校型別：(.*?)</p>\n<p></p>', re.S)
                studentInfo = re.findall(reg, soup)
                if len(studentInfo) == 0:
                    # 只有 院校型別 語言成績
                    reg = re.compile(
                        '<p>院校型別：(.*?)</p>\n<p></p>\n<p>語言成績：(.*?)</p>', re.S)
                    studentInfo = re.findall(reg, soup)
                    studentInfo = studentInfo[0]
                    grade = studentInfo[1]
                    grade = grade.replace('&nbsp', ' ')
                    grade = grade.replace(';', '')
                    grade = grade.replace('  ', ' ')
                    dic['studentInfo']['study_exp'] = ''
                    dic['studentInfo']['school_type'] = studentInfo[0]
                    # dic['studentInfo']['grade'] = grade
                    print('院校型別：', studentInfo[0], '||語言成績：', grade)
                    reg = re.compile(r' ')
                    gradeList = re.split(reg, grade)
                    for n in range(int((len(gradeList) - 1) / 2)):
                        data1['type'] = gradeList[n * 2]
                        data1['value'] = gradeList[n * 2 + 1]
                        dic['studentInfo']['grade'].append(data1)
                        data1 = copy.deepcopy(data1)
                else:
                    studentInfo = studentInfo[0]
                    dic['studentInfo']['study_exp'] = studentInfo[0]
                    dic['studentInfo']['school_type'] = studentInfo[1]
                    # dic['studentInfo']['grade'] = ''
                    print('最高教育經歷：', studentInfo[0], '||院校型別：', studentInfo[1])
            else:
                studentInfo = studentInfo[0]
                grade = studentInfo[2]
                grade = grade.replace('&nbsp', ' ')
                grade = grade.replace(';', '')
                grade = grade.replace('  ', ' ')
                dic['studentInfo']['study_exp'] = studentInfo[0]
                dic['studentInfo']['school_type'] = studentInfo[1]
                # dic['studentInfo']['grade'] = grade
                print('最高教育經歷：', studentInfo[0], '||院校型別：', studentInfo[1], '||語言成績：', grade)
                reg = re.compile(r' ')
                gradeList = re.split(reg, grade)
                for n in range(int((len(gradeList) - 1) / 2)):
                    data1['type'] = gradeList[n * 2]
                    data1['value'] = gradeList[n * 2 + 1]
                    dic['studentInfo']['grade'].append(data1)
                    data1 = copy.copy(data1)

            dicList.append(dic)

            dic = copy.deepcopy(dic)
            dic['studentInfo']['grade'].clear()
        except Exception as e:
            print(e)

    jsonList = json.dumps(dicList, ensure_ascii=False)
    print(jsonList)
    # 寫入檔案
    with open("CaseRecord.json", "w", encoding='utf-8') as f:
        f.write(jsonList)
        print("載入入檔案完成...")

爬蟲（進階），爬取網頁資訊並寫入json檔案

import requests # python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re import json from bs4 import BeautifulSoup import copy print('正在爬取網頁連結……'

python3網絡爬蟲（2.1）：爬取堆糖美女

pre 線程 span 需要 pic ring clas lin chrome 額，明明記得昨晚存了草稿箱，一覺醒來沒了，那就簡寫點（其實是具體怎麽解釋我也不太懂/xk，純屬個人理解，有錯誤還望指正）環境：　　版本：python3 　　IDE：pycharm201

HtmlUnit、httpclient、jsoup爬取網頁資訊並解析

1.爬取頁面效果圖點選"百度一下"按鈕前頁面點選"百度一下"按鈕後頁面天涯社群登入頁面登入進去之後個人主頁二、具體實現程式碼 HtmlUnit(底層也

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

福利！NodeJs爬取網路教程並生成PDF檔案，以阮一峰JavaScript教程和ES6教程為例（附原始碼和PDF檔案）

前言你想一夜暴富嗎？你想一夜成名嗎？你想開蘭博基尼泡妞嗎？你想拿鈔票點菸嗎？你想成為世界主宰嗎？那麼，趕緊往下看吧，雖然它不能達成前面所說的任何一個夢想，但是，你將獲得：通過命令列將某網站的內容轉成PDF檔案通過NodeJS爬蟲將某網路教程（例如阮一峰的JavaScript教程和ES6教

小白學 Python 爬蟲（25）：爬取股票資訊

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

python之路——函數（進階）

fun false 技術對象 pri pre star rgs 美的函數名（第一對象） 1. 函數的內存地址，print（func） def func(): print(222) print(func) 2. 函數名可以賦值給其他變量 def func

用裝飾器做一個登陸功能（進階）：

read AD OS pos 商城 *args readline wrapper 改變 1 dic = { 2 ‘username‘:None, 3 ‘status‘:False 4 } 5 def login(flag): # 傳入

Web安全工程師（進階）課程表

編程語言多線程持久運維平臺 ash ssrf 中間件 beautiful 文件上傳 01-SQL註入漏洞原理與利用預備知識: 了解HTTP協議，了解常見的數據庫、腳本語言、中間件。具備基本的編程語言基礎。授課大綱: 第一章：SQL註入基礎 1.1 Web應用架構分

05 redis（進階）

認識 key code 永久服務頻繁 list san scores redis 階段一、認識redis 1、什麽是redis Redis是由意大利人Salvatore Sanfilippo（網名：antirez）開發的一款內存高速緩存數據庫。Redis全稱為：Remo

06 python操作MySQL和redis（進階）

python 數據交叉 acid execute 維護 incrby insert back python操作mysql、redis 階段一、mysql事務主要用於處理操作量大，復雜度高的數據。比如說，在人員管理系統中，你刪除一個人員，你即需要刪除人員的基本資料，也要刪

09 mongoDB基礎（進階）

成功 mov 集合 bsp 數據庫 hang pymongo 多條場景 mongoDB基礎階段一、認識mongodb 1、mongodb 組織數據的基本形式 MongoDB————》數據庫————》集合————》文檔 mysql：表：行和列：字段運用場景：如送外賣騎

11 非阻塞套接字與IO多路復用（進階）

img 一行回調 lba let 自己 elf accept error: 1、非阻塞套接字第一部分基本IO模型 1.普通套接字實現的服務端的缺陷一次只能服務一個客戶端！ 2.普通套接字實現的服務端的瓶頸！！！ accept阻塞！在沒有新的套接字來之前，不能處

Unity NavMesh尋路檢測的bug（或者特性），爬坡卡住問題。(角色高度和網格高度不一致造成）

Unity專案，由於人物移動時一般用搖桿或者方向鍵控制，需要有八方向方式控制朝向，所以沒有用 NavMesh Agent，而是自己控制人物方向移動，然後貼合地面。用了NavMesh.CalculatePath只是用於目標點的尋路，尋找出路經後自己計算實現移動。

30 裝飾器終極版本（進階）

import timeFLAGE = Falsedef timmer_out(flag): def timmer(func): def inner(*args,**kwargs): if flag: start = time.time()

Udacity資料分析（進階）- 統計學：檢驗心理學現象

統計學：檢驗心理學現象背景資訊在一個Stroop （斯特魯普）任務中，參與者得到了一列文字，每個文字都用一種油墨顏色展示。參與者的任務是將文字的列印顏色大聲說出來。這項任務有兩個條件：一致文字條件，和不一致文字條件。在一致文字條件中，顯示的文字是與它們的列印顏色匹配的顏色詞，如“

RabbitMq開發嚮導之生產者（進階）

mandatory引數 //交換器與佇列通過路由鍵繫結 channel.queueBind(QUEUE_NAME, EXCHANGE_NAME, ROUTING_KEY); /** * 傳送訊息

（進階）C_C++高質量程式設計指南（林銳第二版）

2018年11月15日 19:26:11 qq_32468785 閱讀數：2 標籤： C++

python使用訊息佇列RabbitMq（進階）

import pika connection = pika.BlockingConnection(pika.ConnectionParameters( 'localhost')) channel = connection.channel() #宣

爬蟲（進階），爬取網頁資訊並寫入json檔案

相關推薦