python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

阿新 • • 發佈：2018-12-30

技術路線：requests庫+bs4庫+re庫的整合使用

目標：獲得上交所和深交所所有股票的名稱和交易資訊

輸出：儲存至本地檔案

可選資料網路有：新浪股票和百度股票，，通過檢視網頁原始碼可知，新浪股票的資料是通過javascript指令碼獲取的，故通過以上方式無法解析

呃呃呃，可以說requests庫+bs4庫+re庫可以爬的網站應該是---資訊靜態存在於HTML頁面中，非js程式碼生成，沒有Robots協議限制

所以最終確定了資料來源為：東方財富網+百度股票

東方財富網：

百度股票：

程式結構設計：

1.從東方財富網中獲取股票列表

2.根據股票列表逐個到百度股票獲取個股資訊

3.將結果存至檔案

封裝函式，編寫程式碼

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url,code='utf-8'):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""

def getStockList(lst,stockURL):
    html = getHTMLText(stockURL,'GB2312')
    soup = BeautifulSoup(html,'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}",href)[0])
        except:
            continue

def getStockInfo(lst,stockURL,fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html == "":
                continue
            infoDict = { }
            soup = BeautifulSoup(html,'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})

            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱':name.text.split()[0]})

            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            with open(fpath,'a',encoding = 'utf-8') as f:
                f.write(str(infoDict) + '\n')

        except:
            traceback.print_exc()
            continue


    return ""

def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'C://Users//kfc//Desktop//BaiduStockInfo.txt'
    slist = []
    getStockList(slist,stock_list_url)
    getStockInfo(slist,stock_info_url,output_file)

main()

python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

技術路線：requests庫+bs4庫+re庫的整合使用目標：獲得上交所和深交所所有股票的名稱和交易資訊輸出：儲存至本地檔案可選資料網路有：新浪股票和百度股票，，通過檢視網頁原始碼可知，新浪股票的資料是通過javascript指令碼獲取的，故通過以上方式無法解析呃呃

Python爬蟲入門——2. 5 爬取鬥破蒼穹並儲存到本地TXT

話不多說，上程式碼： #匯入requests庫 import requests #匯入 re 庫 #匯入時間模組 import time import re #定義請求頭，請求頭可以使爬蟲偽裝成瀏覽器 headers = {'User-Agent': '

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

python爬蟲十五：爬取12306火車票資訊

轉：https://zhuanlan.zhihu.com/p/26701898 # -*- coding: utf-8 -*- ''' 獲取12306城市名和城市程式碼的資料檔名： parse_station.py ''' import requests import

爬蟲03 爬取堆糖圖片並儲存到本地

# -*- coding: utf-8 -*- import urllib import urllib2 import re i=0 page = 1 url = 'http://www.duitan

[筆記]python網路爬蟲：一個簡單的定向爬取大學排名資訊示例

爬取的網站資訊 <div class="section"><a id="zhb" name="zhb"></a> <div class="title t2"><h1><img

python爬蟲由淺入深1-從網頁中爬取檔案並儲存至本地

學過python語法的基礎，由此將由淺入深地進行以此python爬蟲的相關知識點的梳理從網頁中爬取檔案並儲存至本地 import requests import os url = "http://image.nationalgeographic.com.cn/2017

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！ 2.urllib.parse模組 This module define

python爬蟲——40行程式碼爬取「筆趣看」全部小說你都看了嗎？

需求分析 ”筆趣看“ 是一個盜版小說網站，這裡有各大知名小說網站的小說，更新速度略慢於正版網站。但是該網站只支援線上瀏覽，不支援小說下載，對於想要下載下來以防斷網或者網速不好時也能看的童鞋來說不太友好。因此，本次練習將爬取該網站所有小說。PS：本次練習僅為學習交流，請各位童鞋支援正版。爬取

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

爬蟲練習--爬取股票資料

爬取股票資料步驟從東方財富網找到上市公司的股票程式碼並儲存根據股票程式碼去百度股市通去查詢相關股票的具體資訊並儲存程式碼 #-*- coding:utf-8 -*- import requests from bs4 import Beauti

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

相關推薦