Python爬蟲爬取NBA資料

阿新 • • 發佈：2019-01-23

爬取的網站為：stat-nba.com，本文爬取的是NBA2016-2017賽季常規賽至2017年1月7日的資料

改變url_header和url_tail即可爬取特定的其他資料。

原始碼如下：

#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import requests
import time
import urllib
from bs4 import BeautifulSoup
import re
from pyExcelerator import *

def getURLLists(url_header,url_tail,pages):
    """
    獲取所有頁面的URL列表
    """
    url_lists = []
    url_0 = url_header+'0'+url_tail
    print url_0
    url_lists.append(url_0)
    for i in range(1,pages+1):
        url_temp = url_header+str(i)+url_tail
        url_lists.append(url_temp)
    return url_lists

def getNBAAllData(url_lists):
    """
    獲取所有2017賽季NBA常規賽資料
    """
    datasets = ['']
    for item in url_lists:
        data1 = getNBASingleData(item)
        datasets.extend(data1)
    #去掉資料裡的空元素
    for item in datasets[:]:
        if len(item) == 0:
            datasets.remove(item)
    return datasets
def getNBASingleData(url):
    """
    獲取1個頁面NBA常規賽資料
    """
    # url = 'http://stat-nba.com/query_team.php?QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'
    # html = requests.get(url).text
    html = urllib.urlopen(url).read()
    # print html
    soup = BeautifulSoup(html)
    data = soup.html.body.find('tbody').text
    list_data = data.split('\n')
    # with open('nba_data.txt','a') as fp:
    #     fp.write(data)
    # for item in list_data[:]:
    #     if len(item) == 0:
    #         list_data.remove(item)
    return list_data

def saveDataToExcel(datasets,sheetname,filename):

    book = Workbook()
    sheet = book.add_sheet(sheetname)
    sheet.write(0,0,u'序號')
    sheet.write(0,1,u'球隊')
    sheet.write(0,2,u'時間')
    sheet.write(0,3,u'結果')
    sheet.write(0,4,u'主客')
    sheet.write(0,5,u'比賽')
    sheet.write(0,6,u'投籃命中率')
    sheet.write(0,7,u'命中數')
    sheet.write(0,8,u'出手數')
    sheet.write(0,9,u'三分命中率')
    sheet.write(0,10,u'三分命中數')
    sheet.write(0,11,u'三分出手數')
    sheet.write(0,12,u'罰球命中率')
    sheet.write(0,13,u'罰球命中數')
    sheet.write(0,14,u'罰球出手數')
    sheet.write(0,15,u'籃板')
    sheet.write(0,16,u'前場籃板')
    sheet.write(0,17,u'後場籃板')
    sheet.write(0,18,u'助攻')
    sheet.write(0,19,u'搶斷')
    sheet.write(0,20,u'蓋帽')
    sheet.write(0,21,u'失誤')
    sheet.write(0,22,u'犯規')
    sheet.write(0,23,u'得分')

    num = 24
    row_cnt = 0
    data_cnt = 0
    data_len = len(datasets)
    print 'data_len:',data_len
    while(data_cnt< data_len):
        row_cnt += 1
        print '序號:',row_cnt
        for col in range(num):
                # print col
                sheet.write(row_cnt,col,datasets[data_cnt])
                data_cnt += 1
    book.save(filename)

def writeDataToTxt(datasets):
    fp = open('nba_data.txt','w')
    line_cnt = 1
    for i in range(len(datasets)-1):
        #球隊名稱對齊的操作：如果球隊名字過短或者為76人隊是 球隊名字後面加兩個table 否則加1個table
        if line_cnt % 24 == 2 and len(datasets[i]) < 5 or datasets[i] == u'費城76人':
            fp.write(datasets[i]+'\t\t')
        else:
            fp.write(datasets[i]+'\t')
        line_cnt += 1
        if line_cnt % 24 == 1:
            fp.write('\n')
    fp.close()

if __name__ == "__main__":

    pages = int(1132/150)
    url_header = 'http://stat-nba.com/query_team.php?page='
    url_tail = '&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'
    url_lists = getURLLists(url_header,url_tail,pages)
    datasets = getNBAAllData(url_lists)

    writeDataToTxt(datasets)

    sheetname = 'nba normal data 2016-2017'
    str_time = time.strftime('%Y-%m-%d',time.localtime(time.time()))
    filename = 'nba_normal_data'+str_time+'.xls'
    saveDataToExcel(datasets,sheetname,filename)

Python爬蟲爬取NBA資料

爬取的網站為：stat-nba.com，本文爬取的是NBA2016-2017賽季常規賽至2017年1月7日的資料改變url_header和url_tail即可爬取特定的其他資料。原始碼如下： #coding=utf-8 import sys reload(sys) sy

python爬蟲爬取NBA貼吧的所有精品貼

首先用直接的方法寫，先嚐試下能否爬取成功 #coding:utf-8 import urllib2,urllib import re ''' 1.準備url地址 2.準備請求頭 3.建立請求物件 4.發起請求獲取第一頁原始碼，接收響應 5.通過第一頁原始碼，找到總頁數和標題

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

python 爬蟲爬取網易嚴選全網商品價格評論資料

1.獲取商品目錄在Chrome瀏覽器開發者工具中，可以找到目錄的JS地址： http://you.163.com/xhr/globalinfo//queryTop.json 得到商品資料 def get_categoryList():

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = ‘https://www.ncbi.nlm.nih.gov/gene

Python爬蟲爬取資料存入MongoDB

from bs4 import BeautifulSoup import requests import time import pymongo client = pymongo.MongoClient('Localhost', 27017) ceshi = client[

python爬蟲-爬取愛情公寓電影（2018）豆瓣短評並資料分析

說起這部電影，我本人並沒有看，其實原先是想為了情懷看一下，但是好友用親身經歷告訴我看來會後悔的，又去看了看豆瓣評分，史無前例的，，，低。出於興趣就爬取一下這部電影在豆瓣上的短評，並且用詞雲分析一下。 1.分析url 經過分析不難發現每一頁短評的url都是一致的除

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

Python爬蟲--爬取歷史天氣資料

寫在前面：爬蟲是老鼠屎在進入實驗室後接觸的第一個任務，當時剛剛接觸程式碼的老鼠屎一下子迎來了地獄難度的爬微博簽到資料。爬了一個多月毫無成果，所幸帶我的師兄從未給我疾言厲色，他給與了我最大的包容與理解。儘管無功而返，但是那一個月也給了老鼠屎充足的學習時間，讓老鼠屎對爬蟲

（8）Python爬蟲——爬取豆瓣影評資料

利用python爬取豆瓣最受歡迎的影評50條的相關資訊，包括標題,作者,影片名,影片詳情連結,推薦級,迴應數,影評連結,影評,有用數這9項內容，然後將爬取的資訊寫入Excel表中。具體程式碼如下： #!/usr/bin/python # -*- codin

python爬蟲爬取淘寶網頁資料

O、requests 和 re 庫的介紹 requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲安裝requests可以使用pip命令：在命令列輸入 pip install requests re庫是正則表示式庫，是p

python爬蟲爬取美團西安美食資料

經歷了一週的種種波折，參考了CSDN上N多博主的部落格，終於搞定了美團西安美食資料，在此做簡單記錄：愚蠢如我，不知如何讓爬蟲程式翻下一頁，只好看了前後兩頁請求的網址有什麼不同，後來發現第一頁字尾是‘pn1’,第二頁是‘pn2’,以此類推……所以手動查看了一共有15頁之後，萌生

python爬蟲爬取貓眼電影資料

# 定義一個函式獲取貓眼電影的資料 import requests def main(): url = url = 'http://maoyan.com/board/4?offset=0' html = requests.get(url).text

使用python爬蟲爬取百度手機助手網站中app的資料

一、爬取程式流程圖爬蟲程式流程圖如下： Created with Raphaël 2.1.0開始分析地址結構獲得app類別頁的url爬取app詳情頁url爬取App詳情頁的資料將爬取資料儲存到json檔案結束二、具體步驟 1.分析

python網路爬蟲（10）分散式爬蟲爬取靜態資料

目的意義爬蟲應該能夠快速高效的完成資料爬取和分析任務。使用多個程序協同完成一個任務，提高了資料爬取的效率。以百度百科的一條為起點，抓取百度百科2000左右詞條資料。說明參閱模仿了：https://book.douban.com/subject/27061630/。作者說是簡單的分散式爬蟲（

Python爬蟲爬取NBA資料

相關推薦