Python基礎（六）--- Python爬蟲，Python整合Hbase，PythonWorldCount，Spark資料分析生成分析圖表

阿新 • • 發佈：2018-11-19

一、Python爬蟲
---------------------------------------------------
    1.測試

# -*- encoding=utf-8 -*-

        import urllib.request

        # 開啟url上的資源
        resp = urllib.request.urlopen("http://focus.tianya.cn/")
        # 讀取內容，返回byte陣列
        mybytes = resp.read()
        # 解碼bytes成為string
        mystr = mybytes.decode("utf-8")
        # 關閉資源
        resp.close()
        # 輸出
        print(mystr)

        # 匯入正則表示式模組
        import re

        ptn = u'<a\s*href="([\u0000-\uffff&&^"]*?)"'        #非貪婪模式
        res = re.finditer(ptn,mystr)
        for r in res:
            addr = r.group(1);
            print(addr)



    2.遞迴爬並儲存

# -*- encoding=utf-8 -*-

        import urllib.request
        import os;
        import re;

        def fileExists(url,localpath):
            path = url ;
            path = path.replace(":", "_");
            path = path.replace("/", "$");
            path = path.replace("?", "$");
            path = localpath + "/" + path;
            return os.path.exists(path) ;

        #下載網頁方法
        def download(url):
            #處理處理問題
            path = url ;
            path = path.replace(":","_");
            path = path.replace("/","$");
            path = path.replace("?","$");
            path = "d:/py/data/" + path;

            #判斷當前的網頁是否已經下載
            resp = urllib.request.urlopen(url)
            pageBytes = resp.read()
            resp.close

            if not os.path.exists(path):
                #儲存檔案到磁碟
                f = open(path,"wb");
                f.write(pageBytes) ;
                f.close();

            try:
                #解析網頁的內容
                pageStr = pageBytes.decode("utf-8");
                #解析href地址
                pattern = u'<a[\u0000-\uffff&&^[href]]*href="([\u0000-\uffff&&^"]*?)"'
                res = re.finditer(pattern, pageStr)
                for r in res:
                    addr = r.group(1);
                    print(addr)
                    if addr.startswith("//"):
                        addr = addr.replace("//","http://");

                    #判斷網頁中是否包含自己的地址
                    if (addr.startswith("http://") and not fileExists(addr,"d:/py/data")):
                        download(addr) ;

            except Exception as e:
                #print(url + " : 不是文字") ;
                #print(Exception)
                print(e)
                # print(pageBytes.decode("gbk", errors='ignore'));
                return ;

        download("http://www.jd.com");



二、Python協同hbase實現資料的寫入
--------------------------------------------------------------
    1.啟動hbase叢集
        a.啟動zk

        b.啟動hadoop叢集

        c.啟動hbase叢集
            如果時鐘不同步。
            $>su root
            $>xcall.sh "ntpdate asia.pool.ntp.org"

    2.s100上啟動hbase的thriftserver伺服器，滿足和第三方應用通訊
        $> hbase-daemon.sh start thrift2

    3.檢視webui
        http://s100:9095/           //webui埠
        $> netstat -anop | grep 9090   //9090 rpc埠

    4.下載windows下thrift的編譯器,不需要安裝，僅僅是個工具。
        thrift-0.10.0.exe

    5.下載並安裝thrift的python模組.
        5.1)下載檔案
            thrift-0.10.0.tar.gz

        5.2)tar開檔案

        5.3)進入目錄
            cmd>cd thrift-0.10.0\lib\py
            cmd>setup.py install

            ...
            Using c:\users\administrator\appdata\local\programs\python\python37\lib\site-packages\six-1.11.0-py3.7.egg
            Finished processing dependencies for thrift==0.10.0

    6.測試在py檔案中是否能夠匯入
        from thrift import Thrift
        from thrift.transport import TSocket
        from thrift.transport import TTransport
        from thrift.protocol import TBinaryProtocol

    7.找到hbase.thrift檔案進行編譯，產生python檔案，使用以下命令進行編譯
        [hbase.thrift檔案位於hbase安裝包下,找不到就去網上下載]
        cmd> thrift-0.10.0.exe -o ./out -gen py hbase.thrift

    8.將生成的資料夾拷貝到idea/python模組下
        a.在模組下新建一個pythonpackage, 叫mythrift
        b.將生成的py資料夾下的hbase資料夾拷貝到mythrift下

    9.使用python操作hbase的表

# -*- encoding=utf-8 -*-

        # 匯入原生模組
        import os

        # 匯入thrift的python模組
        from thrift import Thrift
        from thrift.transport import TSocket
        from thrift.transport import TTransport
        from thrift.protocol import TBinaryProtocol

        # 匯入自已編譯生成的hbase python模組
        from mythrift.hbase import THBaseService
        from mythrift.hbase.ttypes import *
        from mythrift.hbase.ttypes import TResult

        # 建立Socket連線，到s100:9090
        transport = TSocket.TSocket('s100', 9090)
        transport = TTransport.TBufferedTransport(transport)
        protocol = TBinaryProtocol.TBinaryProtocol(transport)
        client = THBaseService.Client(protocol)

        # 開啟傳輸埠
        transport.open()

        # # put操作
        # table = b'ns1:t1'
        # row = b'row2'
        # v1 = TColumnValue(b'f1', b'id', b'101')
        # v2 = TColumnValue(b'f1', b'name', b'tomas')
        # v3 = TColumnValue(b'f1', b'age', b'12')
        # vals = [v1, v2, v3]
        # put = TPut(row, vals)
        # client.put(table, put)
        # print("okkkk!!")
        # transport.close()

        # # get操作
        # table = b'ns1:t1'
        # rowkey=b"row2"
        # col_id = TColumn(b"f1",b"id")
        # col_name = TColumn(b"f1",b"name")
        # col_age = TColumn(b"f1",b"age")
        #
        # cols = [col_id,col_name,col_age]
        # get = TGet(rowkey,cols)
        # res = client.get(table,get)
        # print(res.columnValues)
        # print(bytes.decode(res.columnValues[0].qualifier))
        # print(bytes.decode(res.columnValues[0].family))
        # print(res.columnValues[0].timestamp)
        # print(bytes.decode(res.columnValues[0].value))

        # # delete操作
        # table = b'ns1:t1'
        # rowkey = b"row2"
        # col_id = TColumn(b"f1", b"id")
        # col_name = TColumn(b"f1", b"name")
        # col_age = TColumn(b"f1", b"age")
        # cols = [col_id, col_name, col_age]
        #
        # #構造刪除物件
        # delete = TDelete(rowkey,cols)
        # res = client.deleteSingle(table, delete)
        # transport.close()
        # print("ok")

        # scan 掃描操作
        table = b'call:calllogs'
        startRow = b'34,13520401111,20180114152647,0,13269364444,406'
        stopRow = b'90,15032295555,20180922165903,0,15778421111,298'
        dur = TColumn(b"f1", b"callDuration")
        time = TColumn(b"f1", b"callTime")
        caller = TColumn(b"f1", b"caller")
        callee = TColumn(b"f1", b"callee")
        cols = [dur, time,caller,callee]

        scan = TScan(startRow=startRow,stopRow=stopRow,columns=cols)
        r = client.getScannerResults(table,scan,100);
        for x in r:
            print("============")
            print(bytes.decode(x.columnValues[0].qualifier))
            print(bytes.decode(x.columnValues[0].family))
            print(x.columnValues[0].timestamp)
            print(bytes.decode(x.columnValues[0].value))

        # scan 全表掃描操作
        table = b'call:calllogs'
        # startRow = b'34,13520401111,20180114152647,0,13269364444,406'
        # stopRow = b'90,15032295555,20180922165903,0,15778421111,298'
        dur = TColumn(b"f1", b"callDuration")
        time = TColumn(b"f1", b"callTime")
        caller = TColumn(b"f1", b"caller")
        callee = TColumn(b"f1", b"callee")
        cols = [dur, time,caller,callee]

        scan = TScan(columns=cols)
        r = client.getScannerResults(table,scan,100);
        print(len(r))
        for x in r:
            print("============")
            print(bytes.decode(x.columnValues[0].qualifier))
            print(bytes.decode(x.columnValues[0].family))
            print(x.columnValues[0].timestamp)
            print(bytes.decode(x.columnValues[0].value))



三、SparkShell使用Python進行WorldCount
-----------------------------------------------------------------
    1.本地模式[可以使用scala和python編寫]
        a.移除spark/conf/core-site.xml | hdfs-site.xml | hive-site.xml檔案
            [這樣spark就不會去整合hive了]

        b.進入pyspark shell
            $> cd /soft/spark/bin
            $> ./pyspark --master local[*]
            >>> arr = [1,2,3,4]
            >>> rdd = sc.parellize(arr);
            >>> rdd.map(lambda e : (e,1))       #python的lamba表示式

    2.WorldCountDemo
        >>> arr = ["tom","tom1","tom1","tom3"]
        >>> rdd1 = sc.parallelize(arr)
        >>> rdd1.collect()
        ['tom', 'tom1', 'tom1', 'tom3']
        >>> rdd1.map(lambda e : (e,1))
        PythonRDD[4] at RDD at PythonRDD.scala:48
        >>> rdd2 = rdd1.map(lambda e : (e,1))
        >>> rdd2.collect()
        [('tom', 1), ('tom1', 1), ('tom1', 1), ('tom3', 1)]
        >>> rdd3 = rdd2.reduceByKey()
        Traceback (most recent call last):
          File "<stdin>", line 1, in <module>
        TypeError: reduceByKey() takes at least 2 arguments (1 given)
        >>> rdd3 = rdd2.reduceByKey(lambda a,b : a + b)
        >>> rdd3.collect()
        [('tom1', 2), ('tom3', 1), ('tom', 1)]


四、爬蟲程式更改 -- 將爬到的網頁儲存到hbase中
---------------------------------------------------------
    1.使用base64進行編解碼
        import base64;

        url = b"http://tianya.cn";
        b = base64.encodebytes(url);
        print(b)
        bb = base64.decodebytes(b)
        print(bb)

    2.建立hbase表：pages
        hbase> create 'ns1:pages','f1'

    3.編寫pageDao.py,專門處理hbase表的crud

# -*- encoding=utf-8 -*-

        # 匯入原生模組
        import os
        import base64

        # 匯入thrift的python模組
        from thrift import Thrift
        from thrift.transport import TSocket
        from thrift.transport import TTransport
        from thrift.protocol import TBinaryProtocol

        # 匯入自已編譯生成的hbase python模組
        from mythrift.hbase import THBaseService
        from mythrift.hbase.ttypes import *
        from mythrift.hbase.ttypes import TResult

        # 建立Socket連線，到s100:9090
        transport = TSocket.TSocket('s100', 9090)
        transport = TTransport.TBufferedTransport(transport)
        protocol = TBinaryProtocol.TBinaryProtocol(transport)
        client = THBaseService.Client(protocol)

        #定義函式，儲存網頁
        def savePage(url,page):
            #
            transport.open()
            #對url進行base64編碼，形成bytes,作為rowkey
            urlBase64Bytes = base64.encodebytes(url.encode("utf-8"))

            # put操作
            table = b'ns1:pages'
            rowkey = urlBase64Bytes
            v1 = TColumnValue(b'f1', b'page', page)
            vals = [v1]
            put = TPut(rowkey, vals)
            client.put(table, put)
            transport.close()

        #判斷網頁是否存在
        def exists(url):
            transport.open()
            # 對url進行base64編碼，形成bytes,作為rowkey
            urlBase64Bytes = base64.encodebytes(url.encode("utf-8"))
            print(urlBase64Bytes)

            table = b'ns1:pages'
            rowkey = urlBase64Bytes
            col_page = TColumn(b"f1",b"page")

            cols = [col_page]
            get = TGet(rowkey,cols)
            res = client.get(table, get)
            transport.close()
            return res.row is not None



    4.編寫爬蟲程式

 # -*- encoding=utf-8 -*-

        import urllib.request
        import os
        import re
        import pageDao

        #下載網頁方法
        def download(url):
            #判斷當前的網頁是否已經下載
            resp = urllib.request.urlopen(url)
            pageBytes = resp.read()
            resp.close

            if not pageDao.exists(url):
                pageDao.savePage(url, pageBytes);

            try:
                #解析網頁的內容
                pageStr = pageBytes.decode("utf-8");
                #解析href地址
                pattern = u'<a[\u0000-\uffff&&^[href]]*href="([\u0000-\uffff&&^"]*?)"'
                res = re.finditer(pattern, pageStr)
                for r in res:
                    addr = r.group(1);
                    print(addr)
                    if addr.startswith("//"):
                        addr = addr.replace("//","http://");

                    #判斷網頁中是否包含自己的地址
                    if addr.startswith("http://") and url != addr and (not pageDao.exists(addr)):
                        download(addr) ;

            except Exception as e:
                print(e)
                print(pageBytes.decode("gbk", errors='ignore'));
                return ;

        download("http://jd.com");




五、使用python實現spark的資料分析,生成分析圖表
-----------------------------------------------------------------
    1.Win上安裝pip安裝python的模組
        1.numpy
            cmd> pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy

        2.scipy
            cmd> pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scipy

        3.matplotpy
            cmd> pip install -i https://pypi.tuna.tsinghua.edu.cn/simple matplotlib
            cmd> python -m pip install -U pip setuptools
            cmd> python -m pip install matplotlib

    2.ubuntu下安裝numpy，scipy，pandas，matplotlib模組
        a.numpy
            安裝：
            如果你的ubuntu中沒有安裝python，請首先安裝python
            在終端輸入以下命令：
            $> sudo apt-get update
            $> sudo apt-get install python-numpy
            $> sudo apt-get install python3-numpy
            如果是python3，則將上面的python-numpy換成python3-numpy即可

        b.scipy
            $> sudo apt-get update
            $> sudo apt-get install python-scipy

        c.pandas
            $> sudo apt-get update
            $> sudo apt-get install python-pandas

        d.matplotlib
            $> sudo apt-get update
            $> sudo apt-get install python-matplotlib

        e.scikit-learn
            $> sudo apt-get update
            $> sudo apt-get install python-sklearn

    3.進入PythonSparkShell
        cmd> ./pyspark  --master local[*]
        $> ./pyspark --master local[*]

    4.貼上下面程式碼，建立資料框
        from pyspark.sql import Row
        import matplotlib.pyplot as plt
        import numpy as np
        import pylab as P
        plt.rcdefaults()
        dataDir ="file:///D://share//python//ml-data//ml-1m//users.dat"
        dataDir ="file:///mnt/hgfs/share/python/ml-data/ml-1m/users.dat"
        lines = sc.textFile(dataDir)
        splitLines = lines.map(lambda l: l.split("::"))
        usersRDD = splitLines.map(lambda p: Row(id=p[0],gender=p[1],age=int(p[2]), occupation=p[3], zipcode=p[4]))
        usersDF = spark.createDataFrame(usersRDD)
        usersDF.createOrReplaceTempView("users")
        usersDF.show()

    5.生成圖表

#生成直方圖
        ageDF = spark.sql("SELECT age FROM users")
        ageList = ageDF.rdd.map(lambda p: p.age).collect()
        ageDF.describe().show()
        plt.hist(ageList)
        plt.title("Age distribution of the users\n")
        plt.xlabel("Age")
        plt.ylabel("Number of users")
        plt.show(block=False)

        #密度圖
        from scipy.stats import gaussian_kde
        density = gaussian_kde(ageList)
        xAxisValues = np.linspace(0,100,1000)
        density.covariance_factor = lambda : .5
        density._compute_covariance()
        plt.title("Age density plot of the users\n")
        plt.xlabel("Age")
        plt.ylabel("Density")
        plt.plot(xAxisValues, density(xAxisValues))
        plt.show(block=False)

        #生成巢狀子圖
        plt.subplot(121)
        plt.hist(ageList)
        plt.title("Age distribution of the users\n")
        plt.xlabel("Age")
        plt.ylabel("Number of users")
        plt.subplot(122)
        plt.title("Summary of distribution\n")
        plt.xlabel("Age")
        plt.boxplot(ageList, vert=False)
        plt.show(block=False)

        #柱狀圖
        occ10 = spark.sql("SELECT occupation, count(occupation) as usercount FROM users GROUP BY occupation ORDER BY usercount DESC LIMIT 10")
        occ10.show()

        occTuple = occ10.rdd.map(lambda p:(p.occupation,p.usercount)).collect()
        occList, countList = zip(*occTuple)
        occList

        y_pos = np.arange(len(occList))
        plt.barh(y_pos, countList, align='center', alpha=0.4)
        plt.yticks(y_pos, occList)
        plt.xlabel('Number of users')
        plt.title('Top 10 user types\n')
        plt.gcf().subplots_adjust(left=0.15)
        plt.show(block=False)


        #堆疊條形圖
        occGender = spark.sql("SELECT occupation, gender FROM users")
        occGender.show()

        occCrossTab = occGender.stat.crosstab("occupation","gender")
        occupationsCrossTuple = occCrossTab.rdd.map(lambda p:(p.occupation_gender,p.M, p.F)).collect()
        occList, mList, fList = zip(*occupationsCrossTuple)
        N = len(occList)
        ind = np.arange(N)
        width = 0.75
        p1 = plt.bar(ind, mList, width, color='r')
        p2 = plt.bar(ind, fList, width, color='y', bottom=mList)
        plt.ylabel('Count')
        plt.title('Gender distribution by occupation\n')
        plt.xticks(ind + width/2., occList, rotation=90)
        plt.legend((p1[0], p2[0]), ('Male', 'Female'))
        plt.gcf().subplots_adjust(bottom=0.25)
        plt.show(block=False)

        #餅圖
        occupationsBottom10 = spark.sql("SELECT occupation,count(occupation) as usercount FROM users GROUP BY occupation ORDER BY usercount LIMIT 10")
        occupationsBottom10Tuple = occupationsBottom10.rdd.map(lambda p:(p.occupation,p.usercount)).collect()
        occupationsBottom10List, countBottom10List =zip(*occupationsBottom10Tuple)
        explode = (0, 0.3, 0.2, 0.15,0.1,0,0,0,0,0.1)
        plt.pie(countBottom10List, explode=explode,labels=occupationsBottom10List, autopct='%1.1f%%', shadow=True,startangle=90)
        plt.title('Bottom 10 user types\n')
        plt.show(block=False)

Python基礎（六）--- Python爬蟲，Python整合Hbase，PythonWorldCount，Spark資料分析生成分析圖表

一、Python爬蟲 --------------------------------------------------- 1.測試 # -*- encoding=utf-8 -*- import urllib.request #

Python基礎（六）之 for 迴圈

全部測試程式碼、 #！/usr/bin/env python3 # _*_ conding:utf-8 _*_ #計算1+2+3 count=1+2+3 print('count--',count) #計算1+2+3+...+10; sum=0 for i in [1,2,

python基礎（六）

　　格式化輸出有兩種%和format函式　　format的功能要比百分號方式強大。%用法的格式 1 s1 = "i am %s,%d years old" % ('jeck',26) #按位置順序依次輸出 2 s2 = "i am %(name)s, i am %(age)d years o

python基礎（六）dict

Python內建了字典：dict的支援，dict全稱dictionary，在其他語言中也稱為map，使用鍵-值（key-value）儲存，具有極快的查詢速度。》 d = {‘Michael’: 9

Python學習day9--linux基礎（六）

sdn zip install bsp docs sbin service dev 網卡今天我們來看一下Samba服務和nginx服務。 Samba服務 1.samba的功能 samba是一個網絡服務器，用於Linux和Windows之間共享文件。 2.samba服

python 循環基礎（六）

color 基礎 continue perl AI clas 在服務器 google 條件表達式 Python中的循環語句有 for 和 while。 while 循環 Python中while語句的一般形式： while 判斷條件：語句同樣需要註意冒號和

Python基礎（4）：python中的特性入門篇（索引，切片，連線，重複，成員操作符）

在介紹列表的時候發現，有一些特性沒有提前解釋，而穿插在其中又會略顯重複和雜亂，索性在這裡來個總結。接觸python的人不難了解到一個詞：高階特性。其實內容並不高深，因為高階特性的產生，就是為了讓程式碼更簡介。以下先介紹簡單的：索引，切片，連線，重複，成員操作符，以及其應用物件。 &nb

Python基礎（一）--- Python簡介，特點，程式碼規範，變數，運算子，條件迴圈語句，元組，字串，列表，字典，檔案操作

一、Python簡介 ----------------------------------------------------------- 1.Python是一種解釋型，面向物件，動態資料型別的高階程式語言 2.像Perl語言一樣, Python 原始碼同樣遵循 GPL(GNU

Python基礎（四）--- Python多執行緒介紹，開啟執行緒的三種方式，time模組，join，Daemon，Lock、Rlock，事件機制，Timer

一、多執行緒介紹 --------------------------------------------------------- 1.threading用於提供執行緒相關的操作，執行緒是應用程式中工作的最小單元。 2.python當前版本的多執行緒庫沒有實現優先順序、執行緒組，執

Python基礎（三）--- Python面向物件oop，類、方法和變數，繼承

一、面向物件oop ----------------------------------------------------- 1.類用來描述具有相同的屬性和方法的物件的集合。它定義了該集合中每個物件所共有的屬性和方法。物件是類的例項。

Python基礎（二）--- IDEA中整合Python和MySQL，使用Python進行SQL操作

一、Python操作MySQL ----------------------------------------------------- 1.安裝MySQL 2.安裝mysql的python模組 a.下載並安裝PyMySQL-master.zip

Python基礎（10）：返回函式，閉包以及裝飾器之間那些糾纏不清的關係

一：返回函式定義：函式可以作為另一個函式的返回值。理論來源：函式可以巢狀定義。 def fun1(li): def fun2(): return sum(li) return fun2 呼叫fun1函式，返回的是一個一個fun2例項。

Python基礎（8）：python中的特性進階篇（迭代，列表生成式，生成器，迭代器）

python中還包括一些高階特性，以下簡單介紹。迭代定義：用for迴圈來遍歷物件的過程，叫做迭代。作用物件：可迭代物件如何判斷是否為可迭代物件：isinstance(xxx,Iterable)，Iterable型別來源於collections模組。應用場景： 1

python之Linux基礎（六）

Linux基本命令(⼆) 輸出重定向命令：>Linux允許將命令執⾏結果重定向到⼀個⽂件，本應顯示在終端上的內容儲存到指定⽂件中。如：ls > test.txt ( test.txt 如果不存在，則建立，存在則覆蓋其內容 )分屏顯示：more檢視內容時，在資訊過⻓⽆法在⼀屏上顯示時，會出

Cris 的Python筆記（六）：函式基礎

1. 函式基礎語法知識 # 函式：函式也是一個物件，用來儲存可執行的程式碼並且在需要時隨時呼叫；而物件就是記憶體中用來儲存資料的一片記憶體空間 # 建立函式：def 函式名([arg1，arg2...]): # 程式碼塊 de

Python自動化運維開發----基礎（六）列表的應用

1.列表的應用（1）佇列特點：先進先出使用場景：銀行排隊，庫存，秒殺，排隊取餐，callcenter append() + pop(0) （2）堆疊特點：先進後出使用場景：出電梯 append() +

Python基礎（18）：os和shutil模組，操作檔案及目錄

OS模組 os模組提供了作業系統的功能介面函式。常用方法如下： import os os.getcwd() #檢視當前所在路徑 os.listdir('E:\\book') #返回當前目錄下的所有檔案，以列表形式 os.pat

Python基礎（14）：面向物件高階（多重繼承，定製類，列舉類，元類）

一，多重繼承定義：一個子類可以繼承自多個父類目的：同時擁有多個父類的所有功能，且減少設計層次。 Mixln：某子類中，需要混入額外功能，可以通過多重繼承實現，這種設計，被叫做Mixln 二，定製類解釋：通過魔術方法的定義，是自定義的類滿足某些特性。 __str__：

Python基礎（12）：面向物件基礎（類，例項，封裝，繼承，多型）

一，什麼是面向物件？面向物件，Object Oriented Programming，簡稱oop。是一種程式設計思想。中心：將物件作為程式的基本單元。一個物件包含了資料和操作資料的函式。 python，一切皆物件。二，類和例項類，class，抽象的模板。例項，i

Python基礎（13）：面向物件進階（訪問限制，slots，property，獲取物件資訊，類屬性和例項屬性）

一，訪問限制原因：直接操作物件屬性有兩個缺點：無法保證資料安全性，無法進行引數校驗。示例： class fruit(object): #定義一個類 def __init__(self,name): #定義屬性name

Python基礎（六）--- Python爬蟲，Python整合Hbase，PythonWorldCount，Spark資料分析生成分析圖表

相關推薦