python3爬蟲連結+表格+圖片（本地+csv+mongodb儲存）

阿新 • • 發佈：2018-11-11

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import re
import csv
import time
from pymongo import MongoClient

client = MongoClient('localhost',27017)
db = client.admin 
db.authenticate("root", "root")
my_db = client.mydb  
col = my_db.zwfw_html  
link1 = 'http://www.hbzwfw.gov.cn/hbzw/sxcx/itemList/xz_index.do?webId=31&deptid='
def get_html(link):
    Cookie = "PHPStat_First_Time_10000011=1480428327337; PHPStat_Cookie_Global_User_Id=_ck16112922052713449617789740328; PHPStat_Return_Time_10000011=1480428327337; PHPStat_Main_Website_10000011=_ck16112922052713449617789740328%7C10000011%7C%7C%7C; VISITED_COMPANY_CODE=%5B%22600064%22%5D; VISITED_STOCK_CODE=%5B%22600064%22%5D; seecookie=%5B600064%5D%3A%u5357%u4EAC%u9AD8%u79D1; _trs_uv=ke6m_532_iw3ksw7h; VISITED_MENU=%5B%228451%22%2C%229055%22%2C%229062%22%2C%229729%22%2C%228528%22%5D"
    headers = {
        'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36',
        'Cookie': Cookie,
        'Connection': 'keep-alive',
        'Accept': '*/*',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Host': 'query.sse.com.cn',
        'Referer': 'http://www.sse.com.cn/assortment/stock/list/share/'
    }
    r = requests.get(link, headers=headers, timeout=10)
    if 200 != r.status_code:
        pass
    html = r.text
    return html

def get_id(link11):
    movie_list = []
    soup = BeautifulSoup(get_html(link=link11), "lxml")
    div_list2 = re.findall(r'href="javascript:changebm(.*)" title=(.*)',soup.decode("utf8", "ignore"))
    for i in range(len(div_list2)):
        list1 = str(div_list2[i])
        list2 = re.findall(r"[\u4e00-\u9fa5]+",list1)
        list3 = re.findall(r"\d+",list1)
        if len((list3[0]))==9:
            movie_list.append(list3[0])
        else:
            pass
    return movie_list

def get_shuju_1():
    movie_list2 = get_id(link1)
    print(movie_list2)
    for n in range(len(movie_list2)):
        try:
            url_id = movie_list2[n]
        except IndexError as e:
            pass
        for p in range(1,9):
            url3 = "http://www.hbzwfw.gov.cn/hbzw/sxcx/itemList/xz_list.do?webId=31&deptid=%s&isone=&isonline=&type=&word=&page_num=%s" % (url_id,p)
            soup3 = BeautifulSoup(get_html(link=url3), "lxml")
            div_list2 = soup3.select('a')
            if len(div_list2) != 0:
                print("存在此頁" + '' + url3)
                div_list = soup3.select('div > div.r3_tit > a')
                for m in range(len(div_list)):
                    div_list_2 = str(div_list[m]).replace('<a href="', '').replace('" target="_blank" title="', '').replace('\r\n\t\t\t\t\t\t\t\t\t</a>', '')
                    div_list_3 = re.sub(r'">[\u4e00-\u9fa5]+', '', str(div_list_2))
                    pattern = re.compile(r'^http(.*)html')
                    div_list_4 = re.findall(pattern, div_list_3)
                    div_list_5 = re.findall(r"[\u4e00-\u9fa5,（,）,、,]+", div_list_3)
                    time.sleep(0.1)
                    movie_list3 = ('http'+str(div_list_4[0])+'html')
                    print(movie_list3, div_list_5[0])
                    save_contents(movie_list3,div_list_5[0])
                    dict_url = dict(zip(div_list_5[0],movie_list3))
                    col.insert(dict_url)
            else:
                None
def save_contents(shuju,title):
    urlist = shuju
    titleist = title
    try:
        with open("二級目錄網址.csv",'a+',newline='') as f:
            writer = csv.writer(f)
            writer.writerows(zip([urlist], [titleist]))
    except:
        pass

if __name__ == '__main__':
    get_html(link=link1)
    get_shuju_1()

python3爬蟲連結+表格+圖片（本地+csv+mongodb儲存）

# -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import re import csv import time from pymongo import MongoClient client = Mon

python3爬蟲連結+表格+圖片（本地+csv儲存）

# -*- coding: utf-8 -*- import urllib.request import http.cookiejar from bs4 import BeautifulSoup import requests import csv import time import re i

python3爬蟲連結+表格+圖片

# -*- coding: utf-8 -*- import urllib.request import http.cookiejar from bs4 import BeautifulSoup import requests import csv import time i

python3.x以上爬蟲使用問題 urllib（不能使用urllib2）

module RR ror 模塊 esp aid 方法 PE www 問題一： python 3.x 以上版本攬括了 urllib2，把urllib2 和 urllib 整合到一起。並且引入模塊變成一個，只有 import urllib # import urllib

JAVA將圖片（本地或者網絡資源）轉為Base64字符串，將base64字符串存儲為本地圖片

.com 返回 ++ path cat 地圖 flush ++i 圖片網絡資源代碼 import java.io.ByteArrayOutputStream; import java.io.FileOutputStream; import java.io.IOExcept

python3爬蟲之Urllib庫（二）

cau python err 發送請求 split 完成構造服務器 inf 在上一篇文章中，我們大概講了一下urllib庫中最重要的兩個請求方法：urlopen() 和 Request() 但是僅僅憑借那兩個方法無法執行一些更高級的請求，如Cookies處理，代

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

python3爬蟲豆瓣top250圖書（並儲存到mysql資料庫）

參考上篇文章附上程式碼： import requests from bs4 import BeautifulSoup import mysql.connector def get_pages_link(): # 插入到資料庫 conn = mysql

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

python3爬蟲豆瓣top250電影（並儲存到mysql資料庫）

所用到的模組（需要提前安裝好）： requests、BeautifulSoup、lxml、mysql.connector（或者pymysql也可以，如果不想插入到資料庫，只需要將裡邊相關的程式碼刪除）（程式碼下邊將貼出本文beautifulsoup的使用）程式碼

python爬蟲之豆瓣圖片（二）

偽裝瀏覽器對與一些需要登入的網站，如果不是從六七發出的請求，則得不到響應。所以，我們需要將爬蟲程式法出請求偽裝成瀏覽器正規軍具體實現：自定義網頁請求報頭(詳細介紹) 使用Fiddle檢視

python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

此篇爬蟲的背景是：虛擬機器剛裝好的ubuntu 16.04，系統環境還需配置，爬蟲的程式是之前幾個月前在windows上寫的，今天放到虛擬機器上跑一跑！（安裝了VMware Tools就可以把宿主機上的檔案拉進虛擬機器中！） xpath爬取用到了urllib2與lxml庫，

網路爬蟲之獲取圖片到本地

/* * Created on Aug 26, 2011 2:41:26 PM * * HtmlSourceGetter.java * * NOTICE OF PROPRIETARY RIGHTS * * This program is a confident

Vsftpd文件傳輸服務（本地用戶訪問）

oot 匿名簡單 for 關閉防火墻 stop 鏡像軟件 ext 本地用戶訪問：本地用戶模式是通過linux系統本地的賬戶信息進行認證的模式，相對於匿名模式更安全，更簡單，用戶登陸FTP服務器後，將默認位於自己的宿主目錄中，且在宿主目錄中擁有讀寫權限。部署環境：

Python 3網絡爬蟲開發實戰.pdf（崔慶才著）

god 百萬 mitmproxy 2.2.3 協議 filter 分布式部署基本適合內容簡介 · · · · · · 本書介紹了如何利用Python 3開發網絡爬蟲，書中首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表達式、Bea

BufferedImage緩存圖片（data:image/jpg;base64,）轉換base64輸出與解析

phi split stream null java request dispose decode gray 1、比如說二維碼圖片數據data，不想落地生成jpg文件，通過java緩存文件轉換base64輸出到頁面展示，那麽java後端處理寫法參考如下：　　　　　　　　

【LeetCode題解】142_環形連結串列2（Linked-List-Cycle-II）

目錄描述解法一：雜湊表思路 Java 實現 Python 實現複雜度分析解法二：雙指標思路 Java 實現 Python 實現複雜度分析描述給定一個連結串列，返回連結串列開始入

Android應用--簡美音樂播放器獲取專輯圖片（自定義列表介面卡）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Base64編碼圖片（Data型別的URI）

示例： CSS中，background-image: url(data:image/gif;base64,R0lGODlhFQAJAIAAACMtMP///yH5BAEAAAEALAAAAAAVAAkAAAIXjI+AywnaYnhUMoqt3gZXPmVg94yJVQAAOw=

用python2.7的requests模組下載圖片（案例是200張）

用python2.7的requests模組下載圖片（案例是200張）想要增加資料量自己改引數就行了。其中是有些資料重複，可能不到200，但是不會差太遠。 # -*- coding: utf-8 -*- # @Author : Acm import json import

python3爬蟲 連結+表格+圖片（本地+csv+mongodb儲存）

相關推薦

python3爬蟲連結+表格+圖片（本地+csv+mongodb儲存）