Python爬蟲——爬取網站的例項化原始碼

阿新 • • 發佈：2018-12-09

缺點：1爬了一個網站好幾次以後不能再進行爬取。沒有解決這個問題
      2在寫入資料的時候還是存在很大問題。以後多加練習這個檔案的儲存的相關工作

import re
import urllib.request

def function():
    """需求：1 https://read.douban.com/把所有的出版社的資訊提取出來 過濾掉無關資訊既可以
        2 儲存到本地檔案的資訊
    """
    #爬取得網站資訊
    html="http://read.douban.com/kind/505"
    data=urllib.request.urlopen(html).read()
    data=data.decode('utf-8')
    #爬取得正則表示式
    bookname='<a href="/ebook/\d*/">(.*?)</a>'#找到書名
    bookauthor='<a href="/author/\d*/" class="author-item">(.*?)</a>'#找到作者名字
    booktype='<span itemprop="genre">(.*?)</span>'#小說的型別
    #爬去的資訊資料
    bookname=re.compile(bookname).findall(data)
    bookauthor=re.compile(bookauthor).findall(data)
    booktype=re.compile(booktype).findall(data)
    #列印在控制檯
    print("bookname:",bookname)
    print("bookauthor",bookauthor)
    print("booktype",booktype)
    
    #將爬取的資料寫入檔案中
    txtName = "codingWord.txt"
    file = open('./作業二的資料.txt', "w",encoding="utf-8")
    file.write(str(bookname)+"\n"+str(bookauthor)+"\n"+str(booktype))
    file.close()
    file.close()
    return

if __name__ == '__main__':
    function()

Python爬蟲——爬取網站的例項化原始碼

缺點：1爬了一個網站好幾次以後不能再進行爬取。沒有解決這個問題 2在寫入資料的時候還是存在很大問題。以後多加練習這個檔案的儲存的相關工作 import re import urllib.request def function(): """需求：1 https://re

Python爬蟲爬取網站上的圖片

Python爬蟲爬取網站新聞

網站分析爬取過程獲取新聞連結地址使用requests包讀取新聞列表頁面，然後使用正則表示式提取出其中的新聞頁面連結，返回urls列表 def getList(url): li = requests.get(url) re

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

Python爬蟲爬取美劇網站

一直有愛看美劇的習慣，一方面鍛鍊一下英語聽力，一方面打發一下時間。之前是能在視訊網站上面線上看的，可是自從廣電總局的限制令之後，進口的美劇英劇等貌似就不在像以前一樣同步更新了。但是，作為一個宅diao的我又怎甘心沒劇追呢，所以網上隨便查了一下就找到一個能用迅雷下載的美劇

python爬蟲爬取拉勾網站內容

本次主要內容是分享下拉勾網站模擬搜尋以及搜尋內容的爬取，這裡先引入一些用到的庫，由於網站本身的反爬蟲技術和網路原因，這裡使用了fake_useragent和多執行緒模式，當然如果有條件的話也可以使用代理池，這樣可以更加保險一點。由於我沒有弄那些收費的代理，而免費

python 爬蟲爬取某網站的漫畫

文章目錄宣告前言思路流程程式結果宣告為了表示對網站的尊重，已將網站地址隱藏，下載的漫畫之前我就看過了，所以也會刪掉，絕不侵犯網站的利益。前言

Python爬蟲爬取動態頁面思路+例項（一）

簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，儘管它們在瀏覽器裡看起來唾手可得。這說明我們想要的元素是在我們的某些操作下通過js事件動態生成的。舉個例子，我們在刷Q

Python爬蟲爬取古詩文網站專案分享

作為一個靠python自學入門的菜鳥，想和大家分享自己寫的第一個也是目前為止唯一一個爬蟲程式碼寫爬蟲要具備的能力基礎：python入門基礎，html5基礎知識，然後這邊用的是scrapy框架，所以

Python爬蟲爬取51job招聘網站

最近學習爬蟲，做了一個python爬蟲工具寫在這裡記錄一下。# python爬51job工具，稍微改改就可以爬其他網站 # edit by mengqi Date：2018-07-11 # encoding:uft-8 import csv

java爬蟲爬取網站資料例項

WebSite web = new WebSite（“https://www.bdqnhyq.com”）;<fo

使用python爬蟲爬取百度手機助手網站中app的資料

一、爬取程式流程圖爬蟲程式流程圖如下： Created with Raphaël 2.1.0開始分析地址結構獲得app類別頁的url爬取app詳情頁url爬取App詳情頁的資料將爬取資料儲存到json檔案結束二、具體步驟 1.分析

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Python爬蟲 - 爬取百度html代碼前200行

http src mage bsp bubuko str 百度爬蟲圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

Python爬蟲——爬取網站的例項化原始碼

相關推薦