bs4爬取漫畫並寫入TXT文件

阿新 • • 發佈：2018-11-11

今天帶來的是爬取漫畫網站上的漫畫資訊及其連結

這次會用到bs4，也就是Beautiful Soup
我們先介紹一下**Beautiful Soup**：
Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.

物件種類可以歸納為四種：

Tag
Navigable String
Beautiful Soup
(Beautiful Soup物件表示的是一個文件的全部內容)
Comment

在這裡介紹一下，用bs4獲取所需內容的一些方法

soup.a
通過點屬性獲取當前名字的第一個Tag
soup.find_all(‘a’)
獲取所有的a標籤

這裡還要區分一下find() 和 find_all()

find()
函式只返回第一個所要查詢的節點標籤的型別
find_all()
函式以列表的形式返回所有要查詢的節點標籤的型別

好了，接下來直接上程式碼

# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests

url = 'https://manhua.dmzj.com/'
def get_page(finallyurl):
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'
    headers = {'User-Agent': user_agent}
    data = requests.get(finallyurl,headers=headers).content
    return data
def get_manhua(html):
    fo = open("new.txt", 'a')
    fo.write('**********************第%s頁*************************\n'%i)
    fo.close()
    soup = BeautifulSoup(html,'html.parser')
    article = soup.find('div',attrs={'class':'newpic_content'})
    text = []
    for paragraph in soup.find_all("div",attrs={"class":"boxdiv1"}):
        p_content = paragraph.get_text()     #獲取所有關於文字的內容
        text.append(p_content)
        print p_content
        a=[]
        for link in paragraph.find_all(target="_blank"):
            lianjie = 'https://manhua.dmzj.com/' + link.get('href')
            a.append(lianjie)
            print lianjie
        end = a[1] + '\n' + p_content + '\n'
        #寫入文件
        one = end.encode('UTF-8')
        fo = open("new.txt", 'a')
        fo.write(one)
        fo.write('\n')
        fo.close()
        # 刪除文件中的空行
        f = open('new.txt')
        g = open('result.txt', 'w')
        try:
            while True:
                 line = f.readline()
                 if len(line) == 0:
                      break
                 if line.count('\n') == len(line):
                     continue
                 g.write(line)
        finally:
            f.close()
            g.close()
    return text
for i in range(1,4):
    finallyurl = url + 'update_' + str(i) + '.shtml'
    html = get_page(finallyurl)
    text = get_manhua(html)

結果展示
在這裡插入圖片描述

bs4爬取漫畫並寫入TXT文件

今天帶來的是爬取漫畫網站上的漫畫資訊及其連結這次會用到bs4，也就是Beautiful Soup 我們先介紹一下**Beautiful Soup**： Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,

Python爬蟲系列：爬取小說並寫入txt檔案

Python爬蟲系列 ——爬取小說並寫入txt檔案文章介紹瞭如何從網站中爬取小說並寫入txt檔案中，實現了單章節寫取，整本寫取，多執行緒多本寫取。爬蟲使用的python版本為python3，有些系統使用python指令執行本指令碼，可能出現錯誤，

Python爬蟲將爬取的圖片寫入world文件

作為初學爬蟲的我，無論是爬取文字還是圖片，都可以遊刃有餘的做到，但是爬蟲所爬取的內容往往不是單獨的圖片或者文字，於是我就想是否可以將圖文儲存至world文件裡，一開始使用瞭如下方法儲存圖片： with open('123.doc','wb')as fil

爬蟲--使用scrapy爬取糗事百科並在txt文件中持久化存儲

max color 圖片得到 acc deb ould ins ant 工程目錄結構　spiders下的first源碼　　 # -*- coding: utf-8 -*- import scrapy from firstBlood.items imp

C語言，產生一組數字，並將其寫入txt文件中

#include<stdio.h> /*產生一組連續的數字，並將其寫到txt文件中*/ /*說明：本程式在在win10 系統64位下用Dev-C++ 5.11版本編譯器編譯的*/int main(){ int m=1; FILE *fp=NULL; fp=fopen("D:\\1.txt","

python讀取並寫入csv文件

技術分享 com () cnblogs lose row 之間 png color 新建csvData.csv文件 1 import csv 2 3 # 讀取csv文件方式1 4 csvFile = open("csvData.csv", "r") 5 re

java追加寫入txt文件

output nal 代碼 public 整理內容 fin ring str 整理了下網上的資料，數據追加寫入txt文件有三種方式，見下面代碼：方法一： 1 public void method1() { 2 FileWriter fw = null; 3 tr

Scrapy教程——搭建環境、創建項目、爬取內容、保存文件

.com 目錄 tor strong targe self 文件名 ng- start 1、創建項目在開始爬取之前，您必須創建一個新的Scrapy項目。進入您打算存儲代碼的目錄中，運行新建命令。例如，我需要在D:\00Coding\Python\scra

Java讀取txt文件和覆蓋寫入txt文件和追加寫入txt

amr file efi txt todo result cat void adt //創建文件 public static void createFile(File filename) { try { if(!filename.exists()) {

pyqt5之將textBrowser的內容寫入txt文件

try: StrText = self.textBrowser.toPlainText() qS = str(StrText) f = open('/***/test.txt', 'w')

QT將影象資料寫入txt文件

//開啟txt檔案，並將影象資料存入txt中 QFile file("ImgGray_FOD_00743_src.txt"); if(!file.open(QIODevice::WriteOnly | QIODevice::Text|QIODevice::Append))

解決python3 字符串寫入txt文件/excel文件中文亂碼

mage () 亂碼 src mce txt \n -m com python3把字符串寫入txt文件，控制臺輸出正常，打開txt文件亂碼。程序如下 with open(r‘.txt‘, ‘a‘,encoding=‘utf-8‘)

Python學習筆記(29)-Python建立並寫入word文件

一，簡介上一篇已經介紹了python-docx模組的安裝和匯入，本篇直接介紹如何建立並寫入word文件，需要注意的是：建立word並寫入之後，操作的都是記憶體中的物件，最後需要儲存到檔案，才能看到真實的檔案。二，程式碼演示非常簡單，直接演示程式碼

創建目錄並且將數據寫入txt文件、刪除指定目錄下的文件

sts mkdir != 思路字符函數 ech edi one 要求：將用戶uid批量導出，並且每5000個放到一個txt文件中，使用英文逗號分隔用戶uid;思路：自定義一個文件夾，在每次導出的時候，先將這個文件夾中的文件刪除，之後再重新導出新的文件，使用日期區分是否導

python 解析execl文件並寫入新文件

first info main urn odi 創建 exceptio append cell #!/usr/bin/env python#coding:utf-8import osimport xlrd,xlwtimport requests NatExeclFile=o

Python3.6實現scrapy框架爬取資料並將資料插入MySQL與存入文件中

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org

python:使用requests,bs4爬取西刺代理並驗證

爬西刺代理的高匿免費代理，並通過http://www.baidu.com進行驗證代理是否可用，存入到excel檔案中檢視原始碼發現：所有的代理資訊都在tr標籤裡面（只有一個例外）找到所有裡面有td標籤的tr標籤 trs = soup.find_

C#創建txt文件並寫入內容

att 沒有用戶名密碼登錄不能 true 寫入內容一個以註冊登錄為例 using System.Text; 1.註冊 //註冊 public string registered(string username,stri

php 將多個txt文件合並成

dir() pan sca foreach 編碼方式 function gbk div 根據 function test() { $hostdir= iconv("utf-8","gbk","C:\Users\原萬裏\Desktop\日常筆記") ;

《團隊-爬取豆瓣電影TOP250-設計文檔》

python top 賬號集成開發環境 python3 搭建環境電影 settings 解耦搭建環境：　　1.安裝python3.4　　2.安裝pycharm集成開發環境　　3.安裝Git for Windows　　4.安裝python第三方包 bs4開發階段：　　1

bs4爬取漫畫並寫入TXT文件

相關推薦