學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

阿新 • • 發佈：2018-11-23

爬取東方財富網文章標題和正文並儲存的程式碼。自己知道寫的很爛，不過主要是為了自己備忘，也為了以後回頭看看自己的爛作品，哈哈哈。

#!/usr/bin/env python
# -*- coding:utf-8 -*-


import requests
from bs4 import BeautifulSoup
import time

#實現根據url進行網頁爬取，並得到想要的文字資訊，儲存在一個檔案列表txtlist中。
def gethtml(url,deep,txtlist):

    try:
        for i in range(deep):
            print('>>>>>',deep-i)
            r = requests.get(url + str(i + 1), timeout=30)
            if r.status_code == 200:
                r.encoding = r.apparent_encoding
                r.raise_for_status()

                soup = BeautifulSoup(r.text,'html.parser')
                a = soup.find_all('p',class_='title')
                for b in a:
                    c = b.find_all('a')

                    print(c[0].text,c[0]['href'])
                    #將爬取的文章標題和正文連結新增進txtlist變數中
                    txtlist.append('>>>>>>>'+c[0].text+c[0]['href']+'\n')
                    #通過request將正文連結進入正文，爬取正文。
                    r1 = requests.get(c[0]['href'], timeout=30)
                    r1.raise_for_status()
                    r1.encoding = r1.apparent_encoding

                    soup1 = BeautifulSoup(r1.text, 'html.parser')
                    a1 = soup1.find_all('div', id='ContentBody')
                    # print(a)
                    for b1 in a1:
                        c1 = b1.find_all('p')
                        for e1 in c1:
                            print(e1.text)
                            #將每篇的正文再次賦予txtlist變數
                            txtlist.append(e1.text)



            i += 1
    except:
        print('有錯誤發生')
        return

#將txtlist列表中的資料儲存到E盤111.txt檔案中。
def savefile(txt):
    try:
        with open('e:111.txt', 'a', encoding='utf-8') as f:
            timenow = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
            print(timenow)
            f.write('>>文章爬取時間>>' + timenow + '>>>>>>>' + txt + '\n')
    except:
        print('有錯誤未能存檔')
    return

#呼叫的主函式
def main():
    deep = 2 #定義要抓取多少層頁面
    url = 'http://finance.eastmoney.com/news/cdfsd.html'
    txtlist = []
    gethtml(url,deep,txtlist)
    txt = ''.join(txtlist) #將列表檔案變成字串檔案，便於進行儲存。
    print(txt)
    savefile(txt)
main()

學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

爬取東方財富網文章標題和正文並儲存的程式碼。自己知道寫的很爛，不過主要是為了自己備忘，也為了以後回頭看看自己的爛作品，哈哈哈。 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import B

Android Studio中寫了一個工具類，進行測試時在Manifest.xml中寫

這是包，utils下的HttpUtils是工具類在Manifest.xml檔案下寫<instrumentation時報錯，<instrumentation></instrumentation>部分程式碼如下：<instrumentati

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

python爬取糗事百科資料並儲存到sqlite中，命令列讀出

import requests import sqlite3 from bs4 import BeautifulSoup class QSBK: def __init__(self): self.page=0 self.items=[

Python爬蟲——實戰三：爬取蘇寧易購的商品價格(渲染引擎方法)

蘇寧易購的商品價格請求URL為 https://pas.suning.com/nspcsale_0_000000000152709847_000000000152709847_0000000000_10_010_0100101_20268_1000000_

Python爬蟲——實戰一：爬取京東產品價格(逆向工程方法)

在京東的單個產品頁面上，通過檢視原始碼檢查html，可以看到 <span class="p-price"><span>￥</span><span class="price J-p-1279836"></sp

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

網路爬蟲之Scrapy實戰二：爬取多個網頁

前面介紹的scrapy爬蟲只能爬取單個網頁。如果我們想爬取多個網頁。比如網上的小說該如何如何操作呢。比如下面的這樣的結構。是小說的第一篇。可以點選返回目錄還是下一頁對應的網頁程式碼：我們再看進入後面章節的網頁，可以看到增加了上一頁對應的網頁程式碼通過

Python爬取貓眼電影100榜並儲存到excel表格

首先我們前期要匯入的第三方類庫有; 通過貓眼電影100榜的原始碼可以看到很有規律如: 亦或者是: 根據規律我們可以得到非貪婪的正則表示式 """<

小白學 Python 爬蟲（25）：爬取股票資訊

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

學了兩天 react，亂講一下學習思路，順便弄了一個腳手架

之前一直用 vue 做一些小專案，最近接觸了一個專案是用 react 做前端，雖然本身是做後端開發的，但是前端還是要了解一點的。現在的專案基本上都是前後端分離的，後端就先不提了。前端的框架也是層出不窮，使用最多的就是 angular、vue、react 。angular 是前幾年用的比較多，最近好像用的

C/C++練習題定義一個日期變數，進行年、月、日的輸入，計算該日期是本年中的第幾天。

練習python寫了一個四則運算程式，支援乘方和“.3"這種格式

#!/usr/bin/python #coding=utf-8 # 本程式由使用者輸入一個表示式字串，然後計算這個表示式的值 # 表示式是一個四則運算表示式，可以包含^操作符# 注意：乘方用^運算子，支援".3"這種表示小數的形式。負數需要用括號擴起來 # 思路：利用棧的方

花了一個月的時間在一個oj網站只刷了這些題，從此入門了絕大多數演算法

如果你想入門演算法，那麼我這篇文章也許可以幫到你。 oj網站有這麼多，當然還有其他的。我當初是在hdu上面刷的，不要問我為什麼，問就是當時我也是一個新手，懵懵懂懂就刷起來了。點這裡可以進入這個網站https://vjudge.net/ ![](https://user-gold-cdn.xitu.io/20

為開源作者賦能，為此我花了一個月時間做了個工具平臺

## 前言在介紹這個專案之前，先聽我BB幾句。自己做開源也有2，3年了。現在也長期維護著3個開源專案，起初只是一時興趣，覺得做出一個東西放在開源站點上是一件很有意義的事。但是凡是用的人多了，自然會有各種各樣的問題和bug，各種issue要解決。自己的專案也如同自己的孩子一般，也不能放任不管，很多時候想

CS61b lab3 分享一個bug，足足找了一個多小時，希望各位別入坑哈

好的 log http 錯誤代碼 style obj item next slist part1：寫一個測試程序，比較簡單就不貼代碼啦，運行結果： part2：改進InserEnd method，我是按照課上講的把原來的singlyList變成doubleList，在

JS對象的方法定義了一個函數，並作為對象的屬性存儲。

isp bubuko .com display relative 對象方法輸出 meta margin 案例：<!DOCTYPE html><html><head><meta charset="utf-8"><titl

首次路測事故一個月後，全球自動駕駛企業的眾生相

Apollo2018年雖然剛過了幾個月，自動駕駛領域卻是風波不斷。在原本的計劃中，美國加州將在4月份開放完全自動駕駛路測的申請，中國也將在五月份開始施行自動駕駛路測管理規範。看起來一切都是順風順水，雙手從方向盤上解放出來的日子已經在向我們招手。讓人始料未及的是，3月18日，Uber在亞利桑那州發生了首樁自動駕

原生JS寫了一個小demo，根據輸入的數字生成不同背景顏色的小方塊兒~

top == UNC 定位元素 demo TE tostring eight 地方昨天練習寫了這個小demo，個人覺得通過設置定位元素left和top的值，來實現換行的功能，這種方法很巧妙~ 另外，如下代碼中的隨機顏色的獲取，還請各位前輩多多指教：需要改進的地方；或者有

學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

相關推薦