python獲取知乎日報另存為txt檔案

阿新 • • 發佈：2019-02-13

前言

拿來練手的，比較簡單（且有bug），歡迎交流~

功能介紹

抓取當日的知乎日報的內容，並將每篇博文另存為一個txt檔案，集中放在一個資料夾下，資料夾名字為當日時間。

使用的庫

re，BeautifulSoup，sys，urllib2

注意事項

1.執行環境是Linux，python2.7.x，想在win上使用直接改一下里邊的命令就可以了

2.bug是在處理 “如何正確吐槽”的時候只能獲取第一個（懶癌發作了）

3.直接獲取（如下）內容是不可以的，知乎做了反抓取的處理

urllib2.urlop(url).read()

所以加個Headers就可以了

4.因為zhihudaily.ahorn.me這個網站時不時掛掉，所以有時候會出現錯誤

1 def getHtml(url):
2     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}
3     request=urllib2.Request(url,None,header)
4     response=urllib2.urlopen(request)
5     text=response.read()
6     return text

4.在做內容分析的時候可以直接使用re，也可以直接呼叫BeautifulSoup裡的函式（我對正則表示式發怵，所以直接bs），比如

1 def saveText(text):
2     soup=BeautifulSoup(text)
3     filename=soup.h2.get_text()+".txt"
4     fp=file(filename,'w')
5     content=soup.find('div',"content")
6     content=content.get_text()

show me the code

 1 #Filename:getZhihu.py
 2 import re
 3 import urllib2
 4 from bs4 import BeautifulSoup
 
 5 import sys
 6 
 7 reload(sys)
 8 sys.setdefaultencoding("utf-8")
 9 
10 #get the html code
11 def getHtml(url):
12     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}
13     request=urllib2.Request(url,None,header)
14     response=urllib2.urlopen(request)
15     text=response.read()
16     return text
17 #save the content in txt files
18 def saveText(text):
19     soup=BeautifulSoup(text)
20     filename=soup.h2.get_text()+".txt"
21     fp=file(filename,'w')
22     content=soup.find('div',"content")
23     content=content.get_text()
24     
25 #   print content #test
26     fp.write(content)
27     fp.close()
28 #get the urls from the zhihudaily.ahorn.com
29 def getUrl(url):
30     html=getHtml(url) 
31 #   print html
32     soup=BeautifulSoup(html)
33     urls_page=soup.find('div',"post-body")
34 #   print urls_page
35 
36     urls=re.findall('"((http)://.*?)"',str(urls_page))
37     return urls 
38 #main() founction
39 def main():
40     page="http://zhihudaily.ahorn.me"
41     urls=getUrl(page)
42     for url in urls:
43         text=getHtml(url[0])
44         saveText(text)
45 
46 if __name__=="__main__":
47     main()

python獲取知乎日報另存為txt檔案

前言拿來練手的，比較簡單（且有bug），歡迎交流~ 功能介紹抓取當日的知乎日報的內容，並將每篇博文另存為一個txt檔案，集中放在一個資料夾下，資料夾名字為當日時間。使用的庫 re，BeautifulSoup，sys，urllib2 注意事項 1.執行環境是Linux，p

python中str與list互換，txt檔案的讀取，字串變成列表操作，另存為TXT時從列表變成字串

file = open ("wider_face_train_bbx_gt.txt") for line in lines: print(type(line)) #<type 'str'> #78 221 7 8 2 0 0 0 0

Python+OGR庫學習（二）：讀取點向量檔案，複製特定屬性值點並另存為shp檔案

程式碼思路： 1、匯入相關庫包，切換到當前資料夾 2、註冊驅動，開啟點向量檔案，獲取圖層 3、建立輸出檔案，並獲取圖層（沒有屬性定義） 4、定義輸出圖層欄位屬性：假設已知檔案所有屬性欄位定義（即ID和cover）（1）讀取輸入檔案中某一要素（2）獲取ID、cover欄位定義（3

angular1 開啟檔案並另存為（檔案的讀取與寫入）

最近有個需求，在頁面上有個按鈕可以選取檔案然後在匯出到其它地方，說明白點就是檔案的讀取與寫入，下面是例子（例子中用到了fileSave.js github地址：https://github.com/eligrey/FileSaver.js）首先引入fileSave.js i

selenium webdriver 右鍵另存為下載檔案（結合robot and autoIt）

最近一直在研究selenium webdriver右鍵選單，發現selenium webdriver 無法操作瀏覽器右鍵選單，如圖如果我想右鍵另存為，根本操作不了。也有在網上看到webdriver right click option的一些程式碼，拿來用發現不能用的。 Actions

Visio批量修改圖形內容，匯出圖片，另存為新檔案

Sub chenphAutoExport() ' 角色 Dim role(2) As String role(0) = "普通教師" role(1) = "高階教師" ' 分類 Dim sort(2) As String

在windows下另存為Ascii檔案和unicode檔案的問題

"劉"字 GBK 編碼為 0xC1F5 UNICODE(小端)編碼為 0x5218 在windowsXP下用記事本寫"劉"字，分別另存為ANSI編碼方式，以及unicode編碼方式。用ultraedit開啟切換到十六進位制模式，發現 ANSI編碼儲存的檔案第一位元組為

matlab中矩陣另存為txt

load ground.txt i=1; while(i<size(ground,1)) temp(i,1)=ground(i+1,4)-ground(i,4); temp(i,2)=ground(i+1,12)-ground(i,12); i

解決Excel裡面另存為TXT後，多了很多引號的問題。

一、問題描述： Excel另存為.txt文字格式時,發現單元格中出現雙引號怎麼回事? eg：在Excel中輸入下面格式的資料（在一列單元格中） 1 "E" 2 "N1" 3 "N10" 4 "N11" 5 "N12" 6 "N13" 7 "N14" 8 "N15" 9

Word2016另存為PDF檔案時無書籤導航的解決方法

近期在寫畢業論文，在進行word另存為pdf時出現了一個問題，就是pdf檔案開啟後沒有顯示word裡的書籤導航，很是不方便，上網找到了解決辦法：---------------1、另存為的時候選擇

excel表格另存為CSV檔案時，如何使每個單元內容都帶雙引號和逗號分隔

例如：原excel表格內容是姓名性別電話手機張三男 84577487 13878902345 李四女 25878456 13978581278 另存為CSV檔案後，要求這樣的格式 "姓名","性別","電話","手機" "張三","男","84577487","13878902345" "李四"

解決Excel另存為csv檔案在linux上亂碼問題

首先excel另存為的時候，選擇儲存為csv檔案型別，有個工具的選項，編碼那裡選擇unicode,儲存。這樣在linux上面還是亂碼的，要用文字編輯器開啟剛剛儲存的csv檔案，然後另存為，編碼方式選擇utf-8. 這樣就不會亂碼啦！

開啟一個Excel模板檔案填充資料另存為一個檔案

stringstrFileName=[email protected]"\template\template.tpl";stringstrSaveFileName=[email protected]"\excel\"+System.DateTime.Now.ToString().Repla

jupyter另存為py檔案時：nbconvert failed: 'utf8' codec can't decode byte 0xc0 in position 96: invalid start

問題描述 jupyter notebook 編輯python2版本的檔案，當另存為 .py 檔案時，會遇到類似nbconvert failed: ‘utf8’ codec can’t decode byte 0xc0 in position 96: inval

學以致用——使用VBA複製整理後的資料到新的工作表並另存為新檔案(Save a worksheet as a workbook)

需求：某個欄位需要基於當前資料和十幾個獨立的原始檔定期整理，整理後的檔案會多出0到n條新資料。目前採用全量更新的方式匯入這些新資料。即，需要提供包括這幾條新資料在內的所有資料的完整檔案。而這個完整檔案，可通過以下程式碼自動生成。（很簡單的一個VBA小段程式）Sub creat

Python小工具，長圖另存為pdf

在網上了一個長的圖片，結果發現沒有一個合適的工具，將長圖先批量擷取為4:3格式，儲存到指定地點，然後儲存為pdf 程式碼： from reportlab.lib.pagesizes import portrait from reportlab.pdfgen import canvas i

Python + Selenium + AutoIt 模擬鍵盤實現另存為、上傳、下載操作詳解

前言在web頁面中，可以使用selenium的定位方式來識別元素，從而來實現頁面中的自動化，但對於頁面中彈出的檔案選擇框，selenium就實現不了了，所以就需引用AutoIt工具來實現。 AutoIt介紹 AutoIt簡單介紹下，AutoIt 目前最新是v3版本，這是一個使用類似BASIC指令碼語言的免費

Python日記——用Django做一個簡易的知乎日報API

現在我主要教大家如何去實戰，做一個簡易的知乎日報API 首先你要熟悉django的基本用法，會寫模型，會寫檢視函式，會配置url 1.配置字元編碼因為我們等一下要使用中文，所以要先設好字元編碼在settings.py裡將LANGUAGE_CODE

Python之Excel圖片處理（將excel chart另存為圖片）

Python之Excel chart另存為圖片大家好，好久沒有更新部落格了，這一段時間有點忙，公司接觸到了大量的excel檔案處理，現將自己在工作中積累的經驗分享大家，供大家參考學習。業務說明：這段時間我主要做的工作有：解析excel，將目

Python 3實現把各個Sheet另存為單獨的Excel

寫入 i+1 num desc () esc auth load dsd # -*- coding: utf-8 -*- # @Time : 2019/1/16 12:55 # @Author : Philly # @File : sdsd.

python獲取知乎日報另存為txt檔案

相關推薦