一個簡書的爬蟲，可以設定頁碼，抓取文章標題、簡介以及連結

阿新 • • 發佈：2018-11-03

 1 #coding=utf-8
 2 import requests
 3 from bs4 import BeautifulSoup
 4 
 5 m=input("請輸入想要抓取的頁碼數量:")
 6 for i in range(1,int(m)):
 7     url="https://www.jianshu.com/?page="+str(i)
 8     headers={
 9         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0',
10         ' 
Accept': 'text/html, */*; q=0.01',
11         'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
12         'Accept-Encoding': 'gzip, deflate',
13         'Referer': 'https://www.jianshu.com/',
14         'X-INFINITESCROLL': 'true',
15         'X-Requested-With': 'XMLHttpRequest',
 
16         'Connection': 'close',
17         }
18     html=requests.get(url=url,headers=headers)
19     soup = BeautifulSoup(html.text.encode(html.encoding).decode('utf-8'), 'html.parser')
20     # 以格式化的形式列印html
21     #print(soup.prettify())
22     titles = soup.find_all('a', 'title')
23     titlesp = soup.find_all(' 
p', 'abstract')
24     with open(r"./文章簡介.txt","a",encoding='utf-8') as file:
25         for (title,titlep) in zip(titles,titlesp):
26             file.write(title.string+'\n')
27             file.write(titlep.string+'\n')
28             file.write("https://www.jianshu.com" + title.get('href')+'\n\n')</code>
29 
30 print("執行完畢，儲存在目錄：./文章簡介.txt")

環境：python3

模組：requests、bs4

一個簡書的爬蟲，可以設定頁碼，抓取文章標題、簡介以及連結

1 #coding=utf-8 2 import requests 3 from bs4 import BeautifulSoup 4 5 m=input("請輸入想要抓取的頁碼數量:") 6 for i in range(1,int(m)): 7 url="https://ww

專訪簡書劉英滕 | 未來，以「產品設計」定位自己的設計師會越來越多

“我是劉英滕，目前在簡書任產品設計師，主要負責簡書 App 和網頁的產品叠代、增長方面的設計，同時也參與一部分產品經理的工作。” 隨著Mockplus三周年原型設計大賽接近尾聲，越來越多的參賽者呼籲：是否有機會和大賽評委進行直接的交流

Pdf怎麼設定頁碼，從正文開始

　　臨近畢業了，許多小夥伴們都在準備畢業論文，很多學校老師要求畢業論文製作成pdf檔案格式，所以最近有許多朋友問小編pdf怎麼設定頁碼從正文開始。所以今天小編在這裡就給大家介紹一下具體應該如何操作。　　1、開啟pdf檔案後，首先PDF編輯器的介面上方找到文件按鈕，然後選擇其中的更多頁面，在更多頁面中的選項中找

wps設定頁碼，從某一頁重新開始編號

很多時候，目錄跟正文的頁碼是分開編號的，即目錄首頁為1，正文首頁也為1，此時就需要在正文部分重新設定頁碼編號，這在wps中非常簡單： 1、先插入頁碼，“章節”-“頁碼”-選擇一種頁碼佈局 2、定位到要重新編碼的那一頁，雙擊頁碼，進入編輯模式，選擇“修改頁碼”，“應用範圍”選

SuperSpider(簡書爬蟲JAVA版)

list 創建 ans sse connect mov format fill asn * 建站數據SuperSpider（簡書）* 本項目目的：* 為練習web開發提供相關的數據；* 主要數據包括：* 簡書熱門專題模塊信息、對應模塊下的熱門文章、* 文章的詳細信息、作

jquery操作select(取值，設定選中，級聯）

最近一直與select打交道，因此記錄下常用的基本方法。比如 1、設定value為pxx的項選中 $(".selector").val("pxx"); 2、設定text為pxx的項選中 $(".selector").find("option[text='pxx']"

centOS7.3新安裝後，設定IP，以及Putty遠端和Xshell遠端（學習是個持續的過程，也許中途放鬆過，但是仍然能重新撿起來，並學以致用，方為真勇士）

有一段時間沒有寫學習心得了；現在開始加油，再接再勵。從最基礎的開始 1.安裝centOS7.3之後設定IP地址。一般linux的系統都是作為伺服器的系統來使用，伺服器的屬性註定了他的IP不能隨意的更變，所以需要設定一個固定的IP地址。一般centos系統安裝完成後，IP都是通過dhcp來獲得的。所以

學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

爬取東方財富網文章標題和正文並儲存的程式碼。自己知道寫的很爛，不過主要是為了自己備忘，也為了以後回頭看看自己的爛作品，哈哈哈。 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import B

loadrunner-錄製指令碼，設定代理，引數化，校驗點，關聯

詳細記錄一個指令碼製作過程相關知識點製作指令碼因為要做網頁所以選擇web協議，根據實際需要選擇選擇瀏覽器地址，開啟的網頁網址，指令碼儲存地址以及初始化指令碼，初始化指令碼的目的是執行用例後不再執行此指令碼中的內容，一般存放登入等準備操

綜合使用python爬蟲技術，selenium模組動態抓取“視覺中國”網站上的圖片的url

一、匯入模組 import time from selenium import webdriver from lxml import etree 本文章純粹用來練手，於是我使用了etree,其實光使用find_elements…的方法也可以二、開始幹活 1.

獲取cookie，設定cookie，刪除cookie

//獲取cookie export const getCookie = (name) => { var arr, reg = new RegExp("(^| )" + name + "=([^;]*)(;|$)"); if (arr = docume

centOS7.3新安裝後，設定IP，以及Putty遠端和Xshell遠端（學習是個持續的過程，也許中途放鬆過，但是仍然能重新撿起來，並學以致用，方為真勇士）

有一段時間沒有寫學習心得了；現在開始加油，再接再勵。從最基礎的開始 1.安裝centOS7.3之後設定IP地址。一般linux的系統都是作為伺服器的系統來使用，伺服器的屬性註定了他的IP不能隨意的更變，所以需要設定一個固定的IP地址。一般centos系統安裝完成後，IP都是通過dhcp來獲得的。所以我們需

爬蟲--python3.6+selenium+BeautifulSoup實現動態網頁的資料抓取，適用於對抓取頻率不高的情況

說在前面：本文主要介紹如何抓取頁面載入後需要通過JS載入的資料和圖片本文是通過python中的selenium（pyhton包） + chrome（谷歌瀏覽器） + chromedrive（谷歌瀏覽器驅動） chrome 和chromdrive建議都下最新版本（參考地址：https://blog.c

Python爬蟲入門教程，突破煎蛋網反爬措施，妹子圖批量抓取！

今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用 selenium 在揍他一波。

使用NPOI 匯出EXCEL，設定樣式，字型等

MemoryStream ms = new MemoryStream(); XSSFWorkbook workbook = new XSSFWorkbook();//建立Workbook物件 for (int i = 0; i < l

安裝抓包軟體Charles並破解，設定手機能抓HTTPS的包（Win 7環境）

一、安裝Charles並破解 1.開啟官網，下載安裝包。本文是下載的win64位的安裝包 https://www.charlesproxy.com/download/ 2. 安裝完成後，有30天的免費試用提醒 3.開啟下面的網址，選擇線上破解： h

php-curl（模擬post，設定header，接收json資料）

CURL模擬POST請求 curl可以使用url的方式來模擬瀏覽器傳輸資料，是很有用的一個功能。 curl的操作可以分為4步： 1、初始化：curl_init() 2、設定屬性值：curl_setopt() 3、執行：curl_exec() 4、退出關

Excel VBA自動建立sheet，設定字型，單元格顏色和邊框

1 Sub link() 2 Dim num, sheetname 3 4 Worksheets(1).Select 5 6 num = WorksheetFunction.CountA(Columns("c

Linux（CentOS）下，設定NAT，訪問內網伺服器

首先，要開啟Linux核心的轉發資料包的功能，也就是將/proc/sys/net/ipv4/ip_forward裡的值設定為1。可以這樣做：# echo 1 > /proc/sys/net/ipv4/ip_forward 重啟網路服務（service network

為你的簡書和 GitHub 設定個性域名

「部落格搬家」新地址: 簡書首先對比技術類部落格網站： CSDN 的寫作體驗很好，但是釋出的文章呈現效果很差，但是有個優點：使用者名稱作為 CSDN 的子目錄，即變相實現個性域名，比如我的CSDN域名是：http://blog.csdn.net

一個簡書的爬蟲，可以設定頁碼，抓取文章標題、簡介以及連結

相關推薦