aiohttp的模板

阿新 • • 發佈：2018-12-25

 1 import aiohttp
 2 import asyncio
 3 import async_timeout
 4 from urllib.parse import urljoin,urldefrag
 5 
 6 root_url = 'http://python/org/'  # 開始的url
 7 crawled_urls,url_hub = [], [root_url]
 8 headers = {'user-agent': 'Opera/9.80 (X11; Linux x86_64; U; en) Presto/2.2.15 Version/10.10'}
 9 
10 async def 
 get_body(url):
11     async with aiohttp.ClientSession() as session:
12         try:
13             with async_timeout.timeout(10): #超時時間的設定
14                 async with session.get(url,headers=headers) as response:
15                     if response.status == 200:
16                         html = await response.text()
 
17                         return {'error':'','html':html,'url':url}
18                     else:
19                         return {'error':response.status,'html':'','url':url}
20         except Exception as err:
21             return {'error':response.status,'html':'','url':url}
22 
23 async def handle_task(task_id,work_queue):
 
24     while not work_queue.empty():
25         queue_url = await work_queue.get()
26         if not queue_url in crawled_urls:
27 
28             body = await get_body(queue_url)
29             if not body['error']:
30                 crawled_urls.append(queue_url)
31                 parse(body)
32             else:
33                 print('{}爬取失敗'.format(queue_url))
34 
35 
36 #解析返回的資料
37 def parse(body):
38     pass
39 
40 
41 
42 def remove_fragment(url):
43     pure_url, frag = urldefrag(url)
44     return pure_url
45 
46 #解析html，拼接新的url
47 def get_urls(html):
48     new_urls = [url.split('"')[0] for url in str(html).replace("'", '"').split('href="')[1:]]
49     return [urljoin(root_url, remove_fragment(new_url)) for new_url in new_urls]
50 
51 if __name__ == '__main__':
52     q = asyncio.Queue()  #初始化一個非同步的佇列
53     [q.put_nowait(url) for url in url_hub]  #從初始的url佇列中遍歷，把url放入到佇列中
54     loop = asyncio.get_event_loop()
55     tasks = [handle_task(task_id, q) for task_id in range(3)]  #3個併發
56     loop.run_until_complete(asyncio.wait(tasks))
57     loop.close()
58     for u in crawled_urls:
59         print(u)
60     print('-' * 30)
61     print(len(crawled_urls))

View Code

aiohttp的模板

1 import aiohttp 2 import asyncio 3 import async_timeout 4 from urllib.parse import urljoin,urldefrag 5 6 root_url = 'http://python/org/'

(最短路徑算法整理)dijkstra、floyd、bellman-ford、spfa算法模板的整理與介紹

void empty borde fast 默認 grand else 理解 scan 這一篇博客以一些OJ上的題目為載體。整理一下最短路徑算法。會陸續的更新。。。一、多源最短路算法——floyd算法 floyd算法主要用於求隨意兩點間的最短路徑。也成

UVa 11149 矩陣的冪（矩陣倍增法模板題）

ble 化簡 .cn target ans txt put std net https://vjudge.net/problem/UVA-11149 題意：輸入一個n×n矩陣A，計算A+A^2+A^3+...A^k的值。思路：矩陣倍增法。

模板方法

實現使用場景 avi sdn 優勢模板方法模式 spa jsb net 一.使用場景當我們要完畢在某一細節層次一致的一個過程或一系列步驟，但其個別步驟在更具體的層次上的實現可能不同一時候，我們通常考慮用模板方法模式來處理。

紅色的原油投資金融專題模板

baidu lan com pan 專題 img 模板 tar image 鏈接：http://pan.baidu.com/s/1qYk2UU4 密碼：2hfa紅色的原油投資金融專題模板

簡單響應式Bootstrap框架中文官網頁面模板

str 頁面 nbsp 中文技術分享 http images bsp ots 鏈接：http://pan.baidu.com/s/1o7MQ6RC 密碼：kee5簡單響應式Bootstrap框架中文官網頁面模板

dedecms二次開發：dedetemplate.class.php 動態模板類

filename 外部運行 mpi public esc val net color dedecms二次開發目錄點這個：dedecms二次開發教程目錄核心類文件 include/dedetemplate.class.php 用途：用於非核心模塊的動態頁面或列表頁的模板解

【實用】教你如何改造 zblog MIP 模板

swf param 發布分享 targe href 樣式 add mmu 很多人都問過我，咖啡你的MIP主題模板到底怎麽改的。我就和zblog那些開發者交流了下。zblog的MIP改造非常簡單。今天就免費給大家獻上改造方案。好了，直接進入正題！模板文件MIP規範自己改，

婚紗影像攝影類網站模板免費下載

管理文章內容圖片版本 logs 婚紗數據測試單獨模板介紹：織夢最新內核開發的模板，該模板適用於於婚紗影像攝影工作室、設計類企業，dedecms最新版內核開發，原創設計、手工書寫DIV+CSS，首頁圖片帶滾動特效，完美兼容IE7+、Firefox、Chrome

C# 推送模板

doc -1 ges cnblogs images title src target 個推 C#推送模板、安卓個推、消息推送 http://docs.getui.com/server/csharp/template/ C# 推送模板

zabbix用自帶的模板監控mysql

數據庫 mysql 監控先看一下zabbix自帶的mysql模板監控項：#很少是吧，沒事生產環境一般我們不用，下一篇將介紹生產環境用的另一種mysql監控。配置zabbix自帶的模板監控mysql數據庫：本文出自 “王家東哥” 博客，謝絕轉載！zabbix用自帶的模板監控mysql

day39-Spring 12-Spring的JDBC模板：快速入門

pri 哪些困難 ces 5.0 使用只需要 common commons Spring AOP的關鍵是它的底層的原理和思想,配置和使用並不是十分困難.AOP本身就是一個思想,是面向對象的延伸,不是用來替換面向對象的,而是用來解決面向對象中的一些問題的.在最初的時候提出

拓展歐幾裏得模板

ret adding class ont col ext pan int 拓展歐幾裏得數論拓展歐幾裏得，計算mx+ny=d的一組解（m。n為已知） int xx=x+n/d*i; int yy=y-m/d*i;//xx，yy分別為其它通解 void extend_gc

使用模板生成word文檔

dna head exists pri reat tables hang exceptio website 使用poi-tl根據模板生成word文檔，在porm.xml中添加poi-tl依賴，直接上代碼 import java.io.File; import java.i

模板模式

sin namespace 邏輯 tar sta log -a using opened 作用:定義一個操作中的算法的骨架，而將一些步驟延遲到子類中。模板方法使得子類可以不改變一個算法的結構即可重定義該算法的某些特定步驟其關鍵是將通用算法（邏輯）封裝在抽象基類中，並將不同

day39-Spring 16-Spring的JDBC模板：設置參數到屬性文件

pro sna tex rop 幫我 combo odin c3p0連接池 asi <?xml version="1.0" encoding="UTF-8"?>  <beans xmlns="http://

ecshop模板

efault template nbsp tran ecshop模板 top clip drag 手機 admin 網站後臺管理相關 admin 主要是 top，menu，main，drag文件組成， admin-》templates存放HTML文件，default是默

linux環境下部署zabbix3.2、模板、郵件告警詳細過程

-1 ice erer without zlib zip ever native item 服務端部署：系統環境及軟件版本： Linux：release 6.3 zabbix：zabbix-3.2.5.tar.gz nginx：nginx-1.12.0.tar.gz ph

標準模板庫

分組訪問方式 iostream 分享 -1 一個彈出類型中標 -------------------siwuxie095 在長期的編碼中，聰明的程序員們發現：有一些代碼經常碰到，而且需求特別穩定，

aiohttp的模板

相關推薦