活躍度的爬蟲開發（一）

阿新 • • 發佈：2018-12-31

爬蟲最簡單的實現就是一個http連線request,然後解析resposne，最後根據樣式或者什麼規則，進行匹配，然後提取資訊，判斷是否連結其他頁面爬取資訊。

我在GIT上面在寫了一個關於通過關鍵字查活躍度，暫時在優化中，暫時支援CMD查詢。

基礎實現

public SearchDto keyWordSearchTest(String url,String keyWord){
		SearchDto seD=new SearchDto();
		BufferedReader in =null;
		OutputStream outputStream = null;  
		String reasponseStr=null;
		StringBuffer resHtml=new StringBuffer();
		String line;
		try{
			URL realUrl =new URL(url);
			HttpURLConnection urlConnection = (HttpURLConnection) realUrl.openConnection();
			urlConnection.setRequestProperty("Host", "s.tool.chinaz.com");
			urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0");
			urlConnection.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
			urlConnection.setRequestProperty("Accept-Language", "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3");
			//urlConnection.setRequestProperty("Accept-Encoding", "gzip, deflate");
			urlConnection.setRequestProperty("Connection", "keep-alive");
			urlConnection.setRequestProperty("Upgrade-Insecure-Requests", "1");
			urlConnection.setRequestProperty("Accept-Charset", "utf-8");
			urlConnection.setRequestProperty("contentType", "utf-8");
			urlConnection.setDoOutput(true);
			urlConnection.setDoInput(true);
			urlConnection.setRequestMethod("POST");
			
			StringBuffer str =new StringBuffer();
			str.append("Content-Type: application/x-www-form-urlencoded");
			str.append("Content-Length: 23");
			str.append("\"\r\n\r\n");  
			str.append("kw="+keyWord+"&page=1&by=0");
			str.append("\"\r\n\r\n");  
			outputStream=urlConnection.getOutputStream();
			outputStream.write(str.toString().getBytes());
			
			urlConnection.connect();
			in =new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"utf-8"));
			while((line=in.readLine())!=null){
				resHtml.append(line);
			}
			System.out.println(resHtml);
			
		}catch(Exception e){
			e.printStackTrace();
			((org.slf4j.Logger) logger).error(e.getMessage());
		}
		Contanst.RegexString(resHtml.toString(), "");
		
		return null;
	}

基礎實現（用外掛最方便的是就，不用自己去寫那見了的正則，每次寫正則都要翻文件，頭大）

public SearchDto keyWordSearch(String url,String keyWord,SearchDto searchDto){
		CloseableHttpResponse response=null;
		try{
			CloseableHttpClient httpclient = HttpClients.createDefault();
			HttpPost post = new HttpPost(url);
			List<NameValuePair> nvps = new ArrayList <NameValuePair>();  
	        nvps.add(new BasicNameValuePair("kw",keyWord));  
	        nvps.add(new BasicNameValuePair("by","0"));  
	        post.setEntity(new UrlEncodedFormEntity(nvps,Consts.UTF_8));
	        post.setHeader("Host", "s.tool.chinaz.com");
	        post.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0");
	        post.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
	        post.setHeader("Accept-Language", "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3");
	        post.setHeader("Connection", "keep-alive");
	        post.setHeader("Upgrade-Insecure-Requests", "1");
	        post.setHeader("Accept-Charset", "utf-8");
	        post.setHeader("contentType", "utf-8");
	        response = httpclient.execute(post);
	        String htmlStr = EntityUtils.toString(response.getEntity());
	        //System.out.println(htmlStr);
	        Document  doc =Jsoup.parse(htmlStr);
	        System.out.println("================");
	        Elements result=doc.select(".ResultListWrap ");
	        Elements resultList = result.select(".CiListCent.CiRLlist");
	        String keyName=null;
	        for( org.jsoup.nodes.Element element: resultList){
	        	Elements urlList = element.select("a[href]");
        		keyName=urlList.get(0).text();
        		//0 為NAME  3為整體指數  4為PC指數   5移動指數  6 為收錄量   7為收錄首位
        		if(keyWord.equals(keyName)){
        			searchDto.setAllIndex(urlList.get(3).text());
        			searchDto.setPcIndex(urlList.get(4).text());
        			searchDto.setMoveIndex(urlList.get(5).text());
        			searchDto.setCollNum(urlList.get(6).text());
        			searchDto.setWebFirst(urlList.get(7).text());
        			break;
        		}
	        }
	       // System.out.println(resultList.toString());
		}catch(Exception e){
			logger.error("a");
		}finally {
            try {
				response.close();
			} catch (IOException e) {
				logger.error(e.getMessage());
			}
        }
		
		return null;
    }

活躍度的爬蟲開發（一）

爬蟲最簡單的實現就是一個http連線request,然後解析resposne，最後根據樣式或者什麼規則，進行匹配，然後提取資訊，判斷是否連結其他頁面爬取資訊。我在GIT上面在寫了一個關於通過關鍵字查活躍度，暫時在優化中，暫時支援CMD查詢。

android的百度地圖開發（一）

one rst dir 還要遠程服務存儲返回 src copy 1，註冊百度開發者賬號 2，申請key ,註意開發版SH和發布版的SH 獲取開發版SHA1: 輸入命令:keytool -list -v -keystore debug.keystore，回車輸入密鑰

Python爬蟲開發（一）：零基礎入門

0×00 介紹本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並

Android 百度地圖開發（一）如何呼叫百度地圖介面和在專案中顯示百度地圖以及實現定位

二、下載百度地圖API庫然後新增到專案中即可。三、在專案清單AndroidMainifest.xml配置百度地圖API key和新增相關許可權四、在專案呼叫百度地圖專案功能，這篇文章就首先講講顯示地圖和定位的功能首先

Android百度地圖開發（一）:地圖下載與配置

轉載請標明出處弄了不久，也算是入門百度地圖的開發了，基本的實現並不難，接下來說下基本步驟： 1：註冊百度賬號並進入官網：http://lbsyun.baidu.com/index.php?title=androidsdk，按提示完成基本驗證就可進入如下頁

Android百度地圖開發（一）之初體驗

做關於位置或者定位的app的時候免不了使用地圖功能，本人最近由於專案的需求需要使用百度地圖的一些功能，所以這幾天研究了一下，現寫一下blog記錄一下，歡迎大家評論指正！一、申請AK（API Key）要想使用百度地圖sdk，就必須申請一個百度地圖的api key

python一行程式碼實現百度翻譯和有道翻譯結果獲取-----py學習爬蟲歷程（一）

更新（18-6-2）：利用requests庫只需一行程式碼就可以獲取結果，程式碼在最後前言：本文參考於https://blog.csdn.net/c406495762/article/details/59095864一．本節主要用到的知識1-1：urllib.request.

結合百度雲平臺和微信公眾平臺進行開發（一）

套話大話我就不說了，網上一大堆，我們就直接進入正題吧，相信對百度雲平臺和微信公眾平臺沒有了解的也不會關注這篇文章。上面的標題到底是個什麼意思呢？下面讓我們一步一步來完成一個測試小專案。兩者是怎樣結合的？利用百度雲平臺執行我們自己的服務端專案，在平臺上線執行。利

python爬蟲系列（一）百度首頁爬取

前言經受不住爬蟲技術的吸引，為此決定踏入”爬蟲”這條不歸路。爬蟲介紹其實在我眼裡，爬蟲無非所見即所得，也就是一切皆可爬。至於url技術和python環境在此就不重複。在此使用urllib庫進行初步學習。 python:2.7 初次嘗試

NIO原理剖析與Netty初步----淺談高性能服務器開發（一）

返回創建基於 register 訪問 io操作 nbsp info class 除特別註明外，本站所有文章均為原創，轉載請註明地址在博主不長的工作經歷中，NIO用的並不多，由於使用原生的Java NIO編程的復雜性，大多數時候我們會選擇Netty，m

淺談WebService開發（一）轉

man att set style 訪問 row nag 序列 ros 一、什麽是WebService：簡單通俗來說，就是企業之間、網站之間通過Internet來訪問並使用在線服務，一些數據，由於安全性問題，不能提供數據庫給其他單位使用，這時候可以使

微信公眾號開發（一）

jpg 解壓 china arc 公眾平臺開發技術分享更換微信公眾號 4.1 示例代碼設置首先下載此處的php接入代碼，在公眾號中配置 url 地址指向文件代碼只需更換自定義的token 即可這樣就完成最初的接入微信公眾平臺提供了一個php示例

從零開始學習OpenCL開發（一）架構

處理器多媒體 c++ stl context 實驗通用必看是你同時存在 1 異構計算、GPGPU與OpenCL OpenCL是當前一個通用的由很多公司和組織共同發起的多CPU\GPU\其他芯片異構計算（heterogeneous）的標準，它是跨平臺的。旨在充

基於itchat的微信群聊小助手基礎開發（一）

log 表達式數據包 gin 找到 ont 基本時間 msg 前段時間由於要管理微信群，基於itchat開發了一個簡單的微信機器人主要功能有：圖靈機器人功能群聊昵稱格式修改提示消息防撤回功能鬥圖功能要開發一個基於itchat的最基本的聊天機器人，

Android studio 百度地圖開發（2）地圖定位

gcj02 settings tick all adding ext tope wid erro Android studio 百度地圖開發（2）地圖定位 email:[email protected]/* */ 開發環境：win7 64位

Superset 開發（一）添加一個頁面

rate rst view key pri pre span bsp interface superset\models\core.py 下進行添加模型 class ExeclInfoAdd(Model): __tablename__ = ‘ExeclInfoAd

Python自動化開發（一）【未完待續】

urn sts dha sel def open entos div 初始 1、創建項目　　 2、創建models from django.db import models # Create your models here. # 主機表 class Host(m

OpenCV iOS開發（一）——安裝(轉)

osi ctu ren png object-c 下載 eww load 信息 OpenCV是一個開源跨平臺的的計算機視覺和機器學習庫，可以用來做圖片視頻的處理、圖形識別、機器學習等應用。本文將介紹OpenCV iOS開發中的Hello World起步。

Python爬蟲系列（一）：從零開始，安裝環境

tar 公司 pip nal 網頁解析目標 http caption 在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找

android的百度地圖開發（二）定位

頻率 update 殺死一次 ddr animate 語義 pri des 參考：http://blog.csdn.net/mr_wzc/article/details/51590485 第一步，初始化LocationClient類 //獲取地圖控件引用

活躍度的爬蟲開發（一）

相關推薦