1. 程式人生 > >抓取網頁資料並解析Android

抓取網頁資料並解析Android

這天遇到這樣一個需求:這種頁面資料可以抓取嗎?


隨後提供了賬號、密碼和網站地址:

帳號:kytj1    

密碼:******************    

登陸地址:http://student.tiaoji.kaoyan.com/tjadm

主要思路:

1、使用Fiddler4分析http請求互動方式,包括資料傳送方式(POST或GET),攜帶引數等,獲得返回的資料資訊

2、用Android程式模擬HTTP請求

3、用Java解析HTML程式碼,提取出對應的姓名、報考學校、報考專業、分數、聯絡電話、釋出時間等欄位

4、把txt檔案匯入到Excel裡,待進一步處理。

用Fiddle檢視資料包

1、開啟Fiddler


2、開啟網站,填入使用者名稱和密碼,點選登入

登陸地址:http://student.tiaoji.kaoyan.com/tjadm


3、觀察Filldder抓到的包

可以看到HOST、URL、POST方式以及明文密碼



4、觀察網頁資料

登入成功後,網頁資料顯示為


   對應的Filldder抓包資料為

可以看到請求的HOST以及URL,方式為GET,返回的資料也可以在body體中獲取到。

5、HTML程式碼

返回的HTML頁面程式碼為(選取了部分)

  1. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
    >
  2. <htmlxmlns="http://www.w3.org/1999/xhtml">
  3. <head>
  4. <metahttp-equiv="Content-Type"content="text/html; charset=utf-8"/>
  5. <metaname="viewport"content="width=device-width, initial-scale=1.0, maximum-scale=3.0,user-scalable=no ">
  6. <title>考研調劑中心_考研調劑意向釋出系統_考研調劑_考研網(kaoyan.com)
    </title>
  7. <metaname="description"content=""/>
  8. <linkrel="stylesheet"type="text/css"href="http://img.kaoyan.com/tiaoji/css/tiaoji-h5.css"/>
  9. <linkhref="http://img.kaoyan.com/global/style/header.css"rel="stylesheet">
  10. <linkhref="http://img.kaoyan.com/yz/style/yz.index.css"rel="stylesheet">
  11. <scripttype='text/javascript'src='http://cbjs.baidu.com/js/m.js'></script>
  12. </head>
  13. <body>
  14. <divclass="kyHd">
  15.     <divclass="kyTop">
  16.         <scriptsrc="http://img.kaoyan.com/www/header-tiaoji.js"type="text/javascript"></script>
  17.         <scriptsrc="http://img.kaoyan.com/www/headera.js"type="text/javascript"></script>
  18.     </div>
  19. </div>
  20. <divstyle="height:10px;"></div>
  21. <divclass="w1000ad tc">
  22.     <scripttype="text/javascript">/*考研網-大通欄-通用*/var cpro_id = "u1773335";</script>
  23.     <scriptsrc="http://cpro.baidustatic.com/cpro/ui/c.js"type="text/javascript"></script>
  24. </div>
  25. <ulclass="nav"id="tjNav">
  26.     <li><ahref="http://tiaoji.kaoyan.com/"title="考研調劑首頁">調劑首頁</a></li>
  27.     <li><ahref="http://www.kaoyan.com/kaoyan/27/474572/"title="考研調劑流程"target="_blank">調劑流程</a></li>
  28.     <li><ahref="http://www.kaoyan.com/tiaoji/xinxi/"title="考研調劑資訊">調劑資訊</a></li>
  29.     <li><ahref="http://tiaoji.kaoyan.com/xinwen/"title="考研調劑新聞">調劑新聞</a></li>
  30.     <li><ahref="http://tiaoji.kaoyan.com/jingyan/"title="考研調劑經驗">調劑經驗</a></li>
  31.     <li><ahref="http://tiaoji.bbs.kaoyan.com/"title="考研調劑論壇"target="_blank">調劑論壇</a></li>
  32. </ul>
  33. <divclass="courseArea">
  34.     <ulclass="tjPicAd mt10 clear">
  35.         <li><scripttype="text/javascript">BAIDU_CLB_fillSlot("850729");</script></li>
  36.         <li><scripttype="text/javascript">BAIDU_CLB_fillSlot("850747");</script></li>
  37.         <li><scripttype="text/javascript">BAIDU_CLB_fillSlot("850763");</script