1. 程式人生 > >爬蟲:新浪詳情新聞爬取總結

爬蟲:新浪詳情新聞爬取總結

url=

http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml

需求是獲取新聞內容,圖片,視訊,並記錄媒體檔案的位置。

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id")

1.xpath 的 videoList0 記錄是否有視訊,如果有視訊,則返回element元素。

2. 根據element 元素,在response內容用正則提取vid

3.

res = requests.get('http://news.sina.com.cn/s/wh/2018-01-12/doc-ifyqptqv8231178.shtml')

resp = res.content.decode()

pat = re.compile(r'video_id: (\d+?),')

res = etree.HTML(resp)

con = res.xpath("//a[@class='source']/text() | //div[@id='article' or @id='artibody']/p/text() | //div[@class='img_wrapper']//img/@src | //div[@id='videoList0']/@id"
) for i in con: if i == 'videoList0': pat = re.compile(r'video_id: (\d+?),') i = '/data/videos/...' print(i) print(pat.findall(resp))
澎湃新聞
/data/videos/...
  原標題:
女子:不公開道歉,洩露個人隱私還要起訴狗主人
  封面新聞訊(見習記者田之路何方迪記者李逢春)12日上午,封面新聞記者和沸沸揚揚的“疑索酬不成摔死小狗”一事當事人小吳取得聯絡,小吳詳細講述了凌晨在派出所對方道歉的一些細節。整個過程中,龍泉警方積極組織雙方見面,妥善處理此事。
http://n.sinaimg.cn/news/transform/w550h401/20180112/jfMB-fyqnick9907892.jpg
  12日臨近中午,經過記者努力,終於第一次和何某一方進行了聯絡,不過站出來迴應此事的並非何某本人。何某一方表示,此事不準備公開道歉,小吳洩露了他們的個人隱私,他們要去法院起訴。
  12日上午,記者一直撥打何某的電話,但仍無法接通。最終,記者通過電話和何某的老公取得了聯絡,這也是此事引發全國網友關注後,何某一方首次站出來面對媒體說幾句。
  不過,何某的老公顯然很抗拒媒體來採訪此事,表示希望私下解決此事,不會像小吳要求的那樣公開道歉。
  記者表明身份後,他表示:“請你們跟警方聯絡,我們也在積極配合。”“那就這樣子吧……”隨後結束通話了電話。
責任編輯:桂強 
['253193142']