Scrapy爬取攜程桂林問答

阿新 • • 發佈：2018-12-24

guilin.sql：

CREATE TABLE `guilin_ask` (
  `id` INT(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵',
 `question` VARCHAR(255) DEFAULT NULL COMMENT '問題的標題',
 `full_question` VARCHAR(255) DEFAULT NULL COMMENT '問題的詳情',
 `keyword` VARCHAR(255) DEFAULT NULL COMMENT '關鍵字',
 `ask_time` VARCHAR(255) DEFAULT NULL COMMENT '提問時間',
 `accept_answer` TEXT COMMENT '提問者採納的答案',
 `recommend_answer` TEXT COMMENT '旅遊推薦的答案',
 `agree_answer` TEXT COMMENT '贊同數最高的答案',
 PRIMARY KEY (`id`),
 UNIQUE KEY `question` (`question`)
) ENGINE=INNODB DEFAULT CHARSET=utf8 COMMENT='桂林_問答表'

guilin.py：

# -*- coding: utf-8 -*-

import scrapy
from scrapy import Request


from QuestionAndAnswer.items import QuestionandanswerItem
from pyquery import PyQuery as pq


class GuilinSpider(scrapy.Spider):
 name = 'guilin'
 allowed_domains = ['you.ctrip.com']

 def start_requests(self):
 # 重寫start_requests方法
 ctrip_url = "http://you.ctrip.com/asks/search/?keywords=%e6%a1%82%e6%9e%97&type=2"
 # 攜程~攻略~問答~桂林~已回答問題

 yield Request(ctrip_url, callback=self.list_page)

 def list_page(self, response):
 result = pq(response.text)
 # 呼叫pyquery.PyQuery
 result_list = result(".cf")
 # 問題列表
 question_urls = []
 # 問題連結列表
 for ask_url in result_list.items():
 question_urls.append(ask_url.attr("href"))
 while None in question_urls:
 question_urls.remove(None)
 # 去除None

 for url in question_urls:
 yield response.follow(url, callback=self.detail_page)

 result.make_links_absolute(base_url="http://you.ctrip.com/")
 # 把相對路徑轉換成絕對路徑
 next_link = result(".nextpage")
 next_url = next_link.attr("href")
 # 下一頁
 if next_url is not None:
 # 如果下一頁不為空
 yield scrapy.Request(next_url, callback=self.list_page)

 def detail_page(self, response):
 detail = pq(response.text)
 question_frame = detail(".detailmain")
 # 問答框

 for i_item in question_frame.items():
 ask = QuestionandanswerItem()
 ask["question"] = i_item(".ask_title").text()
 ask["full_question"] = i_item("#host_asktext").text()
 ask["keyword"] = i_item(".asktag_oneline.cf").text()
 ask["ask_time"] = i_item(".ask_time").text().strip("發表於")
 ask["accept_answer"] = i_item(".bestanswer_con > div > p.answer_text").text()
 ask["recommend_answer"] = i_item(".youyouanswer_con > div > p.answer_text").text()
 ask["agree_answer"] = i_item("#replyboxid > ul > li:nth-child(1) > div > p.answer_text").text()
 yield ask

items.py：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class QuestionandanswerItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()

 question = scrapy.Field()
 # 問題的標題
 full_question = scrapy.Field()
 # 問題的詳情
 keyword = scrapy.Field()
 # 關鍵字
 ask_time = scrapy.Field()
 # 提問時間
 accept_answer = scrapy.Field()
 # 提問者採納的答案
 recommend_answer = scrapy.Field()
 # 旅遊推薦的答案
 agree_answer = scrapy.Field()
 # 贊同數最高的答案

MySQLPipline.py：

from pymysql import connect


class MySQLPipeline(object):
    def __init__(self):
 self.connect = connect(
 host='192.168.1.108',
 port=3306,
 db='scrapy',
 user='root',
 passwd='[email protected]',
 charset='utf8',
 use_unicode=True)
 # MySQL資料庫
 self.cursor = self.connect.cursor()
 # 使用cursor()方法獲取操作遊標

 def process_item(self, item, spider):
 self.cursor.execute(
 """select * from guilin_ask WHERE question = %s""",
 item['question'])
 # 是否有重複問題
 repetition = self.cursor.fetchone()

 if repetition:
 pass
 # 丟棄

 else:
 self.cursor.execute(
 """insert into guilin_ask(
question, full_question, keyword, ask_time, accept_answer, recommend_answer, agree_answer) 
VALUE (%s, %s, %s, %s, %s, %s, %s)""",
 (item['question'],
 item['full_question'],
 item['keyword'],
 item['ask_time'],
 item['accept_answer'],
 item['recommend_answer'],
 item['agree_answer']
 ))
 # 執行sql語句，item裡面定義的欄位和表字段一一對應
 self.connect.commit()
 # 提交
 return item
 # 返回item

 def close_spider(self, spider):
 self.cursor.close()
 # 關閉遊標
 self.connect.close()
 # 關閉資料庫連線

Scrapy爬取攜程桂林問答

guilin.sql： CREATE TABLE `guilin_ask` ( `id` INT(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵', `question` VARCHAR(255) DEFAULT NULL COM

python中scrapy框架爬取攜程景點資料

--------------------------------------------------------------------------------------------- [版權申明：本文系作者原創，轉載請註明出處] 文章出處：https://blog.cs

Python爬取攜程旅遊行程資訊+GIS視覺化

一、需求：爬取攜程旅行網的“北京推薦行程”首頁的各個行程文章，將各個行程所包含的景點資訊提取出來，並匯入ArcGIS進行GIS視覺化。二、爬取思路：爬取北京推薦行程主頁的各個文章的URL，然後通過該URL爬取出行程文章的資料

爬蟲 — 爬取攜程的航班資訊

功能介紹：輸入起點、終點、時間就能得到攜程上的航班資訊程式碼： from prettytable import PrettyTable import requests import json def xiecheng(dcity,acity,date):

利用selenium爬取攜程酒店資訊

上節部落格我們利用requests請求庫，正則表示式來提取資訊（連結https://mp.csdn.net/postedit/81865681），提到過使用selenium也可以抓取酒店資訊，在這裡利用selenium模組優點是不需要資料處理過濾，只需要處理異常，（實際上也是一樣的效果）但是對於

python爬取攜程酒店資料

首先開啟攜程所有北京的酒店http://hotels.ctrip.com/hotel/beijing1 簡簡單單，原始碼中包含我們需要的酒店資料，你以為這樣就結束了？攜程的這些資料這麼廉價地就給我們得到了？事實並不是如此，當我們點選第二頁的時候出現問題：雖然酒店的資料改變了，但是我們發現

爬取攜程頁面酒店資訊並且匯入到HDFS

package com.itstar.util; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io

Java資料爬取——爬取攜程酒店資料（二）

1.首先思考怎樣根據地域獲取地域酒店資訊，那麼我們看一下攜程上是怎樣獲得的。還是開啟http://hotels.ctrip.com/domestic-city-hotel.html 這個地址，隨便點選一個地區進去（這裡我選取澳門作為示例），點選第二頁資料

爬取攜程和螞蜂窩的景點評論資料\攜程評論資料爬取\旅遊網站資料爬取

本人長期出售超大量微博資料、旅遊網站評論資料，並提供各種指定資料爬取服務，Message to [email protected]。同時歡迎加入社交媒體資料交流群：99918768 前言為了獲取多源資料需要到各個網站獲取一些景點的評論資訊

使用requests、re、BeautifulSoup、線程池爬取攜程酒店信息並保存到Excel中

備案 info imp lis sub host write count star import requests import json import re import csv import threadpool import time, random

scrapy爬取知乎問答

登陸參考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time import re import base64 import hmac import hashlib impor

【實戰】scrapy 爬取果殼問答！

引言學爬蟲的同學都知道，Scrapy是一個非常好用的框架，可以大大的簡化我們編寫程式碼的工作量。今天我們就從使用Scrapy爬取果殼問答。需求分析爬取果殼問答中精彩回答的標題和答案。知識點爬取資料：Scrapy 資料庫：Mongo 建立專案

通過scrapy，從模擬登入開始爬取知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。首先，我們需要知道，想要爬取知乎上面的資料，第一步肯定是登入，所以我們先介紹一下模擬登入：先說一下我的思路： 1.首先我們需要控制登入的入口，重寫start_requests方法。來控制到這個入口之後，使用

scrapy爬取中關村在線手機頻道

tex ice extract base .section title .html release nbsp 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from pyquery import PyQuery as pq

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

scrapy爬取小說盜墓筆記

xtra pipeline odin trac items style ict ref open # -*- coding: utf-8 -*- import scrapy import requests from daomu.items import DaomuItem

scrapy爬取西刺網站ip

close mon ins css pro bject esp res first # scrapy爬取西刺網站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem clas

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

Scrapy爬取攜程桂林問答

相關推薦