萌新爬蟲瑟瑟發抖1(指令碼)

阿新 • • 發佈：2019-01-01

from bs4 import BeautifulSoup
import requests

url_saves = 'https://cn.tripadvisor.com/Saves#37685322'
url = 'https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html'
urls = ['https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html#ATTRACTION _LIST'.format(str(i)) for i in range(30,930,30)]

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'
    'Cookie':'TAUnique=%1%enc%3AdibCuK98eOf%2FIbRWllITfZBr1qC4reTpbZRzaJW8tbc2jHwltRJPGQ%3D%3D; TASSK=enc%3AANgIRvpTIdCO%2FoPg9knSqh1eKOkT6rvwmIKbn0sozrNyLpNibUPy7wiOc%2FZYxt9R4DZAT%2B4FhaQh06nUuLbbEXod61MPl9xftla4pXiPR41%2F%2BiFgd%2Fw9Qzua5Cl3ldTi3A%3D%3D; TAPD=tripadvisor.cn; __gads=ID=2d5d89279523853f:T=1512888157:S=ALNI_MYpgmD_FsQfll6r9om0JEmKpro3aw; ki_t=1512478874932%3B1512998357506%3B1512998513381%3B3%3B4; ki_r=; ServerPool=B; TATravelInfo=V2*A.2*MG.-1*HP.2*FL.3*RVL.60763_346l105127_346*RS.1; TAReturnTo=%1%%2FAttraction_Review-g60763-d105127-Reviews-Central_Park-New_York_City_New_York.html; roybatty=TNI1625!AGJVA9rBu7V97HCM%2FYnOBXB3CcRSgplT0OKBLyaYV3QjKv4mt4bFLICfnUdWu5uvG3dz2TWp%2FF%2BgppHy5kTIAFChPFs4fsiggM2zo1L1%2FczHDOpirx4ZXxES%2FagOtHJEZr5B2hOdymscD4UG9j6Pi2NzCkrnbosnnNI0eTUHNEC%2F%2C1; _ga=GA1.2.1995199171.1512478869; _gid=GA1.2.120677595.1512998346; TASession=%1%V2ID.EEB4B71284DEBC505463D3A309A2DABA*SQ.8*LP.%2FAttractions-g60763-Activities-New_York_City_New_York%5C.html*LS.Attraction_Review*GR.21*TCPAR.38*TBR.34*EXEX.66*ABTR.87*PHTB.36*FS.42*CPU.18*HS.recommended*ES.popularity*AS.popularity*DS.5*SAS.popularity*FPS.oldFirst*LF.zhCN*FA.1*DF.0*MS.-1*RMS.-1*FLO.60763*TRA.true*LD.105127; CM=%1%HanaPersist%2C%2C-1%7CPremiumMobSess%2C%2C-1%7Ct4b-pc%2C%2C-1%7CHanaSession%2C%2C-1%7CRestAds%2FRPers%2C%2C-1%7CRCPers%2C%2C-1%7CWShadeSeen%2C%2C-1%7CFtrPers%2C%2C-1%7CTheForkMCCPers%2C%2C-1%7CHomeASess%2C%2C-1%7CPremiumSURPers%2C%2C-1%7CPremiumMCSess%2C%2C-1%7CCpmPopunder_1%2C1%2C1513084733%7CRestPremRSess%2C%2C-1%7CCCSess%2C%2C-1%7CPremRetPers%2C%2C-1%7CViatorMCPers%2C%2C-1%7Csesssticker%2C%2C-1%7CPremiumORSess%2C%2C-1%7Ct4b-sc%2C%2C-1%7CRestAdsPers%2C%2C-1%7CMC_IB_UPSELL_IB_LOGOS2%2C%2C-1%7Cb2bmcpers%2C%2C-1%7CMC_IB_UPSELL_IB_LOGOS%2C%2C-1%7CPremMCBtmSess%2C%2C-1%7CPremiumSURSess%2C%2C-1%7CLaFourchette+Banners%2C%2C-1%7Csess_rev%2C%2C-1%7Csessamex%2C%2C-1%7CPremiumRRSess%2C%2C-1%7CSaveFtrPers%2C%2C-1%7CSPMCSess%2C%2C-1%7CTheForkORSess%2C%2C-1%7CTheForkRRSess%2C%2C-1%7Cpers_rev%2C%2C-1%7CMetaFtrSess%2C%2C-1%7CRBAPers%2C%2C-1%7CWAR_RESTAURANT_FOOTER_PERSISTANT%2C%2C-1%7CFtrSess%2C%2C-1%7CRestAds%2FRSess%2C%2C-1%7CHomeAPers%2C%2C-1%7CPremiumMobPers%2C%2C-1%7CRCSess%2C%2C-1%7CLaFourchette+MC+Banners%2C%2C-1%7CRestAdsCCSess%2C%2C-1%7CRestPremRPers%2C%2C-1%7Csh%2C%2C-1%7Cpssamex%2C%2C-1%7CTheForkMCCSess%2C%2C-1%7CCCPers%2C%2C-1%7CWAR_RESTAURANT_FOOTER_SESSION%2C%2C-1%7Cb2bmcsess%2C%2C-1%7CSPMCPers%2C%2C-1%7CPremRetSess%2C%2C-1%7CViatorMCSess%2C%2C-1%7CPremiumMCPers%2C%2C-1%7CPremiumRRPers%2C%2C-1%7CRestAdsCCPers%2C%2C-1%7CTheForkORPers%2C%2C-1%7CPremMCBtmPers%2C%2C-1%7CTheForkRRPers%2C%2C-1%7CSaveFtrSess%2C%2C-1%7CPremiumORPers%2C%2C-1%7CRestAdsSess%2C%2C-1%7CRBASess%2C%2C-1%7Cperssticker%2C%2C-1%7CMetaFtrPers%2C%2C-1%7C; TAUD=LA-1513083037070-1*RDD-1-2017_12_12*LG-366835-2.1.F.*LD-366836-.....'
}

def get_attractions(url,data=None):
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text.'lxml')
    titles = soup.select('div.property_title > a[target="_blank"]')
    imgs = soup.select('img[width="200"]')
    cates = soup.select('div.p13n_reasoning_v2')
    for title, img, cate in zip(titles, imgs, cates):
    data = dict(title=titles.get_text(), img=img.get('src'), meta=list(cate.stripped_strings))
    print(data)

def get_favs(url,data=None):
    wb_data = requests.get(url_saves, headers=headers)
    soup = BeautifulSoup(wb_data.text.'lxml')
    titles = soup.select('div.photo > div.sizedThumd > img.location-name')
    imgs = soup.select('img.photo_image')
    metas = soup.select('span.format_address')

    if data == None:
        for title, img, meta in zip(titles, imgs, metas):
            data = dict(title=titles.get_text(), img=img.get('src'), meta=list(meta.stripped_strings))
            print(data)

print(urls)

from bs4 import BeautifulSoup
import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'
}

url = 'https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html'

wb_data = requests.get(url_saves,headers=headers)
soup = BeautifulSoup(wb_data.text.'lxml')
imgs = soup.select('img.photo_image')
for i in imgs:
    print(i.get('src'))

萌新爬蟲瑟瑟發抖1(指令碼)

from bs4 import BeautifulSoup import requests url_saves = 'https://cn.tripadvisor.com/Saves#37685322' url = 'https://www.tripadvisor.cn/

萌新爬蟲的動力就是爬取妹子圖！批量爬取妹子圖喲！

進群：960410445 即可獲取原始碼！目錄前言 Media Pipeline 啟用Media Pipeline 使用 ImgPipeline 抓取妹子圖瞎比比與送書後話前言我們在抓取資料的過程中，除了要抓取

Python3萌新入門筆記（1）

在之前的教程中，我們已經學會了安裝Python以及PyCharm。在這裡，我們開啟PyCharm，它是一種Python IDE(整合開發環境)。在這個軟體中，我們來學習Python的基礎知識。首先，我們先在軟體中，開啟Python控制檯或者命令列程式

萌新的計算機視覺入門1--Retinex算法

就會 eight 並且區域破壞 idt 視覺遠方處的　　算法的基本原理是認為人眼觀看的圖像S是由兩部分組成，即入射光圖像L與反射圖像R相乘得到，因為R與圖像輪廓信息相關，所以問題變為從S中提取R。其中的關鍵便是根據L的特征對L進行合適的建模。　　最基礎的算法

萌新xpath的爬蟲，用著很舒服

擴展性 xpath tree 編輯器 () png 圖片編碼進制 trident 我用的是Pycharm編輯器，3.5的python。首先給大家看看源碼與成果#####@Time:2018/10/25

從零開始的Python爬蟲速成指南，本文受眾：沒寫過爬蟲的萌新

引言用最短的時間寫一個最簡單的爬蟲，可以抓一些簡單的論壇、帖子、網頁。入門 1.準備工作安裝Python 安裝scrapy框架一個IDE或者可以用自帶的 2.開始寫爬蟲 &n

萌新web前端從零開始（1）——計算機入門

　　　　前言：這是一個萌新從零開始的學習之路，與大家分享自己的看法與見解，還請指出錯誤與遺漏點方便改正。　　　　1.認識計算機。　　　　計算機語言常見的有C，PHP,Ruby，Java，C#，Basic，JS，C++等，這裡我用到的是C#語言，用到的軟體是VisualStudio 2013版本。當用V

就算萌新也能看得懂的gulp教程（1）：①讀檔案②修改③寫到新檔案

1、安裝gulp 核心點是gulp檔案的檔名一定是：gulpfile.js。 task就是一個任務（要做的一系列事）執行通過gulp來執行預設的task或者通過gulp task名來執行指定的task（因為一個gulp檔案裡可能有多個互相獨立的t

新概念英語（1-71）He's awful！

morn last phone after ast time bsp other let He‘s awful！How did Pauline answer the telephone at the nine o‘clock?What‘s Ron Marston like,

[mysql萌新安裝常見問題]

打開 pda src 技術分享 user 無法 flush eight 1.5 1.安裝根據此流程：http://jingyan.baidu.com/article/cd4c2979033a17756f6e6047.html 常見問題：安裝停留在某一步無法繼續。解決辦法

爬蟲實例1-爬取新聞列表和發布時間

爬蟲 python 工程 import title 一、新建工程scrapy startproject shop 二、Items.py文件代碼：import scrapy class ShopItem(scrapy.Item): title = scrapy.Field()

012 Python 爬蟲項目1

python 爬蟲 tor url post strong port pytho .com http # Python 爬蟲項目1 　　● Python 網頁請求　　　　requests 　　　　　　POST 　　　　　　GET 　　　　網頁狀態碼 1 # -

vue+webpack新項目總結1

技術分享 ted back index nbsp 不同的 style color actions 頭部組件的標題根據不同的頁面顯示不同的標題第一步：　　在store 裏面初始化全局變量 // vuex 通過狀態管理數據 import Vue from ‘v

萌新--關於vue.js入門及環境搭建

art 安裝 list 建議 href pack 推薦新手學走了十幾天閉關修煉，惡補了html跟css以及JavaScript相應的基礎知識，恰巧有個群友準備做開源項目，願意帶著我做，但是要求我必須懂vue.js，所以開始惡補vue.js相關的東西。在淘寶上買了相關

zstu 4247-萌新的旅行

新的 closed family space bits gif aps col lap 題目大意： zstu的萌新們準備去自助旅行，他們租了一輛吉普車，然後選擇了n個城市作為遊覽地點。然後他們驚喜的發現他們選擇的城市剛好繞城一個環。也就是說如果給所有城市按照

爬蟲新手學習1-爬蟲基礎

計算機 china 用戶名 ges wps 請求頭重復內容 dnspod tran 一、為什麽要做爬蟲？首先：都說現在是"大數據時代"，那數據從何而來？企業產生的用戶數據：百度指數、阿裏指數、TBI騰訊瀏覽指數、新浪微博指數數據平臺購買數據：數據堂、國雲數據市場、

java萌新嘗試搭建WordPress記錄

源碼資料添加都是一次由於 util 建議調用問題1：安裝好PHP環境沒找好mysql路徑，導致不能調用數據庫模塊解決方案：重裝一次，參考鏈接 https://www.cnblogs.com/yangxia-test/p/4174372.html 需要註意：

CQUPT萌新賽題解(附F代碼）

mil 不能遞推 strcmp 記憶化搜索代碼好用字典 std 題解或許會遲到，但永遠不會缺席(逃還是感謝qs手下留情和mzjj給弱智一點面子，才讓本蒟蒻拿到了鍵盤( 題目貼了網址也沒意義，鶸校只讓內網進(蘭兒鶸校oj也見不得人那麽開始正題： T1，T2： OR

Python爬蟲學習（1）

數據 bin des fin load 寫入 all pytho urlopen 接觸python不久，也在慕課網學習了一些python相關基礎，對於爬蟲初步認為是依靠一系列正則獲取目標內容數據於是參照著慕課網上的教學視頻，完成了我的第一個python爬蟲，雞凍 >

python3網絡爬蟲（2.1）：爬取堆糖美女

pre 線程 span 需要 pic ring clas lin chrome 額，明明記得昨晚存了草稿箱，一覺醒來沒了，那就簡寫點（其實是具體怎麽解釋我也不太懂/xk，純屬個人理解，有錯誤還望指正）環境：　　版本：python3 　　IDE：pycharm201

萌新爬蟲瑟瑟發抖1(指令碼)

相關推薦