Ruby用百度搜索爬蟲

阿新 • • 發佈：2017-11-27

https each span 分享圖片百度 .get get請求 puts 分享

Ruby用百度搜索爬蟲

博主ruby學得斷斷續續，打算寫一個有點用的小程序娛樂一下，打算用ruby通過百度通道爬取網絡信息。

第三方庫準備

mechanize：比較方便地處理網絡請求，類似於Python中的requests
nokogiri：解析HTML文本，采用的是jquery選擇器

步驟分析

用mechanize創建一個agent對象
我們首先登錄百度主頁
找到百度『搜索』框的表單
填寫表單內容
提交表單（agent用該表單的內容發出submit動作）
分析百度獲得的搜索結果列表
用nokogiri解析HTML文本，提取出我們感興趣的內容

代碼

require ‘mechanize‘ 

require ‘nokogiri‘

# 百度搜索的關鍵字，可修改
keyword = ‘ruby‘

# 創建一個agent對象
agent = Mechanize.new
# 發送get請求獲取頁面
page = agent.get ‘http://www.baidu.com/‘
# 根據名字屬性定位表單
search_form = page.form_with :name => ‘f‘
# 填表，搜索框的name是wd
search_form.field_with(:name => "wd").value = keyword
# 提交表單
search_results = agent.submit search_form
doc = Nokogiri 
::HTML(search_results.body)
doc.css(‘.c-container > h3 > a‘).each{
  |item|
  puts item.text
}

測試結果

技術分享圖片

Ruby用百度搜索爬蟲

https each span 分享圖片百度 .get get請求 puts 分享 Ruby用百度搜索爬蟲博主ruby學得斷斷續續，打算寫一個有點用的小程序娛樂一下，打算用ruby通過百度通道爬取網絡信息。第三方庫準備 mechanize：比較方便地處理網絡請求，類

一個簡單的百度貼吧爬蟲&&百度搜索爬蟲&&模擬登入菜鳥踩坑記（requests、lxml）

這幾天在學爬蟲，試了下簡單的，不涉及scrapy框架，庫用的lxml、requests，python3，不涉及網頁介面互動。 1、百度貼吧爬蟲爬取貼吧貼子標題、發貼人資訊（性別、關注貼吧）等，後來根據資料做了個詞雲，程式碼跟詞雲戳下： import os import

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

selenium之百度搜索+有道翻譯的簡單testcase執行-----用例報告（HTMLTestRunner）

file 第一個 stream str utf-8 equal code col sele 本篇主要實現selenium自動化測試之百度搜索+有道翻譯的簡單測試用例執行，並通過HTML TestRunner生成html測試報告.這是前不久跟著視頻學習的時候，練習的第一個HT

Scrapy爬蟲實戰：百度搜索找到自己

Scrapy爬蟲實戰：百度搜索找到自己背景分析怎麼才算找到了自己怎麼才能拿到百度搜索標題怎麼爬取更多頁面 baidu_search.py 宣告BaiDuSearchItem Items

百度搜索結果爬蟲

程式碼如下 import requests from lxml import etree # 抓取整個頁面 words = input("輸入搜尋內容：") headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;

Python爬蟲爬取百度搜索內容介面-xpath

百度爬蟲搜尋介面1.0版百度爬蟲搜尋介面1.0版：通過百度關鍵字遍歷到一級頁面的url 通過百度關鍵字遍歷到一級頁面的title標題通過百度關鍵字遍歷到一級頁面的text文字爬取思路拼接url 經過測試，初始時拼接url，只需要加入keyword

為什麼有了post那麼多優點，還有還多網站用get，比如百度搜索

前幾天工作中，所有表單我都採用post方法，頭兒說那樣不好，大型網站上一般都採用get方法，不理解。在網上摘到一段比較有用的話減低伺服器流量壓力根據 HTTP 規範，GET 用於資訊獲取，而且應該是安全的和冪等的。所謂安全的意味著該操作用於獲取資訊而非修改資訊

Web自動化框架LazyUI使用手冊（2）--先跑起來再說（第一個測試用例-百度搜索）

作者：cryanimal QQ:164166060 上篇文章中，簡要介紹了LazyUI框架，本文便來演示，如何從無到有快速搭建基於lazyUI的工程，併成功執行第一個測試用例。本文以百度搜索為例，選用chrome瀏覽器進行演示（安裝在預設路徑），IDE選用

程式設計師開發學習利器篇（上）之百度搜索-你真的會用百度嗎

以下內容，開發初學者看，熟手略過。論語有言：工欲善其事必先利其器，意思是工匠想要使他的工作做好，一定要先讓工具鋒利。比喻要做好一件事，準備工作非常重要。這對於我們程式設計師做開發時也是這樣，充足且好的準備工作，不但可以提高我們的開發效率，同時也可以讓我們事半功倍

PHP網路爬蟲實踐：抓取百度搜索結果，並分析資料結構

百度的搜尋引擎有反爬蟲機制，我先直接用guzzle試試水。程式碼如下： <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:58 */ require ('./vendor/autoload.php'); use QL\Qu

C# 百度搜索結果xpath分析

als 接收數據 har rim resp inner ets webclient containe using System; using System.Collections.Generic; using System.IO; using System.Linq; u

Python實驗:百度搜索關鍵字自動打開相關URL

python實驗:百度搜索關鍵字自動打開相關url#! python # coding: utf-8 # python實現百度搜索關鍵字，並依次用瀏覽器打開前五個搜索結果 ## ##Beautiful Soup 是一個模塊，用於從HTML 頁面中提取信息（用於這個目的時，它比正則表達式好很多）。Beautif

python實現百度搜索

python 爬蟲 mechanize 瀏覽器利用Python mechanize模塊模擬瀏覽器實現百度搜索# -*- coding:utf-8 -*- import mechanize import sys reload(sys) sys.setdefaultencoding(‘utf8‘

百度搜索建議API

建議 amp nbsp api cti 函數等價回調函數自定義函數 1.直接返回json數據 http://suggestion.baidu.com/?wd=關鍵詞&action=opensearch 2.json數據當做回調函數的參數傳回來http://

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

python爬取百度搜索結果ur匯總

百度搜索 sta attr amp end rom range 百度篩選寫了兩篇之後，我覺得關於爬蟲，重點還是分析過程分析些什麽呢： 1）首先明確自己要爬取的目標　　比如這次我們需要爬取的是使用百度搜索之後所有出來的url結果 2）分析手動進行的獲取目標的過程，以便

我的第一個自動化腳本（python）----百度搜索

expect style 目錄 .exe nbsp com 自動其他人其他這是一個純小白胡說八道的個人總結，如果有人看到什麽不對的，歡迎批評指正博客園開通了很久，一直不知道該怎麽去寫，總覺得自己要寫的東西都是別人已經寫過的，我再去寫就是在重復之前人所說，今天去面試和

高仿百度搜索引擎

ucc return 回調函數 else 上下 about inpu click eat 這是百度搜索 HTML <!DOCTYPE html> <html lang="en"> <head> <meta charset=

python實現簡單的百度搜索

python 百度爬蟲#!/usr/bin/python # coding=utf-8 import urllib import urllib2 #實現百度關鍵字查詢的小例子 #定義基礎url url = "http://www.baidu.com/s?" #定義請求頭信息 headers = {"U

Ruby用百度搜索爬蟲

Ruby用百度搜索爬蟲

第三方庫準備

步驟分析

代碼

測試結果

相關推薦