【R語言資料分析】豆瓣電影R語言爬蟲和資料分析

阿新 • • 發佈：2019-02-17

主要內容：
1、r語言爬蟲 rvest包的使用。
2、r語言字串處理stringr包的使用。
3、r語言聚合dplyr 包的使用。
4、r語言視覺化ggplot 包的使用。
5、r語言畫詞雲圖worldcloud2 包的使用。
6、正則表示式 str_match 的使用
7、sapply的用法。
8、字串切割函式str_split的用法。

程式碼片段1（字串切割和字串正則匹配）：

> (a <- "2017-12-25")
[1] "2017-12-25"
> (b <- str_split(a,"-"))
[[1]]
[1] "2017" "12"   "25" 
  

> (c <- str_match(a,"-(.*?)-")[,2])
[1] "12"
>

程式碼片段2（sapply函式運用，功能強大，類似scala map函式，可自定義函式作用於每個元素）

(d <- c(1,2,3,4,5,6,7,8,9))
#每個元素乘以2
(e <- sapply(d,function(x) x*2))

程式碼片段3（rvest爬蟲管道%>%解析法）：

# 讀取網頁內容
page <- html_session(url)
# 獲取電影的連結
movie_url <- html_nodes(page, 'p>a' 
) %>% html_attr("href")

# 獲取電影名稱
movie_name <- html_nodes(page, 'p>a') %>% html_text()

程式碼片段4（dplyr包 group_by 和summarise 的用法，分組求和）

# 聚合操作
groupby_countrys <- group_by(df, countries)
df <- summarise(groupby_countrys, Freq = sum(Freq))

程式碼片段5（arrange 排序功能）

# 降序排序
df <- arrange(df, desc(Freq 
))

程式碼片段6（ggplot 畫條形圖）

# 1、參評人數最多的Top10的電影
# 配置畫圖的資料
p <- ggplot(data = arrange(raw_data, desc(evalue_users))[1:10,], 
            mapping = aes(x = reorder(movie_name,-evalue_users), 
                          y = evalue_users)) + 
  # 限制y周的顯示範圍
  coord_cartesian(ylim = c(500000, 750000)) + 
  # 格式化y軸標籤的數值
  scale_y_continuous(breaks = seq(500000, 750000, 100000),
                     labels = paste0(round(seq(500000, 750000, 100000)/10000, 2), 'W')) + 
  # 繪製條形圖
  geom_bar(stat = 'identity', fill = 'steelblue') +
  # 新增軸標籤和標題
  labs(x = NULL, y = '評價人數', title = '評價人數最多的top10電影') + 
  # 設定x軸標籤以60度傾斜
  theme(axis.text.x = element_text(angle = 60, vjust = 0.5),
        plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'))

p

這裡寫圖片描述

全部原始碼學習：


rm(list=ls())
gc()
options(scipen = 200)

library(rvest)
library(stringr)
library(dplyr)
library(wordcloud2)
library(ggplot2)


##################################爬蟲部分###########################################

# 指定需要抓取的URL
url <- 'https://zhuanlan.zhihu.com/p/22561617'

# 讀取網頁內容
page <- html_session(url)
# 獲取電影的連結
movie_url <- html_nodes(page, 'p>a') %>% html_attr("href")

# 獲取電影名稱
movie_name <- html_nodes(page, 'p>a') %>% html_text()
# 獲取電影的其他描述資訊
describe <- html_nodes(page, 'p') %>% html_text()
# 篩選出需要的子集
describe <- describe[16:443]
# 通過正則表示式匹配評分
score <- as.numeric(str_match(describe, '.* (.*?)分')[,2])
# 通過正則表示式匹配評價人數
evalue_users <- as.numeric(str_match(describe, '分 (.*?)人評價')[,2])
# 通過正則表示式匹配電影年份
year <- as.numeric(str_match(describe, '評價 (.*?) /')[,2])

# 由於生產國和電影型別用/分割，且沒有固定的規律，故將生產國和電影型別存入到一個變數中
other <- sapply(str_split(describe, '/', n = 2),'[',2)
# 構建資料框
raw_data <- data.frame(movie_name, movie_url,score,evalue_users,year,other)
head(raw_data)
# 將抓取的資料寫出到本地
write.csv(raw_data, 'E:/ID/data/movies.csv', row.names = FALSE)



###############################資料處理部分#############################################
# 需要將電影的其他描述資訊進行拆分
# 前往搜狗官網，下載所有國家名稱的字典，再利用“深藍詞庫轉換”工具，將scel格式的字典轉換成txt
# http://pinyin.sogou.com/dict/detail/index/12347
countrys <- readLines(file.choose())
# 把資料集中的other變數進行切割
cut_other <- str_split(raw_data$other, '/')
head(cut_other)
# 刪除所有空字串
cut_other <- sapply(cut_other, function(x) x[x != " "])
# 剔除字串中的收尾空格
cut_other <- sapply(cut_other, str_trim)
head(cut_other)
# 提取出所有關於電影所屬國家的資訊
movie_country <- sapply(cut_other, function(x,y) x[x %in% y], countrys)
head(movie_country)
# 提取出所有關於電影所屬型別的資訊
movie_type <- sapply(cut_other, function(x,y) x[!x %in% y], countrys)
head(movie_type)

# 資料分析
# 1、參評人數最多的Top10的電影
# 配置畫圖的資料
p <- ggplot(data = arrange(raw_data, desc(evalue_users))[1:10,], 
            mapping = aes(x = reorder(movie_name,-evalue_users), 
                          y = evalue_users)) + 
  # 限制y周的顯示範圍
  coord_cartesian(ylim = c(500000, 750000)) + 
  # 格式化y軸標籤的數值
  scale_y_continuous(breaks = seq(500000, 750000, 100000),
                     labels = paste0(round(seq(500000, 750000, 100000)/10000, 2), 'W')) + 
  # 繪製條形圖
  geom_bar(stat = 'identity', fill = 'steelblue') +
  # 新增軸標籤和標題
  labs(x = NULL, y = '評價人數', title = '評價人數最多的top10電影') + 
  # 設定x軸標籤以60度傾斜
  theme(axis.text.x = element_text(angle = 60, vjust = 0.5),
        plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'))

p



# 2、一部經典的電影需要多少國家或地區合拍
# 統計每一部電影合拍的國家數
movie_contain_countrys <- sapply(movie_country, length)
table(movie_contain_countrys)
# 由於電影的製作包含5個國家及以上的分別只有1部電影，故將5個國家及以上的當做1組
# 轉化為資料框
df <- as.data.frame(table(movie_contain_countrys))
# 資料框變數的重新命名
names(df)[1] <- 'countries'
# 資料型別轉換
df$countries <- as.numeric(as.character(df$countries))
df$countries <- ifelse(df$countries<=4, df$countries, '5+')
# 聚合操作
groupby_countrys <- group_by(df, countries)
df <- summarise(groupby_countrys, Freq = sum(Freq))
# 資料型別轉換，便於後面視覺化
df$countries <- factor(df$countries)
df

# 運用環形圖對上面的資料進行視覺化
# 定義資料，用於畫圖
df$ymax <- cumsum(df$Freq)
df$ymin <- c(0, cumsum(df$Freq)[-length(df$ymax)])
# 生成圖例標籤
labels <- paste0(df$countries,'(',round(df$Freq/sum(df$Freq)*100,2),'%',')')
# 繪圖
p <- ggplot(data = df, mapping = aes(xmin = 3, xmax = 4, ymin = ymin, 
                                     ymax = ymax, fill = countries)) + 
  # 矩形幾何圖
  geom_rect(size = 5) + 
  # 極座標變換
  coord_polar(theta = 'y') + 
  # 環形圖
  xlim(1,4) + 
  # 新增標題
  labs(x = NULL, y =NULL, title = '一部電影需要多少國家合作') + 
  # 設定圖例
  scale_fill_discrete(breaks = df$countries, labels = labels) + 
  theme(legend.position = 'right', 
        plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'),
        axis.text = element_blank(),
        axis.ticks = element_blank(),
        panel.grid = element_blank(),
        panel.background = element_blank()
  )
p


# 3、經典電影產量top10都是哪些國家
# 羅列出所有電影的拍攝國家
top_countris <- unlist(movie_country)
# 頻數統計，並構造資料框
df <- as.data.frame(table(top_countris))
# 降序排序
df <- arrange(df, desc(Freq))
df
# 香港，中國大陸和臺灣入圍前十，分別是第5，第7和第10名。前三的歸美國，英國和日本。美國絕對是量產的國家，遠遠超過第二名的英國。
# 運用文字雲對上面的資料進行視覺化
wordcloud2(df, backgroundColor = 'black', rotateRatio = 2)

# 4、這些經典電影主要都是屬於什麼型別
# 羅列出所有電影的型別
top_type <- unlist(movie_type)
# 構造資料框
df <- as.data.frame(table(top_type))
# 降序排序
df <- arrange(df, desc(Freq))
df
# 由於幾乎所有的電影都貼上劇情這個標籤，我們暫不考慮這個型別，看看其他的型別top15分佈
# 去除第一行的（劇情）型別
df <- df[-1,]
df$top_type <- as.character(df$top_type)
# 我們使用條形圖來反饋上面的資料情況
# 提取出前15的型別
df$top_type <- ifelse(df$top_type %in% df$top_type[1:15], df$top_type, '其他')
# 資料聚合
groupby_top_type <- group_by(df, top_type)
df <- summarise(groupby_top_type, Freq = sum(Freq))
# 排序
df <- arrange(df, desc(Freq))
# 構造數值標籤
labels <- paste(round(df$Freq/sum(df$Freq)*100,2),'%')
p <- ggplot(data = df, mapping = aes(x = reorder(df$top_type, Freq), y = Freq)) +
  # 繪製條形圖
  geom_bar(stat = 'identity', fill = 'steelblue') + 
  # 新增文字標籤
  geom_text(aes(label = labels), size = 3, colour = 'black', 
            position = position_stack(vjust = 0.5), angle = 30) + 
  # 新增軸標籤
  labs(x = '電影型別', y = '電影數量', title = 'top15的電影型別') + 
  # 重組x軸的標籤
  scale_x_discrete(limits = c(df$top_type[df$top_type!='其他'],'其他')) +
  # 主題設定
  theme(plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'),
        panel.background = element_blank())
p
# 前三名的電影型別分別為愛情、喜劇和犯罪

# 5、哪些年代的電影好評度比較高
# 根據年份的倒數第二位，判讀所屬年代
raw_data$yearS <- paste0(str_sub(raw_data$year,3,3),'0','S')
# 對年代聚合
groupbyYS <- group_by(raw_data, yearS)
yearS_movies <- summarise(groupbyYS, counts = n())
# 繪圖
p <- ggplot(data = yearS_movies, 
            mapping = aes(x = reorder(yearS, -counts), 
                          y = counts)) +
  # 繪製條形圖
  geom_bar(stat = 'identity', fill = 'steelblue') + 
  # 新增軸標籤和標題
  labs(x = '年代', y = '電影數量', title = '各年代的好評電影數量') + 
  # 主題設定
  theme(plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'),
        panel.background = element_blank())
p

# 6、評分top5的電影型別
# 所有電影型別
types <- unique(unlist(movie_type))
# 定義空的資料框物件
df = data.frame()
# 通過迴圈，抓取出不同標籤所對應的電影評分
for (type in types){
  res = sapply(movie_type, function(x) x == type)
  index = which(sapply(res, any) == 1)
  df = rbind(df,data.frame(type,score = raw_data[index, 'score']))
}
# 按電影所屬型別，進行summary操作
type_score <- aggregate(df$score, by = list(df$type), summary)
# 資料集進行橫向拼接為資料框
type_score <- cbind(Group = type_score$Group.1, as.data.frame(type_score$x))
# 按平均得分排序
type_score <- arrange(type_score, desc(Mean))
type_score
# 單從電影型別的平均得分來看，災難片、恐怖片和兒童片位居前三，儘管分別只有3部，2部和12部。


# 7、評論人數和評分之間的關係
p <- ggplot(data = raw_data, mapping = aes(x = evalue_users, y = score)) + 
  # 繪製散點圖
  geom_point(colour = 'steelblue') + 
  # 新增一元線性迴歸擬合線
  geom_smooth(method = 'lm', colour = 'red') + 
  # 新增軸標籤和標題
  labs(x = '評論人數', y = '評分', title = '評論人數與評分的關係') + 
  # 設定x軸的標籤格式
  scale_x_continuous(breaks = seq(30000, 750000, 100000),
                     labels = paste0(round(seq(30000, 750000, 100000)/10000, 2), 'W')) + 
  scale_y_continuous(breaks = seq(8, 9.6, 0.2)) + 
  # 主題設定
  theme(plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'))
p

【R語言資料分析】豆瓣電影R語言爬蟲和資料分析

主要內容： 1、r語言爬蟲 rvest包的使用。 2、r語言字串處理stringr包的使用。 3、r語言聚合dplyr 包的使用。 4、r語言視覺化ggplot 包的使用。 5、r語言畫詞雲圖worldcloud2 包的使用。 6、正則表示式 str

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）

上一篇中我們簡單的介紹了利用線性迴歸分析並預測波士頓房價資料集，那麼在這一篇中，將使用相同的模型來對紅酒資料集進行分析。 1 基本要求利用線性迴歸，對紅酒資料集進行分析。資料集下載地址。 2 完整程式碼 #-*- codin

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（上）

本篇筆記是《從自然語言處理到機器學習入門》課程第三次作業的上篇，主要是復現了老大課上講的利用線性迴歸對波士頓房價進行預測的實驗。在下篇中，將利用該模型對紅酒資料集進行線性迴歸分析。 1 基本要求利用提供的波士頓房價資料，對其進行分析。資

【R語言資料型別】深入瞭解向量、矩陣、資料框、列表

R語言資料型別有向量、矩陣、資料框、列表。下面我們來深入瞭解下： vector 的劃分 R中的vector分為兩類，atomic和list，二者的區別在於,前者元素型別必須相同，後者可以不同。前者的代表是向量和矩陣，後者的代表是list和資料框。建立

【大資料技術】HBase基本知識介紹及典型案例分析

（1）分散式、多版本、面向列的開源資料庫（2）支援上億行、百萬列；（3）強一致性、高擴充套件、高可用 Hbase是一個強一致性資料庫，不是“最終一致性”資料庫。 HBase資料讀寫，更新的資料是放在Mems

【資料分析】：Numpy基礎：陣列和向量運算

☆Numpy（Numerical Python）是高效能科學計算和資料分析的基礎包，它是幾乎所有資料分析高階工具的構建基礎。 ndarry ,一個具有向量算數運算和複雜廣播能力的快速且節省空間的多維陣列。用於對整組資料進行快速運算的標準數學函式（無需編寫迴

【資料案例】每天數百億使用者行為資料，美團點評怎麼實現秒級轉化分析？

6. 效果：上述方案目前在美團點評內部已經實際落地，穩定執行超過半年以上。每天的資料有幾百億條，活躍使用者達到了上億的量級，埋點屬性超過了百萬，日均查詢量幾百次，單次查詢的TP95時間小於5秒，完全能夠滿足互動式分析的預期。相比於原有sql方案，達到了3-4個數量級的效能提升。

【ML專案】基於網路爬蟲和資料探勘演算法的web招聘資料分析（一）——資料獲取與處理

前言這個專案是在學校做的，主要是想對各大招聘網站的招聘資料進行分析，沒準能從中發現什麼，這個專案週期有些長，以至於在專案快要結束時發現網上已經有了一些相關的專案，我後續會把相關的專案材料放在我的GitHub上面，連結為：https://github.com/

【大資料 Spark】利用電影觀看記錄資料,進行電影推薦

## 利用電影觀看記錄資料,進行電影推薦。 [TOC] ![](https://img-blog.csdnimg.cn/20200510102011122.png) ## 準備 ### 1、任務描述：在推薦領域有一個著名的開放測試集，下載連結是：`http://grouplens.org/datasets/

【腫瘤預測模型系列】如何在R軟體中求一致性指數( Harrell'concordance index:C-index)？

今晚收到一封醫生好友的郵件，諮詢如何求Harrell的C-index？曾在丁香園論壇裡遇到過朋友求助，自己也嘗試回答過，論壇裡回答的言簡意賅，針對問題論問題，沒有詳細的原理說明，今天趁回覆朋友郵件的機會，就大致總結下自己對C-index的理解以及在R軟體中的計算過程。所謂C-index，英文名全稱conc

【資料結構】二叉樹的建立和遍歷（非遞迴）

該程式使用的是遞迴地建立方法，以及非遞迴的遍歷演算法執行環境：Dev-C++ #include <stdio.h> #include <stdlib.h> typedef struct node{ char data; struct node *lchild

【SciKit-Learn學習筆記】5：核SVM分類和預測乳腺癌資料集

學習《scikit-learn機器學習》時的一些實踐。常用引數引數C SVM分類器svm.SVC()中的引數C即SVM所優化的目標函式 a

【12月06日】A股全市場情緒指標整理分析

1. A股全市場的股權質押比例 2018年11月30日，A股全市場，質押股數佔全市場總股本數比：9.997%，最近2周出現了3.2%的輕微回落。同歷史時期相比，仍然處於高位。 2. A股全市場的解禁市值 2018年12月解禁總市值約為4451.8億，2018年11月的解禁總市值約

【c語言入門軟體】dev新建工程、執行和除錯

dev新建工程、執行和除錯上一次安裝中，曾讓你們把安裝路徑記下來，現在我們可以找到安裝路徑，拷貝出裡面的help資料夾，開啟到這裡，我們將比較官方的形式來了解以下dev的使用。 1.Editing 在編輯之前，我們需要新建一個dev的工程和擬寫一個簡單的程式

【資料結構】KMP手工計算next陣列和nextval陣列

KMP 演算法我們有寫好的函式幫我們計算 Next 陣列的值和 Nextval 陣列的值，但是如果是考試，那就只能自己來手算這兩個陣列了，這裡分享一下我的計算方法吧。計算字首 Next[i] 的值: 我們令 next[0] = -1 。從 next[1] 開始，每求一個

【Kettle從零開始】第四彈之Kettle轉換資料抽取使用

Kettle版本：3.2GA JDK版本：1.6.0_41 OS：NT 需求：需要把業務系統庫、TXT檔案、EXCEL檔案中的資料抽取到資料倉庫中。 1、建立轉換(Ctrl+N)，轉換名稱為：R

【資料結構】Java實現圖的DFS和BFS

圖的深度優先遍歷(DFS)和廣度優先遍歷(BFS），DFS利用遞迴來實現比較易懂，DFS非遞迴就是將需要的遞迴的元素利用一個棧Stack來實現，以達到遞迴時候的順序，而BFS則是利用一個佇列Queue來實現。 package DataStructure;

【水雞遊戲課堂】氪金手遊背後的套路分析

視訊地址： https://www.bilibili.com/video/av23990272 大家好，今天我要講的內容是氪金手遊是玩家賺（騙）玩家錢的，它又是如何讓你一步步沉迷最終難以自拔的。裡面很多東西都是業內人士早就知道的了，但是還是有很多玩家不

【kubernetes/k8s原始碼分析】kubectl-controller-manager之pod gc原始碼分析

引數： --controllers strings：配置需要enable的列表這裡也包括podgc All con

【資料結構】稀疏矩陣的壓縮儲存和轉置演算法（C++程式碼）

一稀疏矩陣的定義矩陣是如今很多科學與工程計算問題中常用的數學物件，矩陣涉及到的計算通常會出現矩陣的階數比較高但是非零元素的個數卻比較少的情況，因此，我們需要有一種方法來壓縮這種比較稀疏的矩陣。那麼，首先第一個問題就是如何定義一個矩陣是否是稀疏的？參考嚴蔚敏的資料結構教

【R語言 資料分析】豆瓣電影R語言爬蟲和資料分析

相關推薦

【R語言資料分析】豆瓣電影R語言爬蟲和資料分析