1. 程式人生 > >R語言:用簡單的文字處理方法優化我們的讀書體驗

R語言:用簡單的文字處理方法優化我們的讀書體驗

2)從趨勢來說,人人都會程式設計會成為更廣範圍內的一個硬要求

這裡有一些暢想:

從文字處理的角度,當我們要背單詞時,為什麼不能找一部美劇或電影的字幕,匯入R裡面,然後匹配一下雅思託福詞彙,或者單詞本,把要背的單詞所在的段落全部選出來閱讀?(靈感來源:書《單詞社交網路》)

然後以前那些編寫彙總集、梳理角色關係十分痛苦的編輯工作,是否可以用一個簡單的程式碼程式替代,讓人從無意義的翻找典故里解脫出來,更加專注於對內部邏輯的思考?不再需要人工去剪下網頁、摘抄報紙,一切的一切,就只是記關鍵詞與出處?(我們中學時要看的那些經典詩詞解析)

然後對於一個網站的運營,如那些經常要關注敵方上什麼促銷的運營來說,是否可以簡單弄個爬蟲,定期給自己推送其他家的價格促銷,從而瞭解他們的運營策略?(其實現在若干大電商都在做,但工具下放到運營自身的,還沒有那麼多)

如果寫劇本的,要經典橋段可以自己寫個程式把想要的意境從成千上萬本劇本小說裡摘出來看看,那效率該有多大提高啊,只需要學會一點點小程式設計,我們就可以把自己從重複性勞動中解放出來,去做真正有價值的事情時,我覺得這才是非計算機人士業餘學程式設計最有價值的地方。

順便,最近在用codecademy刷python課程,感謝這世界上總是有人願意把一個枯燥的程式設計學習過程做的像打遊戲那麼生動有趣實時可互動。越多人做這些程式設計推廣的事情,就會有越多人能自如編寫比本文提到那些文字處理更復雜的程式指令碼,程式設計的門檻是越來越低了。

 ---

最後就是,多讀書,多看看。。當初寫這些程式碼本質上是想要閱讀得快一點,記得牢一點,整理東西快一點,絕對不是為了積累資料而不看書的。如果辛辛苦苦寫了個程式碼幫我們把所有感興趣的文字都取了出來,卻什麼也不看,這跟做資料分析不願意跟那些業務打交道瞭解實情的傻子有啥區別呢。。。

順便附上用R玩過的其他事情,歡迎吐槽:

PS又PS:

這文加用R語言讀琅琊榜小說一起,是之前為一個演講準備的演示材料,不過當時太緊張了,還準備一些別的東西然後最後忘記講了哈哈哈哈——結論是如果上臺講話,一定要把想講的東西寫個小抄,或者放在PPT的要點裡,不然鐵定忘記= =

終於趕在11月底完成了2015每月一博的任務。。。

相關推薦

R語言簡單文字處理方法優化我們讀書體驗

2)從趨勢來說,人人都會程式設計會成為更廣範圍內的一個硬要求 這裡有一些暢想: 從文字處理的角度,當我們要背單詞時,為什麼不能找一部美劇或電影的字幕,匯入R裡面,然後匹配一下雅思託福詞彙,或者單詞本,把要背的單詞所在的段落全部選出來閱讀?(靈感來源:書《單詞社交網路》) 然後以前那些編寫彙總集、梳理

R語言缺失值的處理

一.什麼是缺失值,NA與NULL的區別 (1)NA表示資料集中的該資料遺失、不存在。在針對具有NA的資料集進行函式操作的時候,該NA不會被直接剔除。如x<-c(1,2,3,NA,4),取mean(x),則結果為NA,如果想去除NA的影響,需要顯式告知

第十六週C語言結構體處理複數運算

問題:編寫一個程式,首先定義一個複數資料型別,即結構型別。然後按照複數的運算規則進行計算,並按照複數表示的格式進行輸出 程式碼: /* 煙臺大學計算機學院  2016 作者:閆春相 完成日期:2016年12月15日 版本號:V1.0 */ #include <stdi

c語言陣列來處理求Fibonacci數列問題

用陣列來處理求Fibonacci數列問題。解:程式:#include<stdio.h>int main(){int i, f[20] = { 1,1 };//對最前面兩個元素f[0]和f[1

R語言文字(字串)處理與正則表示式

這兩個函式返回向量水平的匹配結果,不涉及匹配字串的詳細位置資訊。 grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, fixed = FALSE, useBytes =FALSE, invert = FALSE) grepl

R語言常用統計一些方法代碼

1.5 憑據 alter con blank () 紐約 理論 nbsp 理論漫衍依賴於若幹未知參數時Kolmogorov-Smirnov 檢討ks.test()例一 對一臺設備舉辦壽命檢討,記錄十次無妨礙操縱時間,並按從小到大的序次分列如下,用ks檢討要領檢討此設備無妨礙

R語言實現文字分析例項(基礎篇)

#1載入軟體包: #1.1資料欲處理包: #Snowball(處理帶空格的語句) #rJava(rmmseg4j的支援包) #rmmseg4j(處理中文的分詞,把不帶空格的分為帶空格的。) #1.2文字分析包: #tm #資料處理## library (RODBC) excel_file <- od

R語言64位作業系統讀取excel檔案方法總結

首先嚐試的是RODBC,不過過程相當不順利 我電腦上安裝的是office 2003,ODBC資料來源裡面找不到excel的驅動程式 原因是office是32為版本,安裝的驅動程式無法在64位的win7上使用。 執行c:\windows\sysWOW64\odbc

R語言常用統計檢驗方法

轉自http://blog.sciencenet.cn/home.php?mod=space&uid=255662&do=blog&id=240107 正態總體均值的假設檢驗 t檢驗 單個總體例一  某種元件的壽命X(小時),服從正態分佈,N(mu,

R語言時間的轉化

origin 從數據 需要 code mat 時間 for 忘記 clas 一般使用R從數據庫導出來的時間數據一般都不是我們能看的懂的(具體是什麽格式的我也忘記了),需要做如下轉化 1 as.Date(time,origin = ‘1970-01-01‘) 最近從網上爬

c語言復合文字

參數 語句 ... 指向 c語言 使用方法 類型 .... 意義 復合文字的意義,相當於是在C語言中,為數組類型定義了一種類似於8之於int,‘w‘之於char一樣的常量類型,所以從C99之後,可以在一些地方使用復合文字來代替數組使用。 復合文字的聲明 (int [3])

R語言as.Date出現NA值

日期格式 -1 技術分享 log 解決辦法 .com 大寫 出現 data > head(as.Date(data$日期,‘%y%M%D‘))[1] NA NA NA NA NA NA data日期格式如下: 解決辦法: > head(as.Date(da

R語言隨機抽樣(sample函數)

.cn png 函數 -1 數據集 img image 如果 一個數 如果想從一堆數據集中隨機抽出一個數,用sample函數就能實現,代碼展示如下: forehead<-c(249,189,128,111,184,233,313,120,151,196,135,

R語言提取路徑中的文件名字符串(basename函數)

lena art star filename div base none gpo highlight 假設存在路徑C:/coverage/Homo_sapiens.sort.add_exon1_coverage.txt,欲提取Homo_sapiens.sort.add_ex

模型特征選擇簡單模型為復雜模型篩選特征

子集 最好 這樣的 需要 使用 意義 實體 簡單 任務 問題是這樣的: 好凡需要做一個命名實體識別(序列標註)的任務,按照他以往的經驗,用條件隨機場就可以達到預期的指標,眼下他精心設計了10個特征。 問題一:由於實驗室設備老舊,降低任務復雜度的工作非常有意義,那麽他該如何選

R語言畫樹圖

原始資料長這樣: “iyear”表示年份;“nkill”表示死亡人數;“region”表示地區;“總計”表示某年份死亡總人數;nkii裡的缺失資料自動按“0”運算。 資料儲存在名為“ljs”的csv格式裡。 應提前下載好treemap包,先介紹treemap函式

Faster R-CNN區域提案網路實現實時目標檢測

摘要 最先進的目標檢測網路依賴於區域建議演算法來假設物體的位置.像sppnet[1]和快速r-cnn[2]這樣的進步減少了這些檢測網路的執行時間,將區域提案計算暴露為瓶頸。在本文中,我們引入了一個區域提案網路(RPN),它與檢測網路共享全影象卷積特徵,從而實現了幾乎免費的區域提案。RPN是一個完

R語言錯誤資訊及相關解決方法

原創:黃小仙 Error: object of type ‘closure’ is not subsettable 物件大於被取子集,看看物件是不是空的,有時候檔案路徑或者名稱不對,資料並沒有匯入成功 Remove duplicates before ru

R語言因子與字串的互轉

在匯入大批量資料時,如果沒有顯式地指定“stringsAsFactors = FALSE”,預設會將所有的字串轉換為因子,導致資料處理速度較慢。 示例資料如下: name,math,english,sex,year "yiifaa",65,68,"M",

socket例項C語言一個簡單的聊天程式

我們老師讓寫一個簡單的聊天軟體,並且實現不同機子之間的通訊,我用的是SOCKET程式設計。不廢話多說了,先附上程式碼: 伺服器端server.c #include <stdio.h> #include <stdlib.h> #include