[原始碼和文件分享]基於Python實現的論壇帖子情感分析
一、課程專案
Scuinfo文字分類分析
二、專案類容
爬取川大匿名社群SCUinfo在一段時間內的帖子,對其進行情感分類分析,包括情緒分類(積極,消極),帖子內容關聯分析等。
三、個人工作完成報告
3.1 工作概述
負責資料收集、預處理以及簡單的情感分析
3.2 爬蟲方案
scuinfo為動態載入網頁,並且有移動端驗證,嘗試使用scrapy爬取資料失敗,需要對爬蟲進行大量定製優化,為了提高開發效率,最終使用了之前爬取QQ空間採用的方式:使用selenium庫呼叫firefox瀏覽器驅動,該再通過程式碼模擬人為操作瀏覽器。獲取到對應頁面資料後,使用etree和xpath選取相應的目標節點資料。
-
優點:輕鬆解決網頁動態載入,登入驗證,移動端驗證等問題
-
缺點:該方式需要一直保持瀏覽器前臺執行,並且只能為單執行緒模式,爬取效率相對較低
關鍵程式碼如下所示:
參考文件和完整的文件和原始碼下載地址:
https://www.write-bug.com/article/1272.html
相關推薦
[原始碼和文件分享]基於Python實現的論壇帖子情感分析
一、課程專案 Scuinfo文字分類分析 二、專案類容 爬取川大匿名社群SCUinfo在一段時間內的帖子,對其進行情感分類分析,包括情緒分類(積極,消極),帖子內容關聯分析等。 三、個人工作完成報告 3.1 工作概述 負責資料收集、預處理以及簡單的情感分析 3.2 爬蟲方
[原始碼和文件分享]基於Python的Pygame庫實現的仿微信遊戲中的飛機大戰小遊戲
不知大家是否還記得當時微信上風靡一時的打飛機小遊戲,通過控制我方飛機的上下左右移動,發射子彈來擊毀敵機,增加得分。這是一款簡單操作易上手又很有趣味性的遊戲,我使用python作為基本語言,利用pygame仿照微信版本完成了這款低配版飛機大戰遊戲。 我方飛機會按時的不斷髮射子彈,玩家通過上下左右的方向鍵來躲避
[原始碼和文件分享]基於Python的Django框架實現的中式快餐廳管理資訊系統網站
1 初步調研 隨著餐飲業的連鎖和國外餐飲巨頭的進入,餐飲業的競爭將越來越激烈:要想在競爭中處於不敗之地,必須在管理、服務等方面提高服務管理意識。面對當前餐飲業普遍的產業化程度低,管理手段、管理技術落後等問題,使用計算機管理在很大程度上可以幫助餐飲企業克服這些困難。計算機管理系統可以提高餐飲企業的
[原始碼和文件分享]基於Python的Django框架實現的人物資訊檢索系統
1 簡介 這是一個利用Django搭建的一個人物資訊檢索系統,大約從Wikipedia爬取了10000 個人物資訊,並且提取了其中 Infobox 的對應資訊。 對於 Wikipedia 中爬取的資訊,我們重新組織了其格式並且進行顯示。 左側為搜尋頁面,右側為搜尋結果,匹配的欄位被
[原始碼和文件分享]基於Python的PyGame的俄羅斯方塊遊戲設計與實現
摘 要 近年來,隨著遊戲產業的突飛猛進,遊戲玩家的技術也是與日俱增,當你看見遊戲高手完美的表演時,你是否想過我也能達到那種水平,本程式用Python語言編寫俄羅斯方塊,左側顯示正在執行的遊戲,右邊顯示下一個出現的形狀、等級和積分等。遊戲執行時隨著等級的提高而速度加快,這需要玩家快速操作。因此,本
[原始碼和文件分享]基於Python的PyGame庫實現的2048小遊戲
一、簡介 2048的遊戲規則很簡單,每次可以選擇上下左右其中一個方向去滑動,每滑動一次,所有的數字方塊都會往滑動的方向靠攏外,系統也會在空白的地方亂數出現一個數字方塊,相同數字的方塊在靠攏、相撞時會相加。系統給予的數字方塊不是2就是4,玩家要想辦法在這小小的16格範圍中湊出“2048”這個數字方
[原始碼和文件分享]基於C++實現的LZW壓縮演算法
1 特點 基於C++實現的LZW壓縮演算法,特點如下所示: 使用stl::map鍵值對作為字典儲存 感覺算是簡單的檔案操作 字典無限長,字典自生長。但是字典只能解析儲存ascii編碼之類存在,中文符號之類的碰到就掛 2 邏輯設計 2.1 總體思路
[原始碼和文件分享]基於C++實現的二叉排序樹
一、使用說明 1.1 專案簡介 依次輸入關鍵字並建立二叉排序樹,實現二叉排序樹的插入和查詢功能。 1.2 專案功能要求 二叉排序樹就是指將原來已有的資料根據大小構成一棵二叉樹,二叉樹中的所有結點資料滿足一定的大小關係,所有的左子樹中的結點均比根結點小,所有的右子樹的結點均比根結點大。
[原始碼和文件分享]基於C++實現的家譜管理系統
一、使用說明 1.1 專案簡介 家譜是一種以表譜形式,記載一個以血緣關係為主體的家族世襲繁衍和重要任務事蹟的特殊圖書體裁。家譜是中國特有的文化遺產,是中華民族的三大文獻(國史,地誌,族譜)之一,屬於珍貴的人文資料,對於歷史學,民俗學,人口學,社會學和經濟學的深入研究,均有其不可替代的獨特功能
[原始碼和文件分享]基於C++實現的迷你資料庫
1 引言 1.1 目的 為了深入學習和了解資料庫以及小學期課程需要,我們小組決定自己編寫一個簡單的mini-database。 1.2 背景 1970年,IBM的研究員,有“關係資料庫之父”之稱的埃德加•弗蘭克•科德(Edgar Frank Codd或E. F. Codd)博士在刊物
[原始碼和文件分享]基於QT實現的約會吧社交聊天系統
1 問題陳述 約會管理系統是一個幫助人們發起並安排約會的平臺。一旦註冊成為該系統的使用者後,你就可以邀請任意的其他使用者來一場一對一的約會,從而增進感情,達成共識,贏得未來。 新使用者需要先行註冊,要求填寫使用者名稱和密碼,以及email和電話號碼。註冊成功或是老使用者,則通過使用者名稱和密
[原始碼和文件分享]基於JAVA實現的紙牌遊戲
1 專案介紹 1.1 背景和目的 單人紙牌遊戲,牌桌上有7個堆共28張牌,第一堆1張牌,第二堆2張,。。。第7堆7張,每一堆的第一張牌朝上,其他朝下。牌桌上還有4個suitpiles,一個deck card堆和一個discard card堆(參考Windows的紙牌遊戲) 設計一個簡單的
[原始碼和文件分享]基於C++實現的經典坦克大戰遊戲
1 題目描述 這戰車大戰就是指紅白機的戰車大戰,操縱戰車,將敵人通通轟掉,完成這個關卡。 小時後完紅白機時,不能輸人金手指,沒辦法自由控制遊戲,現在剛好有這個OOP專題機會,我們就仿製一個戰車大戰,自己可以完全控制程式碼,做到比輸人金手指更完整的控制。 程式使用 DEV-C 編譯器進行開
[原始碼和文件分享]基於easyx實現的黑白棋遊戲
一 需求分析 C語言課程設計,介面結合 秦時明月 中的 墨攻棋陣 ,實現該黑白棋小遊戲。 二 功能說明 遊戲包含 單人模式、雙人模式、聯機對戰、觀戰模式 等四種模式,主介面如下圖所示。 參考文件和完整的文件和原始碼下載地址: https://www.wr
[原始碼和文件分享]基於C++實現的構建二級檔案模擬系統
1 需求分析 題目:構建二級檔案模擬系統 題目說明:使用一個普通的大檔案(如 c:\myDisk.img ,稱之為一級檔案)來模擬 UNIX V6++的一個檔案卷 一個檔案卷實際上就是一張邏輯磁碟,磁碟中儲存的資訊以塊為單位。每塊 512 位元組。
[原始碼和文件分享]基於JAVA實現的基於DFA的詞法分析程式
1 實驗目的 根據自己確定的正規表示式,編寫、除錯一個詞法分析程式,對語句進行詞法分析,從而更好理解詞法分析原理。 2 內容描述 此程式用java編寫。程式讀取一個文字檔案,並對其中的內容進行詞法分析,此程式實現了對java程式簡單的詞法識別,可識別一部分保留字、識別符號、操作符,一部分
[原始碼和文件分享]基於C++實現的高考成績模擬錄取系統
一、原程式功能、結構 1.1 功能 定義一個學生類 包括:姓名、性別、年齡、准考證號、畢業學校、語文、數學、英語三門課的成績、兩門選測課及其等級:分為a+, a, b+, b, c+, c, d+, d 主要的類成員函式包括: 採用動態分配,設計構造和解構函式 計算
[原始碼和文件分享]基於MFC實現的AES加密解密程式
1 演算法背景及介紹 1.1 背景 高階加密標準(Advanced Encryption Standard,AES)作為傳統對稱加密演算法標準DES的替代者,由美國國家標準與技術研究所(NIST)於1997年提出徵集該演算法的公告。1999年3月22日,NIST從15個候選演算法中公佈了5個
[原始碼和文件分享]基於JAVA實現的迷宮鼠迷宮小遊戲
1 功能說明 1.1 問題描述 用JAVA實現電腦鼠走迷宮的程式,一個假想的小車能在圖示的迷宮中穿行輸出其可能的組合式。 1.2 題目要求 根據國際比賽規則,電老鼠走迷宮分為三個階段: 從起點走到終點從終點 進一步遍歷完整個迷宮,獲得整個迷宮的地圖(牆和通路)
[原始碼和文件分享]基於python的中文聊天機器人
前言 釋出這篇 Chat 的初衷是想和各位一起分享一下動手來做聊天機器人的樂趣,因此本篇文章適合用於深度機器學習的研究和興趣發展,因為從工業應用的角度來看使用百度、科大訊飛的 API 介面會更加的適合。在這篇文章中,希望和大家一起共同交流和探索動手實踐的樂趣,當然也歡迎大神來做深度的探討以及吐槽