[跪求大神]大資料中的文字資料探勘問題,非結構化轉換問題
現有一個數據包,裡面有大量txt檔案,txt檔案裡儲存的是一家餐廳的基本資訊,以及客戶對其評價,包括的欄位如下:
id:店鋪id
name:店鋪名
name_all:店鋪全稱
star:平均評價分數
address:地址
tags:標籤
comment:一條評論
uid:使用者id
user:使用者名稱稱
level:評分
content:評價內容
cut:分詞後的評價字串
-----------------------------------------------
樣例資料:
<id>516112</id>
<name>麻辣誘惑(君太店)</name>
<name_all>麻辣誘惑</name_all>
<star>40</star>
<address>西城區西單北大街133號君太百貨7樓</address>
<tags>川菜 西單</tags>
<comment>
<uid>7068723</uid>
<user>yanglynn</user>
<level>4</level>
<content>人太多,太多。只有水煮魚我還能喜歡吃,別的都覺得也就是吃吃。味道還是不錯的,但是沒好吃的人那麼多的程度吧。呵呵</content>
<cut>太多/太多/只有/有水/水煮/水煮魚/我還/還能/喜歡/吃/別的/都/覺得/也就/就是/吃吃/味道/還是/是不/不錯/不錯的/沒/好吃/吃的/的人/那麼/那麼多/多的/程度/呵呵</cut>
</comment>
現在的目的有2個:(1)需要把這些非結構化資料儘量轉化成可分析的結構化資料(2)需要對評論內容content進行資料探勘,比如能挖出客戶對餐廳環境、菜品、服務態度等方面的評價。
對資料探勘,非結構資料轉換等方面感興趣的,或者熟悉此類操作的大神們,跪求幫助啊!!!!!!希望能提供一點點解決思路,或者是所需要的軟體硬體技術,也可以是部分程式碼,有多少幫助都可以!!!!經濟統計學要邁入大資料的行列,門檻很高麼??小白我決定試一試,求各路大神支招,跪謝!!!