1. 程式人生 > >[跪求大神]大資料中的文字資料探勘問題,非結構化轉換問題

[跪求大神]大資料中的文字資料探勘問題,非結構化轉換問題

現有一個數據包,裡面有大量txt檔案,txt檔案裡儲存的是一家餐廳的基本資訊,以及客戶對其評價,包括的欄位如下:

id:店鋪id

name:店鋪名

name_all:店鋪全稱

star:平均評價分數

address:地址

tags:標籤

comment:一條評論

uid:使用者id

user:使用者名稱稱

level:評分

content:評價內容

cut:分詞後的評價字串

-----------------------------------------------

樣例資料:

<id>516112</id>

<name>麻辣誘惑(君太店)</name>

<name_all>麻辣誘惑</name_all>

<star>40</star>

<address>西城區西單北大街133號君太百貨7樓</address>

<tags>川菜 西單</tags>

<comment>

<uid>7068723</uid>

<user>yanglynn</user>

<level>4</level>

<content>人太多,太多。只有水煮魚我還能喜歡吃,別的都覺得也就是吃吃。味道還是不錯的,但是沒好吃的人那麼多的程度吧。呵呵</content>

<cut>太多/太多/只有/有水/水煮/水煮魚/我還/還能/喜歡/吃/別的/都/覺得/也就/就是/吃吃/味道/還是/是不/不錯/不錯的/沒/好吃/吃的/的人/那麼/那麼多/多的/程度/呵呵</cut>

</comment>

現在的目的有2個:(1)需要把這些非結構化資料儘量轉化成可分析的結構化資料(2)需要對評論內容content進行資料探勘,比如能挖出客戶對餐廳環境、菜品、服務態度等方面的評價。

對資料探勘,非結構資料轉換等方面感興趣的,或者熟悉此類操作的大神們,跪求幫助啊!!!!!!希望能提供一點點解決思路,或者是所需要的軟體硬體技術,也可以是部分程式碼,有多少幫助都可以!!!!經濟統計學要邁入大資料的行列,門檻很高麼??小白我決定試一試,求各路大神支招,跪謝!!!