如何在創建hive表格的python代碼中導入外部文件

阿新 • • 發佈：2019-03-15

quest 集群 shel 導入數據分析入門 transform add sin key

業務場景大概是這樣的，我要對用戶博文進行分詞(這個步驟可以看這篇文章如何在hive調用python的時候使用第三方不存在的庫-how to use external python library in hadoop）
然後在對每條博文進行分詞之後呢，我需要做的就是對分詞之後的結果去除停用詞，但是在公司hadoop集群是是沒有我們所需要的停用詞文件的，其實解決這個問題很類似我上面列出來的文章，就是如果在hive的自定義函數中使用我們自己的文件或者包

解決辦法大概是這樣:
首先在shell腳本中加入 add file ./stop_word.txt;

function zida(){
cat <<EOF
add file ./jieba.mod;
add file ./stop_word.txt;
add file ./zida.py;

    select transform(tmp.*) using 'python zida.py test'
    AS uid,bowen
    FROM(
        select *  from hive_table)tmp
EOF
}

hive -e "`zida`"
echo "zida"

然後在python腳本中加入對應代碼:

import io
stopwords = [line.strip() for line in io.open('stop_word.txt','r',encoding='utf-8').readlines()]

在這個辦法中，會出現報錯，原因就是公司python運行環境比較老舊，所以在讀取中文文本的時候會出現問題:
代碼是這樣的

stopwords = [line.strip() for line in open('stop_word.txt','r',encoding='utf-8').readlines()]

出現報錯:
‘encoding‘ is an invalid keyword argument for this function

解決辦法如下:

import io
stopwords = [line.strip() for line in io.open('stop_word.txt','r',encoding='utf-8').readlines()]

這個問題的解決是參考的這裏

參考鏈接:
關於這個方法一個很好的總結-hive+python數據分析入門
Accessing external file in Python UDF

如何在創建hive表格的python代碼中導入外部文件

quest 集群 shel 導入數據分析入門 transform add sin key 業務場景大概是這樣的，我要對用戶博文進行分詞(這個步驟可以看這篇文章如何在hive調用python的時候使用第三方不存在的庫-how to use external python l

如何在創建hive表格的python代碼中導入外部文件

如何在創建hive表格的python代碼中導入外部文件

Visual Studio 創建封裝自己的代碼段（C#）

_001_QT的創建和基本的代碼解析

[轉]Xilinx Vivado的使用詳細介紹（1）：創建工程、編寫代碼、行為仿真、Testbench

Python - 使用Pyinstaller將Python代碼生成可執行文件

【代碼審計】VAuditDemo 文件包含漏洞

u-boot移植（十三）---代碼修改---支持文件系統及補丁制作

php幾行代碼實現CSV格式文件輸出

java代碼編輯器 pdf文件預覽主流SSM 代碼生成器 shrio redis websocket即時通訊

第三百七十六節，Django+Xadmin打造上線標準的在線教育平臺—創建用戶操作app，在models.py文件生成5張表，用戶咨詢表、課程評論表、用戶收藏表、用戶消息表、用戶學習表

git管理代碼上傳忽略文件

idea使用Git提交代碼時忽略指定文件或文件夾

java代碼編輯器 pdf文件預覽主流SSM 代碼生成器 shrio redis websocke

大數據學習——java代碼實現對HDFS文件的read、append、write操作

c#代碼安裝字體文件

兄弟連區塊鏈教程Fabric1.0源代碼分析blockfile區塊文件存儲1

【代碼筆記】Java文件的輸入輸出（1）——Java.io包的初步理解

使用 Setup 將Python 代碼打包

冒泡排序的python代碼實現

機器學習完整過程案例分布解析，python代碼解析

如何在創建hive表格的python代碼中導入外部文件

相關推薦