1. 程式人生 > >python +ip2region IP庫地址文件實現秒級查詢1萬不同ip歸屬地址

python +ip2region IP庫地址文件實現秒級查詢1萬不同ip歸屬地址

python +ip2region

一、服務器環境介紹:

服務器硬件:4核4g內存
服務器系統:centos6.9 x86_64位最小化安裝

二、環境安裝

參考地址:https://github.com/lionsoul2014/ip2region
直接下載包到服務器上的/root目錄下
wget https://github.com/lionsoul2014/ip2region/archive/master.zip
unzip解壓
unzip master.zip
到此準備工作基本完成

以下都是github.com官網上的說明,我這邊復制在自己的博文裏了

  1. 99.9%準確率,定時更新:
    數據聚合了一些知名ip到地名查詢提供商的數據,這些是他們官方的的準確率,經測試著實比純真啥的準確多了。

    每次聚合一下數據需要1-2天,會不定時更新。

  2. 標準化的數據格式:
    每條ip數據段都固定了格式:城市Id|國家|區域|省份|城市|ISP

只有中國的數據精確到了城市,其他國家只能定位到國家,後前的選項全部是0,已經包含了全部你能查到的大大小小的國家。 (請忽略前面的城市Id,個人項目需求)

  1. 體積小:
    生成的數據庫文件ip2region.db只有1.5M(1.2版本前是3.5M)

  2. 多查詢客戶端的支持,0.0x毫秒級別的查詢
    已經集成的客戶端有:java, C#, php, c, python,nodejs,php擴展(支持linux, php5, php7版本已支持),golang。

提供了兩種查詢算法,響應時間如下:

客戶端/binary算法/b-tree算法/Memory算法:
c#/0.x毫秒/0.x毫秒/0.x毫秒
java/0.x毫秒/0.x毫秒/0.1x毫秒 (使用RandomAccessFile)
php/0.x毫秒/0.1x毫秒/0.1x毫秒
c/0.0x毫秒/0.0x毫秒/0.00x毫秒(b-tree算法基本穩定在0.02x毫秒級別)
python/0.x毫秒/0.1x毫秒/未知
任何客戶端b-tree都比binary算法快,當然Memory算法固然是最快的!

maven倉庫地址:

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>ip2region</artifactId>
    <version>1.4</version>
</dependency>
nuget安裝命令

Install-Package IP2Region

5. 測試程序:
c#:

cd IP2Region_ConsoleTest
dotnet run
example result:
請輸入IP地址:
36.149.160.55
java:

cd binding/java
ant all
java -jar ip2region-{version}.jar ./data/ip2region.db
php:

php binding/php/testSearcher.php ./data/ip2region.db
c:

cd binding/c/
gcc -g -O2 testSearcher.c ip2region.c
./a.out ../../data/ip2region.db
python:

python binding/python/testSearcher.py ./data/ip2region.db
均會看到如下界面:

initializing  B-tree ... 
+----------------------------------+
| ip2region test script            |
| Author: [email protected]  |
| Type ‘quit‘ to exit program      |
+----------------------------------+
p2region>> 101.105.35.57
2163|中國|華南|廣東省|深圳市|鵬博士 in 0.02295 millseconds
輸入ip地址開始測試,第一次會稍微有點慢,在運行命令後面接入binary,memory來嘗試其他算法,建議使用b-tree算法,速度和並發需求的可以使用memory算法。

具體集成請參考不同客戶端的測試源碼。

6.如何生成ip2region.db文件
從ip2region 1.2.2版本開始裏面提交了一個dbMaker-{version}.jar的可以執行jar文件,用它來完成這個工作:

1, 確保你安裝好了java環境(不玩Java的童鞋就自己谷歌找找拉,臨時用一用,幾分鐘的事情)
2, cd到ip2region的根目錄,然後運行如下命令:
java -jar dbMaker-{version}.jar -src 文本數據文件 -region 地域csv文件 [-dst 生成的ip2region.db文件的目錄]

#文本數據文件:db文件的原始文本數據文件路徑,自帶的ip2region.db文件就是/data/ip.merge.txt生成而來的,你可以換成自己的或者更改/data/ip.merge.txt重新生成
#地域csv文件:該文件目的是方便配置ip2region進行數據關系的存儲,得到的數據包含一個city_id,這個直接使用/data/origin/global_region.csv文件即可
#ip2region.db文件的目錄:是可選參數,沒有指定的話會在當前目錄生成一份./data/ip2region.db文件
3, 獲取生成的ip2region.db文件覆蓋原來的ip2region.db文件即可
4, 默認的ip2region.db文件生成命令:
cd ip2region項目根目錄
java -jar dbMaker-1.2.2.jar -src ./data/ip.merge.txt -region ./data/global_region.csv
#會看到一大片的輸出

三、演示

以下是我采用的php和Python語言進行的實際測試演示:
php演示測試:

[root@git-server ~]# cd /root/ip2region-master
[root@git-server ip2region-master]# ls
binding  CHANGES.md  data  dbMaker-1.2.2.jar  LICENSE.md  README.md
[root@git-server ip2region-master]# cd binding/
[root@git-server binding]# ls
c  c#  c_mmap  golang  java  nodejs  php  php_extension  python  python3
[root@git-server binding]# cd php
[root@git-server php]# ls
Ip2Region.class.php  testSeacher.php
[root@git-server php]# php testSeacher.php /opt/ip2region-master/data/ip2region.db 
initializing  B-tree ... 
+----------------------------------+
| ip2region test script            |
| Author: [email protected]  |
| Type ‘quit‘ to exit program      |
+----------------------------------+
ip2region>> 211.144.7.32
0|中國|0|北京|北京|聯通 in 2.38013 millseconds
ip2region>> 124.207.48.234 
0|中國|0|北京|北京|鵬博士 in 0.12134 millseconds
ip2region>> 

Python演示:

[root@git-server python3]# python3 testSearcher.py /opt/ip2region-master/data/ip2region.db
initializing b-tree...
+----------------------------------+
| ip2region test program           |
| Author: [email protected]. |
| Type ‘quit‘ or ‘exit‘ to exit program      |
+----------------------------------+
ip2region>> 66.249.82.86
0|臺灣|0|臺灣|0|0 in 1.554199 millseconds
ip2region>> 101.108.251.187
0|泰國|0|曼谷|曼谷|TOT in 0.149414 millseconds
ip2region>> 

四、實際應用:

采用python腳本,來查詢一個存有1017萬個不同IP的文本文件中的ip歸屬地
以下結合原作者的testSearcher.py Python腳本,來獲取這存有1017萬個不同IP的歸屬地址。此Python腳本簡單修改如下:

[root@git-server python3]# cat /root/ip2region-master/binding/python3/searcher.py 
#-*- coding:utf-8 -*-
"""
" ip2region python seacher client module
"
" Autho: koma<[email protected]>
" Date : 2015-11-06
"""
import struct, sys, os, time
from ip2Region import Ip2Region

def testSearch():
    """
    " ip2region test function
    """
    llen = len(sys.argv)

    if llen < 3:
        print ("Usage: python testSearcher.py [ip2region db file] [alrogrithm]")
        print ("Algorithm: binary or b-tree")
        return 0

    dbFile    = sys.argv[1]
    method    = 1
    algorithm = "b-tree"
    search_file = sys.argv[2]

    if (not os.path.isfile(dbFile)) or (not os.path.exists(dbFile)):
        print ("[Error]: Specified db file is not exists.")
        return 0
    if (not os.path.isfile(search_file)) or (not os.path.exists(search_file)):
        print("查詢文件不存在")
        return 0

    if llen > 3:
        algorithm = sys.argv[3]
        if algorithm == "binary":
            method = 2
        elif algorithm == "memory":
            method = 3

    searcher = Ip2Region(dbFile);
    with open(search_file,"rt") as f:
        for line in f:
            line = line.strip()
            #print(line)
            if line == "":
                print("[Error]: Invalid ip address.")
                continue

            if line == "quit" or line == "exit":
                print("[Info]: Thanks for your use, Bye.")
                break

            if not searcher.isip(line):
                print("[Error]: Invalid ip address.")
                continue

            #sTime = time.time() * 1000
            if method == 1:
                data = searcher.btreeSearch(line)
            elif method == 2:
                data = searcher.binarySearch(line)
            else:
                data = searcher.memorySearch(line)
            #eTime = time.time() * 1000

            if isinstance(data, dict):
                #print("%s in %f millseconds" % (data["city_id"], data["region"].decode(‘utf-8‘), eTime - sTime))
                #print( "%s" % (data["region"].decode(‘utf-8‘)))
                print("%s|%s" % (line, data["region"].decode(‘utf-8‘)))
            else:
                print("[Error]: ", data)
    searcher.close()

if __name__ == "__main__":
    testSearch()

測試如下:

[root@git-server python3]# cd /root/ip2region-master
[root@git-server ip2region-master]# time python3 ./binding/python3/searcher.py ./data/ip2region.db  /root/unip_guishu >/opt/ipdizhi.txt
real    15m54.394s
user    14m47.138s
sys 0m56.876s
[root@git-server ip2region-master]# tail -10 /opt/ipdizhi.txt 
99.97.22.46|美國|0|0|0|美國電話電報
99.97.26.40|美國|0|0|0|美國電話電報
99.97.29.64|美國|0|0|0|美國電話電報
99.97.30.121|美國|0|0|0|美國電話電報
99.98.238.52|美國|0|南卡羅來納|0|美國電話電報
99.98.254.160|美國|0|加利福尼亞|0|美國電話電報
99.99.218.167|美國|0|德克薩斯|休斯頓|美國電話電報
99.99.232.239|美國|0|德克薩斯|0|美國電話電報
99.99.37.198|美國|0|加利福尼亞|0|美國電話電報
99.99.55.172|美國|0|俄亥俄|0|美國電話電報

總結:當然這個查詢的時間和服務器的硬件有很大的關系,後來我在一臺CPU為16核心的上測試,查詢結果可以達到秒級10萬不同ip的歸屬地查詢結果

python +ip2region IP庫地址文件實現秒級查詢1萬不同ip歸屬地址