1. 程式人生 > >JAVA實現空間索引編碼(GeoHash)

JAVA實現空間索引編碼(GeoHash)

個人部落格站已經上線了,網址 www.llwjy.com ~歡迎各位吐槽~

-------------------------------------------------------------------------------------------------

      之前自己在做基於Lucene的內容檢索過程中,瞭解到Lucene可以實現對文字資訊,數值資訊的內容檢索,對於空間距離好像併為為原始碼中實現;最近半年自己接觸到Solr,裡面有一個空間距離檢索(經緯度),最近對其中的實現做了下學習,瞭解到在實現空間距離檢索的有一個比較常用的技術——GeoHash,下面就介紹下GeoHash。

GeoHash特點

1)GeoHash用一個字串表示經度和緯度兩個座標,比如我現在所在位置的GeoHash值為 wx4sv61q;

2)GeoHash標識的並不是一個點,而是一個區域,比如 wx4sv61q 對應的就是一個矩形區域;

3)編碼的字首可以標識更大的區域,比如 wx4sv61 編碼代表的區域要大於 wx4sv61q 代表的區域,但是 wx4sv61q 代表的區域一定在 wx4sv61 代表的區域內。

      因此我們再去做距離檢索的時候,只需要對GeoHash進行字首匹配即可,具體的原因在後面內容進行介紹。

GeoHash原理

      GeoHash最簡單的解釋就是將一個位置資訊轉化成一個可以排序、可以比較的字串編碼。下面就詳細介紹以下其實現過程:

      首先我們將緯度(-90, 90)平均分成兩個區間(-90, 0)、(0, 90),如果座標位置的緯度值在第一區間,則編碼是0,否則編碼為1。我們用 40.222012 舉例,由於40.222012 屬於 (0, 90),所以編碼為1,然後我們繼續將(0, 90)分成(0, 45)、(45, 90)兩個區間,而40.222012 位於(0, 45),所以編碼是0,依次類推,我們進行20次拆分,最後計算40.222012 的編碼是 10111001001101000110。

      對於經度採用同樣的的方法,得到 116.248283 的編碼是 11010010101010100101。

      接下來我們對經緯度的編碼合併,奇數為是緯度,偶數為是經度,得到的編碼是 1110011101001001100011011001100000110110(這裡需要特別注意,這裡說的奇數、偶數是值陣列的下標,從0開始的

);

      最後用base32編碼,二進位制串對應的十進位制分別為 28, 29, 4, 24, 27, 6, 1, 22,轉化為base32是wx4sv61q,因此就 得到(40.222012, 116.248283) 的編碼為 wx4sv61q。(下圖介紹了base32的對應關係)

img

      編碼 wx4sv61q 在地圖上對應的位置如下圖:

img

      這裡我們GeoHash的編碼長度為8,這時精度在19米,下表列出了不同的編碼長度對應的精度:

img

img

      由上面的精度可知,如果要選取和我(40.222012, 116.248283)相距2km內的物品,我們只需要查詢物品座標對應的GeoHash以wx4sv為字首的即可。

GeoHash延伸

      到目前為止我們對空間索引有了一定的瞭解,但是上面介紹的內容對下面的一種情況就無法實現(下面這幅圖出自他人的部落格):

img

      我們從圖中可以看出,紅點與上方的綠點距離較近,與下方的綠點距離較遠,但是紅點與下方的綠點的編碼字串一樣,都是wx4g0。對於GeoHash這種邊界問題解決思路也十分簡單,我們在做檢索或者查詢的時候,對周圍的八個區域進行匹配,這樣就很好的解決了邊界問題。下面我們就對GeoHash用java進行實現。

JAVA實現

      在實現之前,我們首先定義一個LocationBean,用它來表示經緯度資訊:

 /**  
 *@Description: 儲存經緯度資訊   
 */ 
package com.lulei.geo.bean;  
  
public class LocationBean {
	public static final double MINLAT = -90;
	public static final double MAXLAT = 90;
	public static final double MINLNG = -180;
	public static final double MAXLNG = 180;
	private double lat;//緯度[-90,90]
	private double lng;//經度[-180,180]
	
	public LocationBean(double lat, double lng) {
		this.lat = lat;
		this.lng = lng;
	}
	public double getLat() {
		return lat;
	}
	public void setLat(double lat) {
		this.lat = lat;
	}
	public double getLng() {
		return lng;
	}
	public void setLng(double lng) {
		this.lng = lng;
	}
}

      然後我們編寫一個類,來實現GeoHash,在實現GeoHash的過程中,我們需要用定義一些常量以及經緯度資訊,具體如下:
public class GeoHash {
	private LocationBean location;
	/**
	 * 1 2500km;2 630km;3 78km;4 30km
	 * 5 2.4km; 6 610m; 7 76m; 8 19m
	 */
	private int hashLength = 8; //經緯度轉化為geohash長度
	private int latLength = 20; //緯度轉化為二進位制長度
	private int lngLength = 20; //經度轉化為二進位制長度
	
	private double minLat;//每格緯度的單位大小
	private double minLng;//每個經度的倒下
	private static final char[] CHARS = {'0', '1', '2', '3', '4', '5', '6', '7', 
				'8', '9', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k', 'm', 'n', 
				'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'};
}
      在GeoHash例項化時,我們需要對一些屬性進行賦值
public GeoHash(double lat, double lng) {
	location = new LocationBean(lat, lng);
	setMinLatLng();
}

public int gethashLength() {
	return hashLength;
}

/**
 * @Author:lulei  
 * @Description: 設定經緯度的最小單位
 */
private void setMinLatLng() {
	minLat = LocationBean.MAXLAT - LocationBean.MINLAT;
	for (int i = 0; i < latLength; i++) {
		minLat /= 2.0;
	}
	minLng = LocationBean.MAXLNG - LocationBean.MINLNG;
	for (int i = 0; i < lngLength; i++) {
		minLng /= 2.0;
	}
}

      我們在使用GeoHash的時候,需要設定最終編碼的長度,因此編寫一個方法實現對GeoHash長度的設定
public boolean sethashLength(int length) {
	if (length < 1) {
		return false;
	}
	hashLength = length;
	latLength = (length * 5) / 2;
	if (length % 2 == 0) {
		lngLength = latLength;
	} else {
		lngLength = latLength + 1;
	}
	setMinLatLng();
	return true;
}

      有了這些設定之後,我們需要將經度、緯度轉化為對應的二進位制編碼
private boolean[] getHashArray(double value, double min, double max, int length) {
	if (value < min || value > max) {
		return null;
	}
	if (length < 1) {
		return null;
	}
	boolean[] result = new boolean[length];
	for (int i = 0; i < length; i++) {
		double mid = (min + max) / 2.0;
		if (value > mid) {
			result[i] = true;
			min = mid;
		} else {
			result[i] = false;
			max = mid;
		}
	}
	return result;
}
      分別獲取經緯度的二進位制編碼後,我們需要將兩個二進位制字串合併成一個
private boolean[] merge(boolean[] latArray, boolean[] lngArray) {
	if (latArray == null || lngArray == null) {
		return null;
	}
	boolean[] result = new boolean[lngArray.length + latArray.length];
	Arrays.fill(result, false);
	for (int i = 0; i < lngArray.length; i++) {
		result[2 * i] = lngArray[i];
	}
	for (int i = 0; i < latArray.length; i++) {
		result[2 * i + 1] = latArray[i];
	}
	return result;
}

      最後我們需要將獲得的二進位制轉進行base32轉化
/**
 * @param lat
 * @param lng
 * @return
 * @Author:lulei  
 * @Description: 獲取經緯度的base32字串
 */
private String getGeoHashBase32(double lat, double lng) {
	boolean[] bools = getGeoBinary(lat, lng);
	if (bools == null) {
		return null;
	}
	StringBuffer sb = new StringBuffer();
	for (int i = 0; i < bools.length; i = i + 5) {
		boolean[] base32 = new boolean[5];
		for (int j = 0; j < 5; j++) {
			base32[j] = bools[i + j];
		}
		char cha = getBase32Char(base32);
		if (' ' == cha) {
			return null;
		}
		sb.append(cha);
	}
	return sb.toString();
}

/**
 * @param base32
 * @return
 * @Author:lulei  
 * @Description: 將五位二進位制轉化為base32
 */
private char getBase32Char(boolean[] base32) {
	if (base32 == null || base32.length != 5) {
		return ' ';
	}
	int num = 0;
	for (boolean bool : base32) {
		num <<= 1;
		if (bool) {
			num += 1;
		}
	}
	return CHARS[num % CHARS.length];
}

      對於如何獲取周圍八個區域的GeoHash值這個問題我們可以做如下轉化,我們已經知道當前點的經緯度值,我們也知道每一個區域內的經度、緯度的寬度,如果經度加上或減去這個寬度,我們就可以位於該區域左側和右側區域的經度,如果緯度加上或減去這個寬度,我們就可以獲取該區域上部和下部的緯度,這樣我們就可以分別獲取到該區域周圍八個區域內的一個點的座標,我們分別計算這八個點的座標,也就是八個區域對應的GeoHash編碼。

public List<String> getGeoHashBase32For9() {
	double leftLat = location.getLat() - minLat;
	double rightLat = location.getLat() + minLat;
	double upLng = location.getLng() - minLng;
	double downLng = location.getLng() + minLng;
	List<String> base32For9 = new ArrayList<String>();
	//左側從上到下 3個
	String leftUp = getGeoHashBase32(leftLat, upLng);
	if (!(leftUp == null || "".equals(leftUp))) {
		base32For9.add(leftUp);
	}
	String leftMid = getGeoHashBase32(leftLat, location.getLng());
	if (!(leftMid == null || "".equals(leftMid))) {
		base32For9.add(leftMid);
	}
	String leftDown = getGeoHashBase32(leftLat, downLng);
	if (!(leftDown == null || "".equals(leftDown))) {
		base32For9.add(leftDown);
	}
	//中間從上到下 3個
	String midUp = getGeoHashBase32(location.getLat(), upLng);
	if (!(midUp == null || "".equals(midUp))) {
		base32For9.add(midUp);
	}
	String midMid = getGeoHashBase32(location.getLat(), location.getLng());
	if (!(midMid == null || "".equals(midMid))) {
		base32For9.add(midMid);
	}
	String midDown = getGeoHashBase32(location.getLat(), downLng);
	if (!(midDown == null || "".equals(midDown))) {
		base32For9.add(midDown);
	}
	//右側從上到下 3個
	String rightUp = getGeoHashBase32(rightLat, upLng);
	if (!(rightUp == null || "".equals(rightUp))) {
		base32For9.add(rightUp);
	}
	String rightMid = getGeoHashBase32(rightLat, location.getLng());
	if (!(rightMid == null || "".equals(rightMid))) {
		base32For9.add(rightMid);
	}
	String rightDown = getGeoHashBase32(rightLat, downLng);
	if (!(rightDown == null || "".equals(rightDown))) {
		base32For9.add(rightDown);
	}
	return base32For9;
}

執行結果

img

完整程式碼

      上面的部落格中已經有完整的LoacationBean程式碼,這裡就不再寫了。

 /**  
 *@Description: GeoHash實現經緯度的轉化
 */ 
package com.lulei.geo;  

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

import com.lulei.geo.bean.LocationBean;
import com.lulei.util.JsonUtil;
  
public class GeoHash {
	private LocationBean location;
	/**
	 * 1 2500km;2 630km;3 78km;4 30km
	 * 5 2.4km; 6 610m; 7 76m; 8 19m
	 */
	private int hashLength = 8; //經緯度轉化為geohash長度
	private int latLength = 20; //緯度轉化為二進位制長度
	private int lngLength = 20; //經度轉化為二進位制長度
	
	private double minLat;//每格緯度的單位大小
	private double minLng;//每個經度的倒下
	private static final char[] CHARS = {'0', '1', '2', '3', '4', '5', '6', '7', 
				'8', '9', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k', 'm', 'n', 
				'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'};
	
	public GeoHash(double lat, double lng) {
		location = new LocationBean(lat, lng);
		setMinLatLng();
	}
	
	public int gethashLength() {
		return hashLength;
	}
	
	/**
	 * @Author:lulei  
	 * @Description: 設定經緯度的最小單位
	 */
	private void setMinLatLng() {
		minLat = LocationBean.MAXLAT - LocationBean.MINLAT;
		for (int i = 0; i < latLength; i++) {
			minLat /= 2.0;
		}
		minLng = LocationBean.MAXLNG - LocationBean.MINLNG;
		for (int i = 0; i < lngLength; i++) {
			minLng /= 2.0;
		}
	}
	
	/**
	 * @return
	 * @Author:lulei  
	 * @Description: 求所在座標點及周圍點組成的九個
	 */
	public List<String> getGeoHashBase32For9() {
		double leftLat = location.getLat() - minLat;
		double rightLat = location.getLat() + minLat;
		double upLng = location.getLng() - minLng;
		double downLng = location.getLng() + minLng;
		List<String> base32For9 = new ArrayList<String>();
		//左側從上到下 3個
		String leftUp = getGeoHashBase32(leftLat, upLng);
		if (!(leftUp == null || "".equals(leftUp))) {
			base32For9.add(leftUp);
		}
		String leftMid = getGeoHashBase32(leftLat, location.getLng());
		if (!(leftMid == null || "".equals(leftMid))) {
			base32For9.add(leftMid);
		}
		String leftDown = getGeoHashBase32(leftLat, downLng);
		if (!(leftDown == null || "".equals(leftDown))) {
			base32For9.add(leftDown);
		}
		//中間從上到下 3個
		String midUp = getGeoHashBase32(location.getLat(), upLng);
		if (!(midUp == null || "".equals(midUp))) {
			base32For9.add(midUp);
		}
		String midMid = getGeoHashBase32(location.getLat(), location.getLng());
		if (!(midMid == null || "".equals(midMid))) {
			base32For9.add(midMid);
		}
		String midDown = getGeoHashBase32(location.getLat(), downLng);
		if (!(midDown == null || "".equals(midDown))) {
			base32For9.add(midDown);
		}
		//右側從上到下 3個
		String rightUp = getGeoHashBase32(rightLat, upLng);
		if (!(rightUp == null || "".equals(rightUp))) {
			base32For9.add(rightUp);
		}
		String rightMid = getGeoHashBase32(rightLat, location.getLng());
		if (!(rightMid == null || "".equals(rightMid))) {
			base32For9.add(rightMid);
		}
		String rightDown = getGeoHashBase32(rightLat, downLng);
		if (!(rightDown == null || "".equals(rightDown))) {
			base32For9.add(rightDown);
		}
		return base32For9;
	}

	/**
	 * @param length
	 * @return
	 * @Author:lulei  
	 * @Description: 設定經緯度轉化為geohash長度
	 */
	public boolean sethashLength(int length) {
		if (length < 1) {
			return false;
		}
		hashLength = length;
		latLength = (length * 5) / 2;
		if (length % 2 == 0) {
			lngLength = latLength;
		} else {
			lngLength = latLength + 1;
		}
		setMinLatLng();
		return true;
	}
	
	/**
	 * @return
	 * @Author:lulei  
	 * @Description: 獲取經緯度的base32字串
	 */
	public String getGeoHashBase32() {
		return getGeoHashBase32(location.getLat(), location.getLng());
	}
	
	/**
	 * @param lat
	 * @param lng
	 * @return
	 * @Author:lulei  
	 * @Description: 獲取經緯度的base32字串
	 */
	private String getGeoHashBase32(double lat, double lng) {
		boolean[] bools = getGeoBinary(lat, lng);
		if (bools == null) {
			return null;
		}
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < bools.length; i = i + 5) {
			boolean[] base32 = new boolean[5];
			for (int j = 0; j < 5; j++) {
				base32[j] = bools[i + j];
			}
			char cha = getBase32Char(base32);
			if (' ' == cha) {
				return null;
			}
			sb.append(cha);
		}
		return sb.toString();
	}
	
	/**
	 * @param base32
	 * @return
	 * @Author:lulei  
	 * @Description: 將五位二進位制轉化為base32
	 */
	private char getBase32Char(boolean[] base32) {
		if (base32 == null || base32.length != 5) {
			return ' ';
		}
		int num = 0;
		for (boolean bool : base32) {
			num <<= 1;
			if (bool) {
				num += 1;
			}
		}
		return CHARS[num % CHARS.length];
	}
	
	/**
	 * @param lat
	 * @param lng
	 * @return
	 * @Author:lulei  
	 * @Description: 獲取座標的geo二進位制字串
	 */
	private boolean[] getGeoBinary(double lat, double lng) {
		boolean[] latArray = getHashArray(lat, LocationBean.MINLAT, LocationBean.MAXLAT, latLength);
		boolean[] lngArray = getHashArray(lng, LocationBean.MINLNG, LocationBean.MAXLNG, lngLength);
		return merge(latArray, lngArray);
	}
	
	/**
	 * @param latArray
	 * @param lngArray
	 * @return
	 * @Author:lulei  
	 * @Description: 合併經緯度二進位制
	 */
	private boolean[] merge(boolean[] latArray, boolean[] lngArray) {
		if (latArray == null || lngArray == null) {
			return null;
		}
		boolean[] result = new boolean[lngArray.length + latArray.length];
		Arrays.fill(result, false);
		for (int i = 0; i < lngArray.length; i++) {
			result[2 * i] = lngArray[i];
		}
		for (int i = 0; i < latArray.length; i++) {
			result[2 * i + 1] = latArray[i];
		}
		return result;
	}
	
	/**
	 * @param value
	 * @param min
	 * @param max
	 * @return
	 * @Author:lulei  
	 * @Description: 將數字轉化為geohash二進位制字串
	 */
	private boolean[] getHashArray(double value, double min, double max, int length) {
		if (value < min || value > max) {
			return null;
		}
		if (length < 1) {
			return null;
		}
		boolean[] result = new boolean[length];
		for (int i = 0; i < length; i++) {
			double mid = (min + max) / 2.0;
			if (value > mid) {
				result[i] = true;
				min = mid;
			} else {
				result[i] = false;
				max = mid;
			}
		}
		return result;
	}
	

	public static void main(String[] args) {
		// TODO Auto-generated method stub 
		GeoHash g = new GeoHash(40.222012, 116.248283);
		System.out.println(g.getGeoHashBase32());
		System.out.println(JsonUtil.parseJson(g.getGeoHashBase32For9()));
	}

}


-------------------------------------------------------------------------------------------------
小福利
-------------------------------------------------------------------------------------------------
      個人在極客學院上《Lucene案例開發》課程已經上線了(目前上線到第二課),歡迎大家吐槽~

第七課:小說網站分散式爬蟲的實現