基於spring boot架構和word分詞器的分詞檢索，排序，分頁實現

阿新 • • 發佈：2019-01-11

本文不適合Java初學者，適合對spring boot有一定了解的同學。文中可能涉及到一些實體類、dao類、工具類文中沒有這些類大家不必在意，不影響本文的核心內容，本文重在對方法的梳理。

word分詞器maven依賴

<dependency>
   <groupId>org.apdplat</groupId>
   <artifactId>word</artifactId>
   <version>1.3</version>
</dependency>

spring boot的常見依賴在這裡我就不列舉了可以見文章

基於maven的spring boot 專案porm檔案配置(含定時器，資料抓取，分詞器依賴配置)

先構建一個PageUtil類用於封裝分頁排序方法。

package com.frank.demo.util;

import java.text.ParseException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

public class PageUtil {
	// 分頁方法
	public static <T> List<T> splitList(List<T> list, int pageSize, int curPage) {
		List<T> subList = new ArrayList<T>();
		int listSize = list.size();
		int star = pageSize * curPage;
		int end = pageSize * (curPage + 1);
		if (end > listSize) {
			end = listSize;
		}
		if (star >= listSize) {
			return new ArrayList<T>();
		}
		for (int i = star; i < end; i++) {
			subList.add(list.get(i));
		}
		return subList;
	}

	// 排序（搜尋內容按照相似度高低排序）
	private static void comparator(List<EtlSearchCompanyResponseDto> data) {
		Collections.sort(data, new Comparator<EtlSearchCompanyResponseDto>() {
			@Overridepublic
			int compare(EtlSearchCompanyResponseDto o1, EtlSearchCompanyResponseDto o2) {
				int cp = 0;
				if (o1.getMatching() > o2.getMatching()) {
					cp = -1;
				} else if (o1.getMatching() < o2.getMatching()) {
					cp = 1;
				}
				return cp;
			}
		});
	}
}

現在構建一個SearchService請看下面程式碼，

package com.frank.demo.service;

//java內部工具
import java.util.Collections;
import java.util.Comparator;
import java.util.LinkedHashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;

//基於spring boot整合hibernate的標準查詢
import javax.persistence.criteria.CriteriaBuilder;
import javax.persistence.criteria.CriteriaQuery;
import javax.persistence.criteria.Predicate;
import javax.persistence.criteria.Root;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.domain.Sort;
import org.springframework.data.domain.Sort.Direction;
import org.springframework.data.jpa.domain.Specification;
import org.springframework.stereotype.Service;



// 分詞器
import org.apdplat.word.WordSegmenter;
import org.apdplat.word.segmentation.Word;

//用到的dao、實體類、工具類等，本文重在方法上的理解不必在意這些輔助類
import com.frank.demo.dao.EtlDataT1004Dao;
import com.frank.demo.dao.EtlDataT1009Dao;
import com.frank.demo.dao.EtlDataT1022Dao;
import com.frank.demo.dto.EtlCreatDueDiligenceRequestDto;
import com.frank.demo.dto.EtlSearchCompanyResponseDto;
import com.frank.demo.entity.EtlDataT1004;
import com.frank.demo.entity.EtlDataT1009;
import com.frank.demo.entity.EtlDataT1022;
import com.frank.demo.util.api.ApiResponse;
import com.frank.demo.util.dto.v1.PageRequestDto;
import com.frank.demo.util.PageUtil;

@Service
public class SearchService {
	@Autowired
	EtlDataT1004Dao etlDataT1004Dao;
	@Autowired
	EtlDataT1009Dao etlDataT1009Dao;
	@Autowired
	EtlDataT1022Dao etlDataT1022Dao;
	private List<Word> words;


        //本例是多資料來源搜尋，所以採用的是從三張表中獲取相似公司名稱的記錄，再計算每條記錄的相似度，最後統一放到list集合進行排序，最後採用記憶體分頁返回（提示在資料量不是特別大的情景下可以這麼做，如果資料量上百萬，建議採用搜尋引擎實現）
	public Map<String, Object> searchCompany(EtlCreatDueDiligenceRequestDto request, PageRequestDto page) {
		Map<String, Object> response = new LinkedHashMap<String, Object>();
		response.put(ApiResponse.KEY_MESSAGE, ApiResponse.MESSAGE_OK);
		List<EtlSearchCompanyResponseDto> data = new LinkedList<>();
		// 採用分詞檢索按照相似度高低進行排序（資料來源於三個地方，上交所，深交所，中小型企業股權轉讓系統）
		words = WordSegmenter.segWithStopWords(request.getCompanyName());//通過word分詞器獲取分詞結果
		Sort shsort = new Sort(Direction.ASC,"f8");//列用資料庫對匹配結果進行一次排序
		List<EtlDataT1004> shdatas = etlDataT1004Dao.findAll(new Specification<EtlDataT1004>() {
			@Override
			public Predicate toPredicate(Root<EtlDataT1004> root, CriteriaQuery<?> query, CriteriaBuilder cb) {
				List<Predicate> predicates = new LinkedList<>();
				for (Word word : words) {
					predicates.add(cb.like(root.get("f8").as(String.class), "%" + word.getText() + "%"));
				}
				Predicate[] p = new Predicate[predicates.size()];
				return cb.or(predicates.toArray(p));
			}
		},shsort);
		// 匹配度計算
		for (EtlDataT1004 t1004 : shdatas) {
			EtlSearchCompanyResponseDto responseDto = new EtlSearchCompanyResponseDto(t1004.getF8().split("/")[0], t1004.getF8().split("/")[1], t1004.getF1(), "1", t1004.getF9());
			int i = 0;
			for (Word word : words) {
				if (t1004.getF8().contains(word.getText())) {
					i++;
				}
			}
			responseDto.setCompanyLegal(t1004.getF11());
			responseDto.setMatching(i);
			data.add(responseDto);
		}
		Sort szsort = new Sort(Direction.ASC,"f3");
		List<EtlDataT1009> szDatas = etlDataT1009Dao.findAll(new Specification<EtlDataT1009>() {
			@Override
			public Predicate toPredicate(Root<EtlDataT1009> root, CriteriaQuery<?> query, CriteriaBuilder cb) {
				List<Predicate> predicates = new LinkedList<>();
				for (Word word : words) {
					predicates.add(cb.or(cb.like(root.get("f3").as(String.class), "%" + word.getText() + "%")));
					predicates.add(cb.or(cb.like(root.get("f4").as(String.class), "%" + word.getText() + "%")));
				}
				Predicate[] p = new Predicate[predicates.size()];
				return cb.or(predicates.toArray(p));
			}
		},szsort);
		// 匹配度計算
		for (EtlDataT1009 t1009 : szDatas) {
			EtlSearchCompanyResponseDto responseDto = new EtlSearchCompanyResponseDto(t1009.getF3(), t1009.getF4(), t1009.getF1(), "2", t1009.getF5());
			int i = 0;
			for (Word word : words) {
				if (t1009.getF3().contains(word.getText())) {
					i++;
				} else if (t1009.getF4().contains(word.getText())) {
					i++;
				}
			}
			responseDto.setMatching(i);
			data.add(responseDto);
		}
		Sort gzsort = new Sort(Direction.ASC,"f11");
		List<EtlDataT1022> gzDatas = etlDataT1022Dao.findAll(new Specification<EtlDataT1022>() {
			@Override
			public Predicate toPredicate(Root<EtlDataT1022> root, CriteriaQuery<?> query, CriteriaBuilder cb) {
				List<Predicate> predicates = new LinkedList<>();
				for (Word word : words) {
					predicates.add(cb.or(cb.like(root.get("f11").as(String.class), "%" + word.getText() + "%")));
					predicates.add(cb.or(cb.like(root.get("f12").as(String.class), "%" + word.getText() + "%")));
				}
				Predicate[] p = new Predicate[predicates.size()];
				return cb.or(predicates.toArray(p));
			}
		},gzsort);
		// 匹配度計算
		for (EtlDataT1022 t1022 : gzDatas) {
			EtlSearchCompanyResponseDto responseDto = new EtlSearchCompanyResponseDto(t1022.getF11(), t1022.getF12(), t1022.getF1(), "3", t1022.getF14());
			int i = 0;
			for (Word word : words) {
				if (t1022.getF11().contains(word.getText())) {
					i++;
				} else if (t1022.getF12().contains(word.getText())) {
					i++;
				}
			}
			responseDto.setCompanyLegal(t1022.getF15());
			responseDto.setMatching(i);
			data.add(responseDto);
		}
		// 排序分頁
		PageUtil.searchCompanyComparator(data);
		List<EtlSearchCompanyResponseDto> pages = PageUtil.splitList(data, page.getSize(), page.getPage()-1);
		response.put(ApiResponse.KEY_DATA, pages);
		Map<String, Object> pageMap = new LinkedHashMap<>();
		int size = data.size() / page.getSize();
		if (data.size() % page.getSize() != 0) {
			size++;
		}
		pageMap.put("pageCount", size);
		response.put(ApiResponse.KEY_PAGE, pageMap);
		return response;
	}
}

使用word分詞器的朋友給個提醒，word分詞器初次呼叫時會載入詞庫，所以建議大家在專案啟動的時候預設去呼叫以下分詞器的介面，這便於你在使用分詞的時候不會等待很長時間，正常載入本例經測試10萬級別的資料返回時間是1s內。

有疑問的朋友可以在評論中留言了，看到會第一時間回覆！

喜歡朋友可以關注我的個人微信公眾號哦，會同步更新相應技術，二維碼見下圖。

萌萌技術

基於spring boot架構和word分詞器的分詞檢索，排序，分頁實現

本文不適合Java初學者，適合對spring boot有一定了解的同學。文中可能涉及到一些實體類、dao類、工具類文中沒有這些類大家不必在意，不影響本文的核心內容，本文重在對方法的梳理。 word分詞器maven依賴<dependency>

基於Spring Boot和Spring Cloud實現微服務架構學習

發的附加引入所有應用集中式一個操作但是 onf Spring Cloud介紹 Spring Cloud是一個基於Spring Boot實現的雲應用開發工具，它為基於JVM的雲應用開發中的配置管理、服務發現、斷路器、智能路由、微代理、控制總線、全局鎖、決策競選、

基於Spring Boot和Spring Cloud實現微服務架構學習(四)

feign 方法調用規則實現 uri ati .com 阻止無法 Spring Cloud介紹 Spring Cloud是一個基於Spring Boot實現的雲應用開發工具，它為基於JVM的雲應用開發中的配置管理、服務發現、斷路器、智能路由、微代理、控制總線、全局鎖、

基於Spring Boot和Spring Cloud實現微服務架構學習(一)-Spring框架介紹

總結看了幾周Spring相關框架的書籍和官方demo，是時候開始總結下這中間的學習感悟。首先，最想說的是，當你要學習一套最新的技術時，官網的英文文件是學習的最佳渠道。因為網上流傳的多數資料是官網翻譯而來，很多描述的重點也都偏向於作者自身碰到的問題，這樣就很容易讓你理解

基於spring boot和mongodb打造一套完整的許可權架構（五）【整合使用者模組、選單模組、角色模組】

在第四章我們已經實現了對security的整合，我們已經實現了登陸到我們的系統中了，但是大家會發現我們登陸成功以後並沒有顯示左側的選單節點，本章我們將開始整合使用者模組、選單模組以及角色模組。 1、首先我們需要在sys的entity目錄底下建立Tree、

基於spring boot和mongodb打造一套完整的許可權架構（二）【MAVEN依賴以及相應配置】

在上一章我們已經新建好整個專案了，在本章我們將講解我們的這套許可權架構所需要的maven依賴以及相關的配置，大家開啟我們的pom.xml增加完maven依賴以後的配置檔案如下：<?xml version="1.0" encoding="UTF-8"?>

基於Spring Boot和Spring Cloud實現微服務架構學習(四)-Spring Cloud總結

Spring Cloud介紹 Spring Cloud是一個基於Spring Boot實現的雲應用開發工具，它為基於JVM的雲應用開發中的配置管理、服務發現、斷路器、智慧路由、微代理、控制匯流排、全域性鎖、決策競選、分散式會話和叢集狀態管理等操作提供了一種簡單的開發方式。

基於Spring Boot和Spring Cloud實現微服務架構學習(五)-Docker總結

介紹 Docker 是一個開源的應用容器引擎，讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中，然後釋出到任何流行的 Linux 機器上，也可以實現虛擬化。容器是完全使用沙箱機制，相互之間不會有任何介面。 Docker在部署軟體方面解決了最困難的問題，將應用程式程式

Spring Boot入門第二天：一個基於Spring Boot的Web應用，使用了Spring Data JPA和Freemarker。

per pan let mysq 應用 posit ble host thead 今天打算從數據庫中取數據，並展示到視圖中。不多說，先上圖：第一步：添加依賴。打開pom.xml文件，添加必要的依賴，完整代碼如下： <?xml version="1.0" enco

微服務中基於Spring Boot的maven分布式項目框架的搭建

struct batis tmpl 接收 modules 展現子模塊 server face 項目介紹這裏搭建的是基於 maven 的分布式工程，因為在一個項目中，多個微服務是屬於同一個工程，只不過是提供不同的服務而已，再加上 IDEA 是默認一個窗口打開一個項目工程（

基於 spring boot 和 spring mvc 的快速開發框架 summer-boot

summer-boot 詳細介紹此專案目的在於提供一個簡化、簡潔、迅速的開發架構。它是基於spring boot和spring mvc高度封裝的快速開發框架，資料庫操作工具summerDao是基於jdbcTemplate高度封裝簡化、擁有超級簡單實用的O

實戰基於Spring Boot 2的WebFlux和mLab搭建反應式Web

Spring Framework 5帶來了新的Reactive Stack非阻塞式Web框架：Spring WebFlux。作為與Spring MVC並行使用的Web框架，Spring WebFlux依賴了反應式流介面卡(Reactive Streams Adapter)，在Netty和Servlet3.1的

MyBatis基於Spring-boot整合通用Mapper以及pagehelper分頁外掛（含原始碼下載）

配置 POM檔案 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-paren

基於Spring Boot、Spring Cloud、Docker的微服務系統架構實踐

由於最近公司業務需要，需要搭建基於Spring Cloud的微服務系統。遍訪各大搜索引擎，發現國內資料少之又少，也難怪，國內Dubbo正統治著天下。但是，一個技術總有它的瓶頸，Dubbo也有它捉襟見肘的地方。所幸霸主Spring也推出了一整套微服務解決

基於Spring Boot和Shiro的後臺管理系統FEBS

bootstra title 樹形數據項目打包 redis監控開發框架 local 資源 FEBS是一個簡單高效的後臺權限管理系統。項目基礎框架采用全新的Java Web開發框架 —— Spring Boot 2.0.3，消除了繁雜的XML配置，使得

基於Spring-Boot和Redis快取Mysql資料庫資料

@Configuration @EnableCaching public class CacheConfig extends CachingConfigurerSupport { @Value("${spring.redis.host}") private String host;

基於spring-boot和docker-java實現對docker容器的動態管理和監控[附完整原始碼下載]

（我是個封面） docker簡介 Docker 是一個開源的應用容器引擎，和傳統的虛擬機器技術相比，Docker 容器效能開銷極低，因此也廣受開發者喜愛。隨著基於docker的開發者越來越多，docker的映象也原來越豐富，未來各種企業級的完整解決方案都可以直接通過下載映象拿來即用。因此do

基於Spring Boot，使用JPA動態調用Sql查詢數據

註解查詢 ldr http autowired dal -c osi 動態在《基於Spring Boot，使用JPA操作Sql Server數據庫完成CRUD》，《基於Spring Boot，使用JPA調用Sql Server數據庫的存儲過程並返回記錄集合》完成了CRU

Https系列之三：讓服務器同時支持http、https，基於spring boot

signed 默認 gfs proc idl clas 兩種方法 .... gpg Https系列會在下面幾篇文章中分別作介紹：一：https的簡單介紹及SSL證書的生成二：https的SSL證書在服務器端的部署，基於tomcat,spring boot三：讓服務器同時

基於Spring Boot構建應用開發規範

SpringBoot 項目規範 1.規範的意義和作用編碼規範可以最大限度的提高團隊開發的合作效率編碼規範可以盡可能的減少一個軟件的維護成本 , 並且幾乎沒有任何一個軟件，在其整個生命周期中，均由最初的開發人員來維護編碼規範可以改善軟件的可讀性，可以讓開發人員盡快而徹底地理解新的代碼規範性編碼

基於spring boot架構和word分詞器的分詞檢索，排序，分頁實現

相關推薦