【復習筆記】數據結構-檢索

阿新 • • 發佈：2018-12-08

磁盤訪問 span 不同數字分析 clas temp 分析法區間再次

性能用ASL（查找成功時的平均查找長度）來衡量

線性表檢索

順序檢索

逐個比較
優點：插入元素可以直接加在表尾
缺點：檢索時間太長

二分檢索法

條件：序列必須有序

實現：

 1 template <class Type> int BinSearch (vector<Item<Type>*>& dataList, int length, Type k){
 2     int low=1, high=length, mid;
 3     while (low<=high) { //結束條件！！
 4         mid = (low+high)/2 
;
 5         if (k<dataList[mid]->getKey())
 6             high = mid-1; //右縮檢索區間
 7         else if (k>dataList[mid]->getKey())
 8             low = mid+1; //左縮檢索區間
 9         else return mid; //成功返回位置
10     }
11     return 0;
12 } //檢索失敗，返回0

性能分析：最大檢索長度（完全二叉樹的高度）：$log_2^{n+1}$；失敗的檢索長度$log_2^{n+1}$向上或向下取整；平均的檢索長度和最大檢索長度接近：$log_2^{n+1}-1$
優點：快
缺點：要排序，不易更新

分塊檢索

思想：兩級檢索。將元素分為多塊，塊內的關鍵碼不一定有序，但塊間有序（前塊中最大關鍵碼<後塊中最小關鍵碼）；索引表中包含每個塊最大的關鍵碼和起始位置，以及每個塊裏元素的個數。
性能：查找長度是兩級檢索的查找長度總和
優點：更新容易
缺點：

需要一個輔助索引表
分塊需要排序
元素分布不均勻、大量插入或刪除時性能下降

散列表檢索（HASH）

基本概念

帶檢索的關鍵碼K
散列函數h(K)：關鍵碼K的存儲位置
負載（裝填）因子：$α=\frac{n}{M}$（n，散列表中已有結點數；M，散列表空間大小）
沖突：將不同關鍵碼映射到相同散列地址
同義詞：發生沖突的兩個關鍵碼

各類方法

除余法

$h(x)=x mod M$
M值通常選擇質數，有利於均勻分布
潛在缺點：連續的關鍵碼映射為連續的散列值，散列性能降低

乘余取整法

$h(x)=n*(A*key\% 1)$

平方取中法

求關鍵碼的平方，再取其中的幾位或其組合作為散列地址
最接近隨機化

數字分析法

分析每一位上不同符號出現頻率，選取其中各種符號均勻分布的若幹位作為散列地址

基數轉換法

把關鍵碼看成是另一進制上的數後，再把它轉換成原來進制上的數。取其中若幹位作為散列地址
一般取大於原來基數的數作為轉換的基數，並且兩個基數要互素。

折疊法

將關鍵碼分割為位數相同的幾部分，取這幾部分的疊加和（舍去進位）作為散列地址。
兩種疊加方法：移位疊加（各部分以最後一位對齊）；分界疊加（沿各部分的分界來回折疊，對齊相加）

沖突的解決方法

開散列方法

拉鏈法（適用於內存）

思路：所有同義詞鏈接在同一鏈表，以拉鏈狀拉開。每個槽定義為一個鏈表的表頭。
這時候α可以大於1，但一般還是取小於1
優點：適合表長不確定的情況，增刪結點容易。
缺點：如果散列表元素在磁盤裏，拉鏈法不適用。
- 同義詞表中的元素元素在不同的磁盤頁中的話，檢索一個特定關鍵碼時將引起多次磁盤訪問，增加檢索時間

桶式散列（適合存儲於磁盤的散列表）

思想：散列文件記錄分為若幹桶，每個桶包含幾個頁塊，每個頁塊有若幹記錄，各頁塊用指針鏈接。h(k)表示具有關鍵碼K的記錄所在桶號。
性能：桶目錄表最多一次訪外，逐個檢查桶內頁塊，平均訪外次數為桶內頁塊數一半。修改、插入等需另1次訪外寫外存。

閉散列方法（開地址法）

基本聚集：堆積，散列地址不同的記錄，爭奪同一後繼散列地址，導致很長的探查序列，偽隨機探查和二次探查可以消除基本聚集

二級聚集：如果兩個關鍵碼散列到同一基地址還是得到同一探查序列。

把發生沖突的關鍵碼存儲在散列表中另一個空地址內
$d_0=h(K)$為K的基地址
$d_i=d_0+p(K,i)$是後繼散列地址，p(K,i)是探查函數
搜索空位時，若基地址結點已被占用，逐個尋找探查序列中的空閑位置。如果找遍了都沒有，說明列表滿了，報告溢出。

線性探查法

思想：逐個逐個往後找……$p(K,i)=i$
優點：所有的存儲位置都可以作為插入記錄的候選
缺點：聚集
改進：每次跳過c個槽而不是1個
- 第i個槽是$(h(K)+ic)mod M$，探查函數是$p(K,i)=i*c$
- 基位置相鄰點記錄不會進入同一個探查序列
- 但相隔c的還是糾纏在一起

二次探查

地址公式：$d_{2i-1}=(d+i^2)%M;d_{2i}=(d-i^2)%M$
探查函數：$p(K,2i-1)=i*i;p(K,2i)=-i*i$
基本聚集消失

偽隨機數序列探查

探查函數$p(K,i)=perm[i-1]$
- perm是一個長度為M-1的數組，一個值在[1,M-1]的隨機序列
基本聚集消失

雙散列探查法

思想：使用兩個散列函數$h_1$和$h_2$
若在$h_1(K)=d$發生沖突，計算h_2(K)得到的探查序列為探查序列：$d_i=(d+i*h_2(key))%M$
- $(d+h_2(K))\% M$
- $(d+2h_2(K))\% M$
- $(d+3h_2(K))\% M$…
探查函數：$p(K,i)=i*h_2(K)$
$h_2(K)$必須與M互素（否則可能會發生同義詞地址的循環計算）
優點：不易產生聚集
缺點：計算量增大（也不是很大）

閉散列的算法設計

插入
- 找到基地址空間
- 基地址空間不空，循環找下一個探查序列直到關鍵碼值相同或找到空位
檢索
- 基地址空間未被占用，檢索失敗，否則將在基地址中的值和K比較，相等則成功。
- 否則查找探查序列循環。直到找到相等關鍵碼或未被占用的地址空間。
刪除
- 開散列可以隨意刪除
- 閉散列只能作標記，不能真正刪除，除非之後再次分配空間。不然會影響檢索操作
  - 設置一特殊的標記位（墓碑）：單元被占用\空單元\已刪除
  - 插入時遇到墓碑，要繼續沿著探查序列找到真正空位，為了防止插入兩個相同的關鍵碼
  - 效率分析：不依賴於n，與α有關。α小時性能高。$α\leq 0.5$時，大部分操作的分析預期代價都小於2。負載因子的臨界值是0.5，超過性能就會急劇下降。

【復習筆記】數據結構-檢索

磁盤訪問 span 不同數字分析 clas temp 分析法區間再次性能用ASL（查找成功時的平均查找長度）來衡量線性表檢索順序檢索逐個比較優點：插入元素可以直接加在表尾缺點：檢索時間太長二分檢索法條件：序列必須有序

【復習筆記】切片技巧

復雜畫布【復習切片透明背景 ie瀏覽器 jpg 陰影復習 1、註意用戶圖片、非用戶圖片 2、顏色單一過渡少的導GIF，有動畫部分的導GIF動畫；顏色過渡多、色彩豐富的導JPG；透明背景PNG（主要使用JPG和PNG） 3、切片圖片名稱使用英文，右擊鼠標，可以編輯

【復習筆記】CSS基礎

符號標記生成修改方向 strong 存在單詞將不外觀 color:rgba(255,255,255,1)，a表示alpha，透明度值0~1 font-family:字體1,字體2,字體3;確保某字體不存在時自動選擇下一個，最好使用字體的英文名稱保證瀏覽器識別

【復習筆記】Cache的映像方法

mar 原則 exc 內存什麽 dsp 助理自然存儲器註：寫的時候忘記統一內存/主存的稱呼，特別聲明文中內存=主存。閱讀本文建議畫圖輔助理解 Cache是什麽 cache高速緩沖存儲器一種特殊的存儲器子系統，其中復制了主存中頻繁使用的數據以利於快速訪問。為了便於根據

【復習筆記】軟件工程概論復習(0)

周期 and 噴泉 code 用戶故事軟件鼓勵合同體系【復習筆記】軟件工程概論復習(0) 本文大多數論述引自《軟件工程實踐者的研究方法》軟件軟件是產品。軟件顯示了由計算機硬件體現的計算能力。軟件是指令、數據結構、軟件描述信息（文檔）的集合軟件特性

【Flask學習筆記】數據模型設計

odi span ase doc href 評論 pre 和數 ont 【前言】對於像我一樣的新手來說，我覺得此環節難點主要是相關依賴包的安裝和Flask-SQLAlchemy的使用，下面將一一講解：所謂數據模型，百度的解釋是：“數據模型（Data Mode

【數據結構】數據結構的概述

邏輯關系安排線性表 markdown 一個 ava auto nbsp log 一、概述什麽是數據結構：數據：由有限的符號（比如，"0"和"1"，具有其自己的結構、操作、和相應的語義）組成的元素的集合。結構：元素之間的關系的集合。數據結構：信息的一種組織方式，其目

【轉】數據結構中棧和堆---內存分配中棧和堆

heap 元素部分程序記錄 ptr 區域 sdn 頭部一、數據結構的棧和堆首先在數據結構上要知道堆棧，盡管我們這麽稱呼它，但實際上堆棧是兩種數據結構：堆和棧。堆和棧都是一種數據項按序排列的數據結構。 1）棧就像裝數據的桶或箱子我們先從大家比較熟悉的棧說起吧

【Foreign】數據結構C [線段樹]

text 信息 lap sid list padding 單點 block word 數據結構C Time Limit: 20 Sec Memory Limit: 512 MB Description 　　 Input 　　 Output 　　

【javascript】數據結構-集合

一個 turn itl ole ctype rop highlight per text <!DOCTYPE html> <html> <head> <title>集合</title> <meta ch

【數據結構總結1】-數據結構的自述

它的除了友情設計提高自己 ear hellip 編程人員 aid 一、數據結構的自我介紹大家好，餓叫數據結構，是用來提高程序員的程序設計水平的。官方定義我為：數據結構是指相互之間存在著一種或多種關系的數據元素的集合和該集合中數據元素之間的關系組成。記為：

【TOJ 1224】數據結構練習題――後序遍歷二叉樹

給定 esc 中序遍歷二叉以及 max 構造參數練習 Description 給定一顆二叉樹，要求輸出二叉樹的深度以及後序遍歷二叉樹得到的序列。本題假設二叉樹的結點數不超過1000。 Input 輸入數據分為多組，第一行是測試數據的組數n，下面的n行分別代表一棵二叉

【TOJ 5438】數據結構實驗：生成BST

代碼二叉 return tree time 函數結點 man 完成描述給定一個從小到大排序的序列，將其轉換成一棵二叉搜索樹。 BST定義：二叉搜索樹，又稱為二叉排序樹，它或者是一棵空樹，或者是具有下列性質的二叉樹：若它的左子樹不空，則左子樹上所有結點的值均小於

【轉載】數據結構與算法系列目錄

c語言 rim 二項堆二叉堆實現大神劃分 back 二叉查找樹內容轉載自大神skywang12345，鏈接為http://www.cnblogs.com/skywang12345/p/3603935.html。最近抽空整理了"數據結構和算法"的相關文章。在整

【學習筆記】數據庫設計那些事

更改 net 存儲過程 man 大量了解 osql 新的優化表第一章：需求分析 1-1 數據庫設計簡介什麽是數據庫設計？簡單來說，數據庫設計就是根據業務系統的具體需要，結合我們所選用的數據庫管理系統，為這個系統構造出最優的數據存儲模型。並建立好數據庫中的表結構及表

【Vue.js基礎筆記】數據綁定，指令，事件

dom操作 methods javascrip add 解綁 mov orm true 調用 vue實例和數據綁定 1. <script src="https://cdn.jsdelivr.net/npm/[email protected]/dist/vue.js"><

【SPOJ GSS】數據結構套題

題意修改組成 ss5 最大連續子序列問題 log 如果處理 SPOJ GSS1 題意：給一個序列以及一些詢問，每個是問$[l,r]$中最大連續子序列和是多少。思路：這個問題是以下問題的基礎。我們考慮用線段樹來解決這個問題。首先我們來想想如果要求出最大連續子

【劍指Offer 1 】數據結構

value 隊列數組名出現額外 offer 劍指offer 兩種訪問數據結構是技術面試中的重點，總結以下幾種常見的必須熟練掌握數據結構。數組字符串鏈表樹棧和隊列數組和字符串是兩種最基本的數據結構，連續內存；鏈表和樹是面試中

【python之路】數據庫

pla mon 符號 lis student 5.1 cal 指定 cit 一、數據庫的簡介　　1.數據庫　　數據庫（database，DB）是指長期存儲在計算機內的，有組織，可共享的數據的集合。數據庫中的數據按一定的數字模型組織、描述和存儲，具有較小的冗余，較高的數據

【SQL server初級】數據庫性能優化三：程序操作優化

地球解釋 spa 記錄 employ it168 等於 bsp 實現　　數據庫優化包含以下三部分，數據庫自身的優化，數據庫表優化，程序操作優化.此文為第三部分　　數據庫性能優化三：程序操作優化概述：程序訪問優化也可以認為是訪問SQL語句的優化，一個好的SQL語句是

【復習筆記】數據結構-檢索

線性表檢索

順序檢索

二分檢索法

分塊檢索

散列表檢索（HASH）

基本概念

各類方法

除余法

乘余取整法

平方取中法

數字分析法

基數轉換法

折疊法

沖突的解決方法

拉鏈法（適用於內存）

桶式散列（適合存儲於磁盤的散列表）

線性探查法

二次探查

偽隨機數序列探查

雙散列探查法

閉散列的算法設計

相關推薦