熱線電話:13121318867

登錄
首頁精彩閱讀十道面試題與十個海量數據處理方法總結(4)
十道面試題與十個海量數據處理方法總結(4)
2015-02-04
收藏

十道面試題與十個海量數據處理方法總結(4)


二、Hashing

  適用范圍:快速查找,刪除的基本數據結構,通常需要總數據量可以放入內存

  基本原理及要點:
  hash函數選擇,針對字符串,整數,排列,具體相應的hash方法。
  碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。

      擴展:
  d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數,h1和h2。在存儲一個新的key時,同時用兩個哈希函數進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個位置已經存儲的(有碰撞的)key比較多,然后將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。

  問題實例:
  1).海量日志數據,提取出某日訪問百度次數最多的那個IP。
  IP的數目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內存,然后進行統計。


三、bit-map

  適用范圍:可進行數據的快速查找,判重,刪除,一般來說數據范圍是int的10倍以下

  基本原理及要點:使用bit數組來表示某些元素是否存在,比如8位電話號碼

  擴展:bloom filter可以看做是對bit-map的擴展

  問題實例:
  1)已知某個文件內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數。
  8位最多99 999 999,大概需要99m個bit,大概10幾m字節的內存即可。
  2)2.5億個整數中找出不重復的整數的個數,內存空間不足以容納這2.5億個整數。

  將bit-map擴展一下,用2bit表示一個數即可,0表示未出現,1表示出現一次,2表示出現2次及以上?;蛘呶覀儾挥?bit來進行表示,我們用兩個bit-map即可模擬實現這個2bit-map。


四、堆

  適用范圍:海量數據前n大,并且n比較小,堆可以放入內存

  基本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當前元素與最大堆里的最大元素,如果它小于最大元素,則應該替換那個最大元素。這樣最后得到的n個元素就是最小的n個。適合大數據量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。

  擴展:雙堆,一個最大堆與一個最小堆結合,可以用來維護中位數。

  問題實例:
  1)100w個數中找最大的前100個數。
  用一個100個元素大小的最小堆即可。

 

五、雙層桶劃分----其實本質上就是【分而治之】的思想,重在“分”的技巧上!

  適用范圍:第k大,中位數,不重復或重復的數字
  基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定范圍,然后最后在一個可以接受的范圍內進行??梢酝ㄟ^多次縮小,雙層只是一個例子。

  擴展:
  問題實例:
  1).2.5億個整數中找出不重復的整數的個數,內存空間不足以容納這2.5億個整數。
  有點像鴿巢原理,整數個數為2^32,也就是,我們可以將這2^32個數,劃分為2^8個區域(比如用單個文件代表一個區域),然后將數據分離到不同的區域,然后不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。

  2).5億個int找它們的中位數。
  這個例子比上面那個更明顯。首先我們將int劃分為2^16個區域,然后讀取數據統計落到各個區域里的數的個數,之后我們根據統計結果就可以判斷中位數落到那個區域,同時知道這個區域中的第幾大數剛好是中位數。然后第二次掃描我們只統計落在這個區域中的那些數就可以了。

  實際上,如果不是int是int64,我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域,然后確定區域的第幾大數,在將該區域分成2^20個子區域,然后確定是子區域的第幾大數,然后子區域里的數的個數只有2^20,就可以直接利用direct addr table進行統計了。


六、數據庫索引

  適用范圍:大數據量的增刪改查

  基本原理及要點:利用數據的設計實現方法,對海量數據的增刪改查進行處理。


七、倒排索引(Inverted index)

  適用范圍:搜索引擎,關鍵字查詢

  基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

 以英文為例,下面是要被索引的文本:
    T0 = "it is what it is"
    T1 = "what is it"
    T2 = "it is a banana"

我們就能得到下面的反向文件索引:

    "a":      {2}
    "banana": {2}
    "is":     {0, 1, 2}
    "it":     {0, 1, 2}
    "what":   {0, 1}

 檢索的條件"what","is"和"it"將對應集合的交集。

  正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔占據了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關系。

  擴展:
  問題實例:文檔檢索系統,查詢那些文件包含了某單詞,比如常見的學術論文的關鍵字搜索。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢