怎樣從海量數據中找出作弊者_如何處理海量數據

『壹』在WPS中，如何將海量數據中，快速查找刪除不需要的，留下想要的

比如：鏤空針織衫這個詞，你不想要鏤空但是要留下針織衫這個詞，那麼你直接用替換功能Ctrl+f中的替換，首先點下A這一列全選，再打開替換功能，上面替換詞填寫鏤空，下面替換為填寫空格或者「」就可以把A這一列的鏤空全部去掉，留下和鏤空組合的詞

『貳』如何處理海量數據

在實際的工作環境下，許多人會遇到海量數據這個復雜而艱巨的問題，它的主要難點有以下幾個方面：
一、數據量過大，數據中什麼情況都可能存在。
如果說有10條數據，那麼大不了每條去逐一檢查，人為處理，如果有上百條數據，也可以考慮，如果數據上到千萬級別，甚至過億，那不是手工能解決的了，必須通過工具或者程序進行處理，尤其海量的數據中，什麼情況都可能存在，例如，數據中某處格式出了問題，尤其在程序處理時，前面還能正常處理，突然到了某個地方問題出現了，程序終止了。
二、軟硬體要求高，系統資源佔用率高。
對海量的數據進行處理，除了好的方法，最重要的就是合理使用工具，合理分配系統資源。一般情況，如果處理的數據過TB級，小型機是要考慮的，普通的機子如果有好的方法可以考慮，不過也必須加大CPU和內存，就象面對著千軍萬馬，光有勇氣沒有一兵一卒是很難取勝的。
三、要求很高的處理方法和技巧。
這也是本文的寫作目的所在，好的處理方法是一位工程師長期工作經驗的積累，也是個人的經驗的總結。沒有通用的處理方法，但有通用的原理和規則。
下面我們來詳細介紹一下處理海量數據的經驗和技巧：
一、選用優秀的資料庫工具
現在的資料庫工具廠家比較多，對海量數據的處理對所使用的資料庫工具要求比較高，一般使用Oracle或者DB2，微軟公司最近發布的SQL Server 2005性能也不錯。另外在BI領域：資料庫，數據倉庫，多維資料庫，數據挖掘等相關工具也要進行選擇，象好的ETL工具和好的OLAP工具都十分必要，例如Informatic，Eassbase等。筆者在實際數據分析項目中，對每天6000萬條的日誌數據進行處理，使用SQL Server 2000需要花費6小時，而使用SQL Server 2005則只需要花費3小時。
二、編寫優良的程序代碼
處理數據離不開優秀的程序代碼，尤其在進行復雜數據處理時，必須使用程序。好的程序代碼對數據的處理至關重要，這不僅僅是數據處理准確度的問題，更是數據處理效率的問題。良好的程序代碼應該包含好的演算法，包含好的處理流程，包含好的效率，包含好的異常處理機制等。
三、對海量數據進行分區操作
對海量數據進行分區操作十分必要，例如針對按年份存取的數據，我們可以按年進行分區，不同的資料庫有不同的分區方式，不過處理機制大體相同。例如SQL Server的資料庫分區是將不同的數據存於不同的文件組下，而不同的文件組存於不同的磁碟分區下，這樣將數據分散開，減小磁碟I/O，減小了系統負荷，而且還可以將日誌，索引等放於不同的分區下。
四、建立廣泛的索引
對海量的數據處理，對大表建立索引是必行的，建立索引要考慮到具體情況，例如針對大表的分組、排序等欄位，都要建立相應索引，一般還可以建立復合索引，對經常插入的表則建立索引時要小心，筆者在處理數據時，曾經在一個ETL流程中，當插入表時，首先刪除索引，然後插入完畢，建立索引，並實施聚合操作，聚合完成後，再次插入前還是刪除索引，所以索引要用到好的時機，索引的填充因子和聚集、非聚集索引都要考慮。
五、建立緩存機制
當數據量增加時，一般的處理工具都要考慮到緩存問題。緩存大小設置的好差也關繫到數據處理的成敗，例如，筆者在處理2億條數據聚合操作時，緩存設置為100000條/Buffer，這對於這個級別的數據量是可行的。
六、加大虛擬內存
如果系統資源有限，內存提示不足，則可以靠增加虛擬內存來解決。筆者在實際項目中曾經遇到針對18億條的數據進行處理，內存為1GB，1個P42.4G的CPU，對這么大的數據量進行聚合操作是有問題的，提示內存不足，那麼採用了加大虛擬內存的方法來解決，在6塊磁碟分區上分別建立了6個4096M的磁碟分區，用於虛擬內存，這樣虛擬的內存則增加為 4096*6 + 1024 =25600 M，解決了數據處理中的內存不足問題。
七、分批處理
海量數據處理難因為數據量大，那麼解決海量數據處理難的問題其中一個技巧是減少數據量。可以對海量數據分批處理，然後處理後的數據再進行合並操作，這樣逐個擊破，有利於小數據量的處理，不至於面對大數據量帶來的問題，不過這種方法也要因時因勢進行，如果不允許拆分數據，還需要另想辦法。不過一般的數據按天、按月、按年等存儲的，都可以採用先分後合的方法，對數據進行分開處理。
八、使用臨時表和中間表
數據量增加時，處理中要考慮提前匯總。這樣做的目的是化整為零，大表變小表，分塊處理完成後，再利用一定的規則進行合並，處理過程中的臨時表的使用和中間結果的保存都非常重要，如果對於超海量的數據，大表處理不了，只能拆分為多個小表。如果處理過程中需要多步匯總操作，可按匯總步驟一步步來，不要一條語句完成，一口氣吃掉一個胖子。
九、優化查詢SQL語句
在對海量數據進行查詢處理過程中，查詢的SQL語句的性能對查詢效率的影響是非常大的，編寫高效優良的SQL腳本和存儲過程是資料庫工作人員的職責，也是檢驗資料庫工作人員水平的一個標准，在對SQL語句的編寫過程中，例如減少關聯，少用或不用游標，設計好高效的資料庫表結構等都十分必要。筆者在工作中試著對1億行的數據使用游標，運行3個小時沒有出結果，這是一定要改用程序處理了。
十、使用文本格式進行處理
對一般的數據處理可以使用資料庫，如果對復雜的數據處理，必須藉助程序，那麼在程序操作資料庫和程序操作文本之間選擇，是一定要選擇程序操作文本的，原因為：程序操作文本速度快；對文本進行處理不容易出錯；文本的存儲不受限制等。例如一般的海量的網路日誌都是文本格式或者 csv格式（文本格式），對它進行處理牽扯到數據清洗，是要利用程序進行處理的，而不建議導入資料庫再做清洗。
十一、定製強大的清洗規則和出錯處理機制
海量數據中存在著不一致性，極有可能出現某處的瑕疵。例如，同樣的數據中的時間欄位，有的可能為非標準的時間，出現的原因可能為應用程序的錯誤，系統的錯誤等，這是在進行數據處理時，必須制定強大的數據清洗規則和出錯處理機制。
十二、建立視圖或者物化視圖
視圖中的數據來源於基表，對海量數據的處理，可以將數據按一定的規則分散到各個基表中，查詢或處理過程中可以基於視圖進行，這樣分散了磁碟I/O，正如10根繩子吊著一根柱子和一根吊著一根柱子的區別。
十三、避免使用32位機子（極端情況）
目前的計算機很多都是32位的，那麼編寫的程序對內存的需要便受限制，而很多的海量數據處理是必須大量消耗內存的，這便要求更好性能的機子，其中對位數的限制也十分重要。
十四、考慮操作系統問題
海量數據處理過程中，除了對資料庫，處理程序等要求比較高以外，對操作系統的要求也放到了重要的位置，一般是必須使用伺服器的，而且對系統的安全性和穩定性等要求也比較高。尤其對操作系統自身的緩存機制，臨時空間的處理等問題都需要綜合考慮。
十五、使用數據倉庫和多維資料庫存儲
數據量加大是一定要考慮OLAP的，傳統的報表可能5、6個小時出來結果，而基於Cube的查詢可能只需要幾分鍾，因此處理海量數據的利器是OLAP多維分析，即建立數據倉庫，建立多維數據集，基於多維數據集進行報表展現和數據挖掘等。
十六、使用采樣數據，進行數據挖掘
基於海量數據的數據挖掘正在逐步興起，面對著超海量的數據，一般的挖掘軟體或演算法往往採用數據抽樣的方式進行處理，這樣的誤差不會很高，大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性和，防止過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣，抽取出 400萬行，經測試軟體測試處理的誤差為千分之五，客戶可以接受。
還有一些方法，需要在不同的情況和場合下運用，例如使用代理鍵等操作，這樣的好處是加快了聚合時間，因為對數值型的聚合比對字元型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數據是發展趨勢，對數據分析和挖掘也越來越重要，從海量數據中提取有用信息重要而緊迫，這便要求處理要准確，精度要高，而且處理時間要短，得到有價值信息要快，所以，對海量數據的研究很有前途，也很值得進行廣泛深入的研究。

『叄』怎麼在海量數據中找出重復次數最多的一個

以IP為例：
1、以IP % 10000 (ip 是個32位整數) 為文件名將IP存入文件
2、用HASH統計每個文件中出現最多的IP 記錄下來

3、比較每個文件中出現最多的IP 來得到總出現最多的IP

『肆』數據結構怎樣從海量數據中找出重復次數最多的那個代碼

public class Calcul {
public static void main(String[] args) {
circularArea();
}
public static void circularArea(){
int r=2;
float π=3.14f;
float circularArea = π*r*r;
System.out.println(circularArea);
}

『伍』大數據挖掘常用的方法有哪些

1.基於歷史的MBR分析
基於歷史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)來預測未來案例的一些屬性(attribute)，通常找尋最相似的案例來做比較。
MBR中有兩個主要的要素，分別為距離函數(distance function)與結合函數(combination function)。距離函數的用意在找出最相似的案例;結合函數則將相似案例的屬性結合起來，以供預測之用。
MBR的優點是它容許各種型態的數據，這些數據不需服從某些假設。另一個優點是其具備學習能力，它能藉由舊案例的學習來獲取關於新案例的知識。較令人詬病的是它需要大量的歷史數據，有足夠的歷史數據方能做良好的預測。此外記憶基礎推理法在處理上亦較為費時，不易發現最佳的距離函數與結合函數。其可應用的范圍包括欺騙行為的偵測、客戶反應預測、醫學診療、反應的歸類等方面。
2.購物籃分析
購物籃分析(Market Basket Analysis)最主要的目的在於找出什麼樣的東西應該放在一起?商業上的應用在藉由顧客的購買行為來了解是什麼樣的顧客以及這些顧客為什麼買這些產品，找出相關的聯想(association)規則，企業藉由這些規則的挖掘獲得利益與建立競爭優勢。舉例來說，零售店可藉由此分析改變置物架上的商品排列或是設計吸引客戶的商業套餐等等。
購物籃分析基本運作過程包含下列三點：
1. 選擇正確的品項：這里所指的正確乃是針對企業體而言，必須要在數以百計、千計品項中選擇出真正有用的品項出來。
2. 經由對共同發生矩陣(co-occurrence matrix)的探討挖掘出聯想規則。
3. 克服實際上的限制：所選擇的品項愈多，計算所耗費的資源與時間愈久(呈現指數遞增)，此時必須運用一些技術以降低資源與時間的損耗。
購物籃分析技術可以應用在下列問題上：針對信用卡購物，能夠預測未來顧客可能購買什麼。對於電信與金融服務業而言，經由購物籃分析能夠設計不同的服務組合以擴大利潤。保險業能藉由購物籃分析偵測出可能不尋常的投保組合並作預防。對病人而言，在療程的組合上，購物籃分析能作為是否這些療程組合會導致並發症的判斷依據。
3.決策樹
決策樹(Decision Trees)在解決歸類與預測上有著極強的能力，它以法則的方式表達，而這些法則則以一連串的問題表示出來，經由不斷詢問問題最終能導出所需的結果。典型的決策樹頂端是一個樹根，底部有許多的樹葉，它將紀錄分解成不同的子集，每個子集中的欄位可能都包含一個簡單的法則。此外，決策樹可能有著不同的外型，例如二元樹、三元樹或混和的決策樹型態。
4.遺傳演算法
遺傳演算法(Genetic Algorithm)學習細胞演化的過程，細胞間可經由不斷的選擇、復制、交配、突變產生更佳的新細胞。基因演算法的運作方式也很類似，它必須預先建立好一個模式，再經由一連串類似產生新細胞過程的運作，利用適合函數(fitness function)決定所產生的後代是否與這個模式吻合，最後僅有最吻合的結果能夠存活，這個程序一直運作直到此函數收斂到最佳解。基因演算法在群集 (cluster)問題上有不錯的表現，一般可用來輔助記憶基礎推理法與類神經網路的應用。
5.聚類分析
聚類分析(Cluster Detection)這個技術涵蓋范圍相當廣泛，包含基因演算法、類神經網路、統計學中的群集分析都有這個功能。它的目標為找出數據中以前未知的相似群體，在許許多多的分析中，剛開始都運用到群集偵測技術，以作為研究的開端。
6.連接分析
連接分析(Link Analysis)是以數學中之圖形理論(graph theory)為基礎，藉由記錄之間的關系發展出一個模式，它是以關系為主體，由人與人、物與物或是人與物的關系發展出相當多的應用。例如電信服務業可藉連結分析收集到顧客使用電話的時間與頻率，進而推斷顧客使用偏好為何，提出有利於公司的方案。除了電信業之外，愈來愈多的營銷業者亦利用連結分析做有利於企業的研究。
7.OLAP分析
嚴格說起來，OLAP(On-Line Analytic Processing;OLAP)分析並不算特別的一個數據挖掘技術，但是透過在線分析處理工具，使用者能更清楚的了解數據所隱藏的潛在意涵。如同一些視覺處理技術一般，透過圖表或圖形等方式顯現，對一般人而言，感覺會更友善。這樣的工具亦能輔助將數據轉變成信息的目標。
8.神經網路
神經網路是以重復學習的方法，將一串例子交與學習，使其歸納出一足以區分的樣式。若面對新的例證，神經網路即可根據其過去學習的成果歸納後，推導出新的結果，乃屬於機器學習的一種。數據挖掘的相關問題也可采類神經學習的方式，其學習效果十分正確並可做預測功能。
9.判別分析
當所遭遇問題它的因變數為定性(categorical)，而自變數(預測變數)為定量(metric)時，判別分析為一非常適當之技術，通常應用在解決分類的問題上面。若因變數由兩個群體所構成，稱之為雙群體 —判別分析 (Two-Group Discriminant Analysis);若由多個群體構成，則稱之為多元判別分析(Multiple Discriminant Analysis;MDA)。
a. 找出預測變數的線性組合，使組間變異相對於組內變異的比值為最大，而每一個線性組合與先前已經獲得的線性組合均不相關。
b. 檢定各組的重心是否有差異。
c. 找出哪些預測變數具有最大的區別能力。
d. 根據新受試者的預測變數數值，將該受試者指派到某一群體。
10.邏輯回歸分析
當判別分析中群體不符合正態分布假設時，邏輯回歸分析是一個很好的替代方法。邏輯回歸分析並非預測事件(event)是否發生，而是預測該事件的機率。它將自變數與因變數的關系假定是S行的形狀，當自變數很小時，機率值接近為零;當自變數值慢慢增加時，機率值沿著曲線增加，增加到一定程度時，曲線協率開始減小，故機率值介於0與1之間。

『陸』怎樣識破麻將作弊

識破麻將作弊注意其常用手法就好，其手法一般如下：

1、魚目混珠法

作弊者先盯准牌堂中一張對自己極有利的牌，然後將它撥弄到對自己下手最有利的位置，當他摸起一張時，將牌在手中翻開，用手背遮住這個動作，然後把牌沿低空掃過牌堂，當經過那一張牌子上空時，迅速換回想要的牌，整個過程中，幾乎不留任何把柄。作弊高手大多將手背遮住換牌的行動，手法極為嫻熟，換牌時不出任何聲音。

如果碰撞牌面，單是聲音就足以使他」走手「，作弊的細節是用拇指、食指與中指摸牌，並將其在手掌下迅速翻轉，手拖過牌堂時用食指將牌放下，同時用拇指、無名指、小指夾起要換的牌。

2、」打一還一「法

」打一還一「法是」魚目混珠「法的一種變型。作弊者在准備階段先盯准牌堂中的牌，然後與上例手段相仿，將其挪到有利的位置，與」魚目混珠「法不同的是，利用摸牌的機會在牌堂超低空掠過時，不放下在牌牆上摸到手的那張牌，而是用小指、無名指和拇指肚夾起自己想要的牌，然後用手背遮住所夾帶的牌，再拿回來，雖然此時手中會多一張牌，但作弊會伺機將不要的牌拋出。

還有一種情況，就是人選弊者將多出的廢牌一直握在手中，等到和牌時將多餘的牌推進牌堂。還有一種硬偷牌，即作弊者在洗牌過程中乾脆將所需要的牌偷藏在身上，等到和牌時拿出來配成自摸，或者在打牌過程中偷偷拿出來配牌。這種做法相當機械，偷的牌一定要是雙數。

3、偷」讀「牌

即上家正在考慮，還未打出牌時，作弊者趁機通過對牌子的觸摸來判定牌面。這類作弊者往往在牌面不翻過來時假裝摸牌，然後迅速放下，再決定是吃進還是碰別人打出的牌，還是摸牌。當然這一系列動作通常是與別人打出牌的同時進行的。

分析一下原因不難發現，牌是能偷」讀「的。因為牌面是雕刻而成的，手感極強。作弊者的手法是用拇指與食指起牌，然後用中指在牌面觸摸，從而」讀「牌。也有作弊者用食指、中指和拇指在牌面觸摸」讀「牌。

(6)怎樣從海量數據中找出作弊者擴展閱讀：

打麻將不要到處找牌打，這樣你很容易碰到各種各樣的騙術。平時的話：不打錢還要跟你作弊的人還是不要交往為妙。打錢的話如果是人品不值得信任的人就別打了何必給自己找不愉快呢麻將本來就是個娛樂活動。

盡量少和陌生人打牌，特別是一張台上如果如果有兩個以上你的不認識的人，千萬別上台，否則你輸錢的概率是90%以上。只是多少的問題。

麻將，起源於中國，粵港澳地區俗稱麻雀，由中國古人發明的博弈游戲，娛樂用具，一般用竹子、骨頭或塑料製成的小長方塊，上面刻有花紋或字樣，北方麻將每副136張，南方麻將多八個花牌，分別是春夏秋冬，梅竹蘭菊，共計144張。

四人骨牌博戲，流行於華人文化圈中。

在明末清初馬吊牌盛行的同時，由馬吊牌又派生出一種叫「紙牌」的戲娛用具。紙牌開始共有60張。斗紙牌時，四人各先取十張，以後再依次取牌、打牌。一家打出牌，兩家乃至三家同時告知，以得牌在先者為勝。這些牌目及玩法就很像今天的麻將牌了。這種牌戲在玩的過程中始終默不作聲，所以又叫默和牌。

2017年4月，國際智力運動聯盟宣布，麻將正式成為世界智力運動項目。

網路-麻將

『柒』如何在海量數據中尋找和分析信息

如何在海量數據中尋找和分析信息
雖然大數據這個概念炒的非常火，但是大數據內部運作的邏輯，其實和我們傳統行業是比較類似的。比如如果傳統行業做實業的話，首先要有地基，你要有廠房，要有原材料，然後做加工，接下來設計成獨立的產品，給客戶帶來獨特的體驗。我們剛才講的開放雲就是大數據的地基和廠房，原材料就是在線上和線下產生的海量數據。這個是我們現在網路目前每天數據規模，2013年是25PB，這個數字在快速的變化，我們現在處理的能力已經提高一倍，數據上目前是50PB，增長了一倍，這個就是我們目前大資料庫要處理的數據的原材料。那麼有了原材料接下來該怎麼辦？
數據存儲
稍微看一下我們目前的大數據處理能力的三層架構。首先我們有海量的數據儲存能力，然後在這個基礎上，我們會做很多智能的分析，在這個基礎上我們做很多大數據的產品，我們會逐步的開放這三個方面的能力。先說一下海量數據，做實業的各位領導和專家們，如果你有原材料，最關鍵的下一步要做兩件事，一件事情是物流，第二件事情是原材料的標准化，要把原材料製成毛坯，在這個基礎上才能實現你的產能。
在海量數據的處理上是這樣的，網路三年前我們的架構是左邊這樣一個模式，在這個時候我們的數據傳輸，我們數據的儲存都是每個產品線有自己的方式，我們大概用了兩年的時間構建現在的數據儲存方式，解決兩個問題，一是數據的傳輸。現在網路很多產品線要實時產生大量海量的數據，這些數據都需要被實時的儲存一個地方。
但是這些產品線的數據格式都是異構的。我們做了非常多的標准化的工作，在基礎上形成了第一個海量數據儲存的產品，叫通用的數據倉庫。在使用這個通用的數據倉庫，我們第一個構建了實時的海量數據的傳輸平台，那麼任何一個產品線產生的數據都能夠實時的傳送到這個數據倉庫裡面。另外我們做了實時的數據標准化的工作，無論你的數據是什麼樣的格式，到我們數據倉庫裡面都以同樣的格式來儲存，有了這個物流，有了這個標准化，我們能夠在這個基礎上對數據進行更多的分析和加工。
那麼從這開始，網路的數據就開始在大數據部門進行各種各樣的處理過程。
數據分析
這個圖有點復雜，這是數據在網路的一個生命周期，這邊涉及到很多的技術細節，我會詳細一一介紹。這里我想強調的是整個數據的流程是全自動化的，從數據的生成，數據的傳輸，數據的標准化，到最後數據的歸類，數據的分析，都是全自動化的。這裡面我是很高興跟大家宣布，我們這套全自動化的流程，並形成了我們自己的產品。
這個產品我們現在有一個英文名字叫Query Engine，是一套標準的海量數據儲存方案，首先無論你的數據是什麼樣的，經過我們的處理會把它做成數據標准化，當你的數據實時生成，我們有非常好的數據傳輸框架，保證你的數據上傳到網路的開放雲，在上面進行建模，進行各種各樣可視化分析和決策的過程。我們已經成功了上傳分析一家合作企業將近10T的關於新能源方面的一些數據。網路非常歡迎傳統企業，如果你有海量的數據，你需要各種各樣的分析和操作的話，來接洽我們，來使用我們這款產品。
當這個數據已經被結構化儲存以後，我們希望在這個基礎上能夠進行各種各樣的智能化分析。就像傳統行業有自己的產品設計中心一樣，會對產品進行各種各樣的分析、排列組合，做各種各樣的實驗。在這個實驗的基礎上能夠產生出比較好的產品，能夠滿足用戶的需求。那麼在大數據部門也有這樣的需求，也需要有大數據產品的設計中心，在這個設計中心需要做很多實驗，做出適用於網路，適用於客戶的數據產品。所以這個產品經過四個月的努力，我們也已經對外開放。就是之前高級總監朱永忠介紹的，大家可以通過這個域名去訪問。
在這上面，我們大數據新產品的設計中心，可以進行很多實時的智能分析，做很多的實驗，對產品進行很多排列組合，看哪一種產品能夠最適合行業，滿足網路的需求。
大數據產品
那麼有了這樣的開放能力，下面給大家介紹在這個基礎上大數據部研發出來的三個大數據產品，希望能夠對在座的做實業的朋友有幫助。
第一個產品叫網路司南，專門針對於當企業發展到一定的階段，有了一定的品牌影響力的企業，能夠讓企業對自身的品牌有更客觀的了解，一共是三個方面。第一個是品牌分析，實際上你應該很想知道你的品牌在那個同行業里它的定位怎麼樣，周邊的人是如何看待你這個品牌的，對你這個品牌的口碑怎麼樣。而且我們把它做到基本上是實時的，你可以此時此刻知道大家對你品牌的口碑到底怎麼樣。
另外一方面，關注你的品牌，應該一定有一批已經比較忠實的用戶了，那麼這些人除了關注你的品牌，像剛才陳總講的一樣，除了關注你的品牌，他還關心什麼別的，他還對什麼樣的東西感興趣。這些我們通過基於統計的用戶畫像也能夠告訴你。
另外一個這些人是通過什麼渠道來了解到你的品牌，他是通過IPAD，是通過手機，通過看電視，還是通過PC、還是移動互聯網的瀏覽，這樣以後做營銷行為，就知道如何很快的影響到你的受眾，什麼樣的渠道是最有效的。那麼通過這幾個方式，我們都能夠告訴大家你的品牌到底處在什麼樣的狀態。
給大家看兩個司南在品牌上的應用。第一個叫代言人。很多品牌到了後期推廣的時候，都有找代言人的需求。什麼樣的代言人在你最想影響的受眾是最有號召力。之前是一些拍腦袋的決策，但是通過我們司南，通過海量的數據，通過海量的用戶行為分析，可以幫助你做一個決策的科學。實際上我們已經通過大數據的分析，可以產生出超過一千家的企業，他們最合適的代言人到底是哪一位。如果哪位老總也想嘗試自己品牌的話，可以和我們合作，我們可以告訴你，通過我們的數據，什麼樣的代言人，對於你的受眾會產生最大的品牌號召力。
另外一個是輿情分析，實際是跟品牌的口碑最像。你的企業里有一系列的產品，每一個產品可能有輕微的差異化，就像我們的化妝品一樣，每一款產品在用戶中的口碑到底怎麼樣，用戶喜歡這些產品什麼樣的功能，不喜歡這些產品什麼樣的功能。在之前，很多公司通過調研公司到各個城市，通過實時的訪談獲得一些統計數據。整個過程要耗費一個月左右。通過我們的輿情分析，幾乎可以實時告訴你這個答案，到底有多少用戶是喜歡這個功能，有多少用戶不喜歡這個功能。一個是通過一個月，一個是通過實時，這樣的話就有時間差了。這個時間差就是網路大數據能給傳統行業帶來的競爭力。
這是我們第一款基於大數據的工具，叫網路司南。
另外就是我們的預測平台產品。預測這個產品說的已經比較多了，這次想跟大家說的是，當我們發布了預測產品，並且取得了比較好的效果，很多公司，或者是一些政府部門會跟我們接洽，能不能幫我們也分析一下數據。比如景點希望我們幫他預測下一步七天的人流到底多還是不多。有的企業希望讓我們幫他預測下一步季度營業額是否能跟上一個季度匹配。
我們現在非常高興的把我們的預測平台能力開放出來，你不需要再去接洽網路的產品經理做這樣的事情，只要你使用我們的開放平台上傳你的數據，我們後面就會基於一系列各種各樣的數據分析，智能的演算法和網路後台自己的數據幫你做一些決策和分析。希望能夠幫助傳統企業做決策分析的時候能夠多一些科學的決策依據。
另外一個是我們的推薦。我們現在非常高興把我們這個能力也開放出來，非常可惜我們目前只面對互聯網的站長，站長可以定定製到底想用我們推薦的哪一方面的技術和性能、功能，非常靈活的為他的網站做推薦。但實際上我們最想做到的是把我們這套推薦引擎，和傳統行業結合起來，和很多實時推薦結合起來，在這塊也非常希望傳統的行業能跟我們接洽，把我們這種非常先進的線上推薦的技術和線下的場景結合起來，在線下發揮更大的功能。
三個產品只是揭開了冰山一角，在大數據這個方面，產品設計的想像力其實是很多很多的，我們在這方面也非常興奮，後面我們也會陸續推出一系列的大數據產品，請大家期待。網路願意與更多的人一起合作，在大數據這個方向上給網路，給行業、給用戶帶來更多的價值。

『捌』搜索引擎是怎麼從海量的數據中找到我們搜索的數據的

搜索引擎的基本工作原理包括如下三個過程：首先在互聯網中發現、搜集網頁信息；同時對信息進行提取和組織建立索引庫；再由檢索器根據用戶輸入的查詢關鍵字，在索引庫中快速檢出文檔，進行文檔與查詢的相關度評價，對將要輸出的結果進行排序，並將查詢結果返回給用戶。
首先是搜索引擎搜集網頁信息放到自己的資料庫，當用戶通過關鍵詞進行查詢的時候，搜索引擎會有自己的一個檢索機制，通過關鍵詞對比相關性歷史檢索訪問數據來絕對搜索結果展現的排名理論上講排名越靠前相關性越強。

『玖』如何在海量數據中獲取第一條不重復的數據

1、海量日誌數據，提取出某日訪問網路次數最多的那個IP。

此題，在我之前的一篇文章演算法里頭有所提到，當時給出的方案是：IP的數目還是有限的，最多2^32個，所以可以考慮使用hash將ip直接存入內存，然後進行統計。

再詳細介紹下此方案：首先是這一天，並且是訪問網路的日誌中的IP取出來，逐個寫入到一個大文件中。注意到IP是32位的，最多有個2^32個

IP。同樣可以採用映射的方法，比如模1000，把整個大文件映射為1000個小文件，再找出每個小文中出現頻率最大的IP（可以採用hash_map進行頻率統計，然後再找出頻率最大的幾個）及相應的頻率。然後再在這1000個最大的IP中，找出那個頻率最大的IP，即為所求。

2、搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來，每個查詢串的長度為1-255位元組。

假設目前有一千萬個記錄（這些查詢串的重復度比較高，雖然總數是1千萬，但如果除去重復後，不超過3百萬個。一個查詢串的重復度越高，說明查詢它的用戶越多，也就是越熱門。），請你統計最熱門的10個查詢串，要求使用的內存不能超過1G。

典型的Top
K演算法，還是在這篇文章里頭有所闡述。
文中，給出的最終演算法是：第一步、先對這批海量數據預處理，在O（N）的時間內用Hash表完成排序；然後，第二步、藉助堆這個數據結構，找出Top
K，時間復雜度為N『logK。
即，藉助堆結構，我們可以在log量級的時間內查找和調整/移動。因此，維護一個K(該題目中是10)大小的小根堆，然後遍歷300萬的Query，分別和根元素進行對比所以，我們最終的時間復雜度是：O（N）
+ N'*O（logK），（N為1000萬，N』為300萬）。ok，更多，詳情，請參考原文。

或者：採用trie樹，關鍵字域存該查詢串出現的次數，沒有出現為0。最後用10個元素的最小推來對出現頻率進行排序。

3、有一個1G大小的一個文件，裡面每一行是一個詞，詞的大小不超過16位元組，內存限制大小是1M。返回頻數最高的100個詞。

『拾』海量數據演算法:如何從超過10G的記錄IP地址的日誌中，較快的找出登錄次數最多的一個IP

對於以上問題我們可以把ip地址看成是分布在[0, 2^32]的一批數字。然後統計出這批數字中出現最多的把[0, 2^32] 劃分為32個區間，32個區間再細劃分，選出最大的一個值，以此類推。雖然理論上IPv4 有42億個IP地址，但是實際上會來訪問伺服器並且留下日誌的可遠沒有那麼多。

以上就是具體的操作了，希望對大家有幫助，當然有錯誤也請指出。

怎樣從海量數據中找出作弊者

與怎樣從海量數據中找出作弊者相關的內容