大數據怎樣定義標簽_什麼是「大數據」如何理解「大數據」

『壹』基於大數據的用戶標簽體系建設思路和應用

基於大數據的用戶標簽體系建設思路和應用
在大數據時代，數據在呈現出海量化、多樣化和價值化變化的同時，也改變了傳統IT行業的市場競爭環境、營銷策略和服務模式。
如何在ZB級的海量數據中獲取並篩選有價值的信息，是對IT企業的一大挑戰。通過構建客戶標簽，支撐精準營銷服務，是應對上述挑戰的有效解決方案。
但是怎麼設計一個完善的用戶標簽體系？怎麼打標簽？打哪些標簽？誰來打？怎麼使用用戶標簽創建商業價值？
這些都是產品設計層面需要解決的問題。
掌上醫訊一直以來都致力於打造醫生的今日頭條和智能化的學習平台，通過大數據技術實現醫生學習的智能化和個性化，而要構建這樣一個學習平台，最基礎的就是要建立用戶的標簽體系。
經過長時間的學習、思考、借鑒和實踐，現在已經有了自己的標簽構建思路，並且也已經提取出了符合自身業務的標簽。我們十分重視用戶行為日誌的收集，現在已經有了億萬級別的日誌數據，正在搭建數據處理和標簽計算平台，以下是我們整理的建設思想。
標簽系統的結構
標簽系統可以分為三個部分：數據加工層、數據服務層和數據應用層。
每個層面向的用戶對象不一樣，處理事務有所不同。層級越往下，與業務的耦合度就越小。層級越往上，業務關聯性就越強。
數據加工層
數據加工層收集、清洗和提取數據。掌上醫訊有諸多的學習模塊，同時又有網站、APP、小程序等多個產品形式，每個產品模塊和產品端都會產生大量的業務數據和行為數據，這些數據極為相似又各不相同，為了搭建完善的用戶標簽體系，需要盡可能匯總最大范圍的數據。收集了所有數據之後，需要經過清洗、去重、去無效、去異常等等。
數據業務層
數據加工層為業務層提供最基礎的數據能力，提供數據原材料。業務層屬於公共資源層，並不歸屬某個產品或業務線。它主要用來維護整個標簽體系，集中在一個地方來進行管理。
在這一層，運營人員和產品能夠參與進來，提出業務要求：將原材料進行切割。
主要完成以下核心任務：
定義業務方需要的標簽。創建標簽實例。執行業務標簽實例，提供相應數據。數據應用層
應用層的任務是賦予產品和運營人員標簽的工具能力，聚合業務數據，構建具體的數據應用場景。
（1）標簽的類型
從數據提取維度來看，標簽可分為：事實標簽、模型標簽和預測標簽。
（2）事實標簽
從生產系統獲取數據，定性或定量描述用戶的自然屬性、產品屬性、消費屬性、資源屬性等，以及根據工作人員經驗積累的業務規則進行篩選、分析生產的標簽，如是否活躍用戶、是否是考生等。
（3）模型標簽
對用戶屬性及行為等屬性的抽象和聚類，通過剖析用戶的基礎數據為用戶貼上相應的總結概括性標簽及指數，標簽代表用戶的興趣、偏好、需求等，指數代表用戶的興趣程度、需求程度、購買概率等。
（4）預測標簽
基於用戶的屬性、行為、信令、位置和特徵，挖掘用戶潛在需求，針對這些潛在需求配合營銷策略、規則進行打標，實現營銷適時、適機、適景推送給用戶。
從數據的時效性來看，標簽可分為：靜態屬性標簽和動態屬性標簽。
（5）靜態屬性標簽
長期甚至永遠都不會發生改變。比如性別，出生日期，這些數據都是既定的事實，幾乎不會改變。
（6）動態屬性標簽
存在有效期，需要定期地更新，保證標簽的有效性。比如：用戶的購買力，用戶的活躍情況。
標簽的定義
給用戶打標簽，建立用戶畫像，最終都是為了去應用，所以我們要站在應用場景上去定義用戶的標簽體系，每個標簽都有最終的用途。比如：我們做考試培訓服務，我們需要建立「是否考生」的標簽。
另外，不同的行業他們的用戶特徵也是有顯著區別的，比如：醫生用戶相比普通用戶來說，就多了像「科室」、「職稱」、「所在醫院等級」等特殊含義的標簽。
而標簽是有層級關系的，既是為了管理，更好的理解，又是為了控制粗細力度，方便最終的應用。標簽深度一般控制在四級比較合適，到了第四級就是具體的標簽實例。
我們根據公司的業務首先劃分了人口屬性、行為屬性、用戶分類和商業屬性四個大的分類，下面又分了上網習慣、學習慣、人群屬性、消費能力、消費習慣等分類，最末級精確到用戶的活躍等級、閱讀來源、考試偏好等具體的標簽。
標簽的維護
每個標簽都不會憑空產生的，也不會一成不變，更不會憑空消失。標簽的維護需要生成規則，需要定義權重，需要更新策略。
生成規則
如第一部分所說，標簽分為事實標簽，模型標簽和預測標簽三大類。對於這三類的標簽，生成規則的難度和復雜性也是逐級遞增的。事實標簽只需要考慮從什麼地方提取即可，它即包含明確的標簽定義，又包含無法窮舉的標簽集，比如：關注的病種。
而模型標簽需要進行數據的關聯和邏輯關系的設計，通過一定的模型對數據進行計算得來。而預測標簽相對就非常的復雜，無法從原始數據提取標簽，標簽的生成准確度就太依賴我們大數據分析和人工智慧技術的應用。
定義權重
一個標簽會在多個場景下出現，比如：一個疾病標簽，它極可能在瀏覽過程中生成，也有可能在搜索場景下產生，但是對於這兩個場景所對應的同一個標簽，他們的權重是不同的。瀏覽相比搜索，權重要小得多，因為搜索的主動需求更大。
更新策略
上文我們從數據的時效性上對標簽分為靜態屬性標簽和動態屬性標簽，對於靜態屬性標簽的處理相對比較簡單，就不停的累加即可。但是對於動態屬性標簽，需要對過期標簽進行降權甚至刪除處理，比如：醫生考試前和考試後，會影響「是否考生」這個標簽的，這就需要制定更新策略。
標簽建設的技術架構
標簽體系的建設涉及很多環節，數據量也十分巨大，需要有一個健壯且高效的技術架構來支持數據的存儲及計算，掌上醫訊採用了sql資料庫和no-sql資料庫來滿足結構化數據和非結構化數據的存儲。
使用hadoop的分布式存儲技術及hive和hbase組件作為數據倉庫，使用MapRece和spark分布式計算來提高計算速度，使用kylin進行多維分析，通過BI工具和介面對外提供應用，使用sqoop和kettle進行數據的抽取及流程的調用。
更多的應用場景
用戶標簽建立已經基本應用在掌上醫訊的內容智能推薦的學習場景中，但隨著標簽的完善以及智能化處理的提升，這套標簽體系將有更廣闊的應用場景。
（1）智能化學習場景的構建
通過用戶學習需求的標簽的分析進行用戶分群，針對不同的用戶群在APP的功能和內容上進行個性化展示，滿足不同學習需求的用戶個性化的學習服務。
（2）精準營銷推廣的建立
更細粒度的對用戶進行篩選，同時能夠精準預測可能存在的目標用戶進行推廣，從而擴大醫生覆蓋，提升推廣的轉化率。
（3）KOL用戶畫像的描繪
基於該標簽模型，增加對外部數據的採集分析，更加完整的生成醫生360度的用戶畫像，幫助企業尋找潛在的KOL用戶，實現用戶洞察，輔助市場決策。
標簽的建設是一個看似高大上，其實很繁瑣、糾結的過程，需要對業務抽絲剝繭，還要應對運營需求的各種變化，不過對公司發展的影響也是深遠的。

『貳』大數據定義、思維方式及架構模式

大數據定義、思維方式及架構模式
一、大數據何以為大
數據現在是個熱點詞彙，關於有了大數據，如何發揮大數據的價值，議論紛紛，而筆者以為，似乎這有點搞錯了原因與結果，就象關聯關系，有A的時候，B與之關聯，而有B的時候，A卻未必關聯，筆者還是從通常的4個V來描述一下我所認為的大數據思維。
1、大數據的量，數據量足夠大，達到了統計性意義，才有價值。筆者看過的一個典型的案例就是，例如傳統的，收集幾千條數據，很難發現血緣關系對遺傳病的影響，而一旦達到2萬條以上，那麼發現這種影響就會非常明顯。那麼對於我們在收集問題時，是為了發現隱藏的知識去收集數據，還是不管有沒有價值地收集，這還是值得商榷的。其實收集數據，對於數據本身，還是可以劃分出一些標准，確立出層級，結合需求、目標來收集，當然有人會說，這樣的話，將會導致巨大的偏差，例如說喪失了數據的完整性，有一定的主觀偏向，但是筆者以為，這樣至少可以讓收集到的數據的價值相對較高。
2、大數據的種類，也可以說成數據的維度，對於一個對象，採取標簽化的方式，進行標記，針對需求進行種類的擴充，和數據的量一樣，筆者認為同樣是建議根據需求來確立，但是對於標簽，有一個通常採取的策略，那就是推薦標簽和自定義標簽的問題，分類法其實是人類文明的一大創舉，採取推薦標簽的方式，可以大幅度降低標簽的總量，而減少後期的規約工作，數據收集時擴充量、擴充維度，但是在數據進入應用狀態時，我們是希望處理的是小數據、少維度，而通過這種推薦、可選擇的方式，可以在標准化基礎上的自定義，而不是毫無規則的擴展，甚至用戶的自定義標簽給予一定的限制，這樣可以使維度的價值更為顯現。
3、關於時效性，現在進入了讀秒時代，那麼在很短的時間進行問題分析、關聯推薦、決策等等，需要的數據量和數據種類相比以前，往往更多，換個說法，因為現在時效性要求高了，所以處理數據的方式變了，以前可能多人處理，多次處理，現在必須變得單人處理、單次處理，那麼相應的信息系統、工作方式、甚至企業的組織模式，管理績效都需要改變，例如筆者曾經工作的企業，上了ERP系統，設計師意見很大，說一個典型案例，以往發一張變更單，發出去工作結束，而上了ERP系統以後，就必須為這張變更單設定物料代碼，設置需要查詢物料的存儲，而這些是以前設計師不管的，又沒有為設計師為這些增加的工作支付獎勵，甚至因為物料的缺少而導致變更單不能發出，以至於設計師工作沒有完成，導致被處罰。但是我們從把工作一次就做完，提升企業的工作效率角度，這樣的設計變更與物料集成的方式顯然是必須的。那麼作為一個工作人員，如何讓自己的工作更全面，更完整，避免王府，讓整個企業工作更具有時間的競爭力，提高數據的數量、種類、處理能力是必須的。
4、關於大數據價值，一種說法是大數據有大價值，還有一種是相對於以往的結構化數據、少量數據，現在是大數據了，所以大數據的單位價值下降。筆者以為這兩種說法都正確，這是一個從總體價值來看，一個從單元數據價值來看的問題。而筆者提出一個新的關於大數據價值的觀點，那就是真正發揮大數據的價值的另外一個思路。這個思路就是針對企業的問題，首先要說什麼是問題，筆者說的問題不是一般意義上的問題，因為一說問題，大家都以為不好、錯誤等等，而筆者的問題的定義是指狀態與其期望狀態的差異，包括三種模式，
1）通常意義的問題，例如失火了，必須立即撲救，其實這是三種模式中最少的一種；
2）希望保持狀態，
3）期望的狀態，這是比原來的狀態高一個層級的。
我們針對問題，提出一系列解決方案，這些解決方案往往有多種，例如員工的培訓，例如設備的改進，例如組織的方式的變化，當然解決方案包括信息化手段、大數據手段，我們一樣需要權衡大數據的方法是不是一種相對較優的方法，如果是，那麼用這種手段去解決，那麼也就是有價值了。例如筆者知道的一個案例，一個企業某產品部件偶爾會出現問題，企業經歷數次後決定針對設備上了一套工控系統，記錄材料的溫度，結果又一次出現問題時，進行分析認為，如果工人正常上班操作，不應該有這樣的數據記錄，而經過與值班工人的質詢，值班工人承認其上晚班時睡覺，沒有及時處理。再往後，同樣的問題再沒有再次發生。
總結起來，筆者以為大數據思維的核心還是要落實到價值上，面向問題，收集足夠量的數據，足夠維度的數據，達到具有統計學意義，也可以滿足企業生產、客戶需求、甚至競爭的時效要求，而不是一味為了大數據而大數據，這樣才是一種務實、有效的正確思維方式，是一線大數據的有效的項目推進方式，在這樣的思維模式基礎上，採取滾雪球方式，把大數據逐步展開，才真正贏來大數據百花齊放的春天。
二、大數據思維方式
大數據研究專家舍恩伯格指出，大數據時代，人們對待數據的思維方式會發生如下三個變化：
1）人們處理的數據從樣本數據變成全部數據；
2）由於是全樣本數據，人們不得不接受數據的混雜性，而放棄對精確性的追求；
3）人類通過對大數據的處理，放棄對因果關系的渴求，轉而關注相關關系。
事實上，大數據時代帶給人們的思維方式的深刻轉變遠不止上述三個方面。筆者認為，大數據思維最關鍵的轉變在於從自然思維轉向智能思維，使得大數據像具有生命力一樣，獲得類似於「人腦」的智能，甚至智慧。
1、總體思維
社會科學研究社會現象的總體特徵，以往采樣一直是主要數據獲取手段，這是人類在無法獲得總體數據信息條件下的無奈選擇。在大數據時代，人們可以獲得與分析更多的數據，甚至是與之相關的所有數據，而不再依賴於采樣，從而可以帶來更全面的認識，可以更清楚地發現樣本無法揭示的細節信息。
正如舍恩伯格總結道：「我們總是習慣把統計抽樣看作文明得以建立的牢固基石，就如同幾何學定理和萬有引力定律一樣。但是，統計抽樣其實只是為了在技術受限的特定時期，解決當時存在的一些特定問題而產生的，其歷史不足一百年。如今，技術環境已經有了很大的改善。在大數據時代進行抽樣分析就像是在汽車時代騎馬一樣。
在某些特定的情況下，我們依然可以使用樣本分析法，但這不再是我們分析數據的主要方式。」也就是說，在大數據時代，隨著數據收集、存儲、分析技術的突破性發展，我們可以更加方便、快捷、動態地獲得研究對象有關的所有數據，而不再因諸多限制不得不採用樣本研究方法，相應地，思維方式也應該從樣本思維轉向總體思維，從而能夠更加全面、立體、系統地認識總體狀況。
2、容錯思維
在小數據時代，由於收集的樣本信息量比較少，所以必須確保記錄下來的數據盡量結構化、精確化，否則，分析得出的結論在推及總體上就會「南轅北轍」，因此，就必須十分注重精確思維。然而，在大數據時代，得益於大數據技術的突破，大量的非結構化、異構化的數據能夠得到儲存和分析，這一方面提升了我們從數據中獲取知識和洞見的能力，另一方面也對傳統的精確思維造成了挑戰。
舍恩伯格指出，「執迷於精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是結構化且能適用於傳統資料庫的。如果不接受混亂，剩下95%的非結構化數據都無法利用，只有接受不精確性，我們才能打開一扇從未涉足的世界的窗戶」。也就是說，在大數據時代，思維方式要從精確思維轉向容錯思維，當擁有海量即時數據時，絕對的精準不再是追求的主要目標，適當忽略微觀層面上的精確度，容許一定程度的錯誤與混雜，反而可以在宏觀層面擁有更好的知識和洞察力。
3、相關思維
在小數據世界中，人們往往執著於現象背後的因果關系，試圖通過有限樣本數據來剖析其中的內在機理。小數據的另一個缺陷就是有限的樣本數據無法反映出事物之間的普遍性的相關關系。而在大數據時代，人們可以通過大數據技術挖掘出事物之間隱蔽的相關關系，獲得更多的認知與洞見，運用這些認知與洞見就可以幫助我們捕捉現在和預測未來，而建立在相關關系分析基礎上的預測正是大數據的核心議題。
通過關注線性的相關關系，以及復雜的非線性相關關系，可以幫助人們看到很多以前不曾注意的聯系，還可以掌握以前無法理解的復雜技術和社會動態，相關關系甚至可以超越因果關系，成為我們了解這個世界的更好視角。舍恩伯格指出，大數據的出現讓人們放棄了對因果關系的渴求，轉而關注相關關系，人們只需知道「是什麼」，而不用知道「為什麼」。我們不必非得知道事物或現象背後的復雜深層原因，而只需要通過大數據分析獲知「是什麼」就意義非凡，這會給我們提供非常新穎且有價值的觀點、信息和知識。也就是說，在大數據時代，思維方式要從因果思維轉向相關思維，努力顛覆千百年來人類形成的傳統思維模式和固有偏見，才能更好地分享大數據帶來的深刻洞見。
4、智能思維
不斷提高機器的自動化、智能化水平始終是人類社會長期不懈努力的方向。計算機的出現極大地推動了自動控制、人工智慧和機器學習等新技術的發展，「機器人」研發也取得了突飛猛進的成果並開始一定應用。應該說，自進入到信息社會以來，人類社會的自動化、智能化水平已得到明顯提升，但始終面臨瓶頸而無法取得突破性進展，機器的思維方式仍屬於線性、簡單、物理的自然思維，智能水平仍不盡如人意。
但是，大數據時代的到來，可以為提升機器智能帶來契機，因為大數據將有效推進機器思維方式由自然思維轉向智能思維，這才是大數據思維轉變的關鍵所在、核心內容。眾所周知，人腦之所以具有智能、智慧，就在於它能夠對周遭的數據信息進行全面收集、邏輯判斷和歸納總結，獲得有關事物或現象的認識與見解。同樣，在大數據時代，隨著物聯網、雲計算、社會計算、可視技術等的突破發展，大數據系統也能夠自動地搜索所有相關的數據信息，並進而類似「人腦」一樣主動、立體、邏輯地分析數據、做出判斷、提供洞見，那麼，無疑也就具有了類似人類的智能思維能力和預測未來的能力。
「智能、智慧」是大數據時代的顯著特徵，大數據時代的思維方式也要求從自然思維轉向智能思維，不斷提升機器或系統的社會計算能力和智能化水平，從而獲得具有洞察力和新價值的東西，甚至類似於人類的「智慧」。
舍恩伯格指出，「大數據開啟了一個重大的時代轉型。就像望遠鏡讓我們感受宇宙，顯微鏡讓我們能夠觀測到微生物一樣，大數據正在改變我們的生活以及理解世界的方式，成為新發明和新服務的源泉，而更多的改變正蓄勢待發」。
大數據時代將帶來深刻的思維轉變，大數據不僅將改變每個人的日常生活和工作方式，改變商業組織和社會組織的運行方式，而且將從根本上奠定國家和社會治理的基礎數據，徹底改變長期以來國家與社會諸多領域存在的「不可治理」狀況，使得國家和社會治理更加透明、有效和智慧。

『叄』什麼是「大數據」，如何理解「大數據」

你好，大數據是指巨量的數據，指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。

當下，大數據技術作為新興技術被許多互聯網大廠所需，以華為為例。

1、華為雲推出大數據稽核方案解決偷逃費

很多朋友可能發現,部分省界收費站變少而ETC通道在增加,高速公路的出行體驗比以前更加順暢。然而,在公眾體驗節省費用、便捷通行等利好的同時,高速公路的管理運營單位卻飽受新情況的困擾。

部分車主偷逃費方式多樣化,包括換卡逃費、車頭掛車分離逃費、倒換電子標簽、ETC車道跟車逃費等。同時偷逃費行為向專業化、團伙化演變,給高速運營單位帶來大量經濟損失和嚴峻挑戰。

以華為為例，華為給1-3年經驗的大數據開發工程師開到了高達4萬的月薪，在其他大廠的招聘中30k-60k的大數據開發工程師，也只要1-3年工作經驗，可以說大數據、雲計算仍是當下的紅利崗位。

希望我的回答對你有所幫助！

『肆』大數據的定義是什麼

大數據或稱巨量資料，指的是所涉及的資料量規模巨大到無法透過主流軟體工具，在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
大數據需要特殊的技術，以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術，包括大規模並行處理（MPP）資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。

大數據怎樣定義標簽

與大數據怎樣定義標簽相關的內容