A. 怎樣成為大數據人才
優秀的人才是成事的根本。當開始真正做事的時候,人們會發現:優秀的人才是短缺的。於是,競爭的高端變成了人才的競爭。對於大數據這樣新興的發展方向來說,更是如此。大數據的熱頭,今年雖然有被人工智慧和虛擬現實掩蓋的趨勢,但其勢頭依然火熱。而且更是超越了初始的噱頭,走向廣泛的工業實施。在今年的中國大數據產業峰會上,清華大學計算機系教授武永衛透露:未來3~5年,中國需要180萬數據人才,但目前只有約30萬人。IDC估計,到2020年,企業基於大數據計算分析平台的支出將突破5000億美元。廣義來說,在數據採集、數據存儲、數據挖掘、數據分析等方向,所需要的人才數量將更為巨大。
大數據的人才哪裡來呢?
大數據是個應用性很強的行業。某些傳統企業,他有大數據,卻讓數據睡大覺而不產生價值。而政府部門有數據,卻把數據緊緊攥在自己手裡,條塊分割,無法被人利用。真正實踐大數據的是一批用戶量巨大的互聯網企業。它們有能力收集到足夠多的數據,分析所收集到的數據,從數據中挖掘出價值並且產生收益。實踐出真知。這些企業擁有大數據的人才,也具有培養大數據人才的基本條件。他們應該成為培養大數據人才的黃埔軍校。
企業的核心目標是要實現其商業價值,他們的主要精力是要貢獻給核心目標。不過,作為行業的龍頭企業,為這個行業的健康發展貢獻力量是其社會責任。為社會培養人才,為企業儲備力量,也是其應有的考慮。近年來很多互聯網企業都不約而同地舉辦大數據分析競賽。
從某些發達國家的經驗來看,先進的企業與優秀的高校合作會帶來意想不到的效果。高校擁有大量有潛力的學生,企業擁有行業發展前沿的課題和處理這些課題的物質條件,兩相結合則推動了人才的培養和技術的發展。互聯網企業拿出自己業務上的數據,提出分析的目標。而在高校中廣泛徵集分析方案,把自己的數據拿出來舉行大數據分析競賽。這不僅為在校的學生提供接觸行業前沿問題的機會,也可以讓學生通過實戰來在戰斗中成長。這不啻為一種培養高級人才的方式。
現在有一種風氣,社會對某方面的人才有大量的需求,政府的關注、社會的輿論、培訓機構的宣傳、教育機構的躁動都蜂擁而至。大家都嗅到了發財的機會,市場看不見的手在這里發揮了顯著的作用。從應急的角度,我們可以批量產生所需要的從業人員。不過,對於能夠看清行業發展方向、推動行業技術進步、識別行業商業機遇的帥才,大規模集訓是不起作用的。對於這些人才,我們更多的需要為他們創造寬松的機會,讓他們能夠脫穎而出,在他們成長路上做一個伯樂,而不是拿著鞭子在後面抽打。
大數據這個行當,當前雖然對其有很多期許,真正發揮了價值的方向還不多。按道理,我們這個社會進入了數字化時代,每天所產生的數據比這個時代來臨之前所產生數據之和還多。處理這些數據理應有更大的價值,能夠創造現在意想不到的機會。如果應用現有的技術和方法去處理現有的問題,我們需要的是按照一定方法和規程進行操作的人才。這樣的人員需求,培訓就可以解決。如果是要去發現大數據行當的新的應用需求,突破現有方法的限制尋找新的方法去解決問題,發掘這個社會數字化,甚至我們生活的物理世界數字化後更多的機會,所需要的人才就可遇不可求了。
B. 如何轉型成為大數據工程師 需要具備哪些條件
大數據是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大數據處理相關的職業,通過對數據的挖掘分析來影響企業的商業決策。
這群人在國外被叫做數據科學家(Data Scientist),這個頭銜最早由D.J.Pati和Jeff Hammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook數據科學團隊的負責人。而數據科學家這個職位目前也已經在美國傳統的電信、零售、金融、製造、物流、醫療、教育等行業里開始創造價值。
不過在國內,作為大數據人才培養基地,能更加清楚地了解現今的大數據行業情況,認為大數據的應用才剛剛萌芽,人才市場還不那麼成熟,「你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才。」領英(LinkedIn)中國商務分析及戰略總監王昱堯對《第一財經周刊》說。
數據工程師是做什麼的?
於是每家公司對大數據工作的要求不盡相同:有的強調資料庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司里出現的Title,我們將其統稱為「大數據工程師」。
由於國內的大數據工作還處在一個有待開發的階段,因此能從其中挖掘出多少價值完全取決於工程師的個人能力。已經身處這個行業的專家給出了一些人才需求的大體框架,包括要有計算機編碼能力、數學及統計學相關背景,當然如果能對一些特定領域或行業有比較深入的了解,對於其快速判斷並抓准關鍵因素則更有幫助。
雖然對於一些大公司來說,擁有碩博學歷的公司人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理數據的經驗並且有喜歡在數據海洋中尋寶的好奇心會更適合這個工作。
除此之外,一個優秀的大數據工程師要具備一定的邏輯分析能力,並能迅速定位某個商業問題的關鍵屬性和決定因素。「他得知道什麼是相關的,哪個是重要的,使用什麼樣的數據是最有價值的,如何快速找到每個業務最核心的需求。」聯合國網路大數據聯合實驗室數據科學家沈志勇說。學習能力能幫助大數據工程師快速適應不同的項目,並在短時間內成為這個領域的數據專家;溝通能力則能讓他們的工作開展地更順利,因為大數據工程師的工作主要分為兩種方式:由市場部驅動和由數據分析部門驅動,前者需要常常向產品經理了解開發需求,後者則需要找運營部了解數據模型實際轉化的情況。
你可以將以上這些要求看做是成為大數據工程師的努力方向,這是一個很大的人才缺口。目前國內的大數據應用多集中在互聯網領域,有超過56%的企業在籌備發展大數據研究,
因此分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。
1.找出過去事件的特徵
大數據工程師一個很重要的工作,就是通過分析數據來找出過去事件的特徵。比如,騰訊的數據團隊正在搭建一個數據倉庫,把公司所有網路平台上數量龐大、不規整的數據信息進行梳理,總結出可供查詢的特徵,來支持公司各類業務對數據的需求,包括廣告投放、游戲開發、社交網路等。
找出過去事件的特徵,最大的作用是可以幫助企業更好地認識消費者。通過分析用戶以往的行為軌跡,就能夠了解這個人,並預測他的行為。「你可以知道他是什麼樣的人、他的年紀、興趣愛好,是不是互聯網付費用戶、喜歡玩什麼類型的游戲,平常喜歡在網上做什麼事情。」騰訊雲計算有限公司北京研發中心總經理鄭立峰對《第一財經周刊》說。下一步到了業務層面,就可以針對各類人群推薦相關服務,比如手游,或是基於不同特徵和需求衍生出新的業務模式,比如微信的電影票業務。
2.預測未來可能發生的事情
通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。在阿里媽媽的營銷平台上,工程師正試圖通過引入氣象數據來幫助淘寶賣家做生意。「比如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了空調、電扇,背心、游泳衣等都可能會受其影響。那麼我們就會建立氣象數據和銷售數據之間的關系,找到與之相關的品類,提前警示賣家周轉庫存。」薛貴榮說。
以網路景點預測為例,大數據工程師需要收集所有可能影響一段時間內景點人流量的關鍵因素進行預測,並為全國各個景點未來的擁擠度分級—在接下來的若干天時間里,它究竟是暢通、擁擠,還是一般擁擠?
3.找出最優化的結果
根據不同企業的業務性質,大數據工程師可以通過數據分析來達到不同的目的。
在過去,決策者只能依據經驗進行判斷,但如今大數據工程師可以通過大范圍地實時測試—比如,在社交網路產品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統計一段時間內的點擊率和轉化率,以此幫助市場部做出最終選擇。
作為電商的阿里巴巴,則希望通過大數據鎖定精準的人群,幫助賣家做更好的營銷。一個淘寶的實例是,某人參賣家原來推廣的目標人群是產婦,但工程師通過挖掘數據之間的關聯性後發現,針對孕婦群體投放的營銷轉化率更高。
需要具備的能力
1.數學及統計學相關的背景
就我們采訪過的BAT三家互聯網大公司來說,對於大數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。缺乏理論背景的數據工作者,更容易進入一個技能上的危險區域(Danger Zone)—一堆數字,按照不同的數據模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。「只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,來解決實際問題。」沈志勇說。
2.計算機編碼能力
實際開發能力和大規模的數據處理能力是作為大數據工程師的一些必備要素。
舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業分析為主,但也要熟悉計算機處理大數據的方式。
3.對特定應用領域或行業的知識
大數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大數據工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。
職業發展
1.如何成為
由於目前大數據人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模數據處理經驗。因此很多企業會通過內部挖掘。
2014年8月,阿里巴巴舉辦了一個大數據競賽,把天貓平台上的數據拿出來,去除敏感問題後,放到雲計算平台上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽。「通過這個方式來激勵內部員工,同時也發現外部人才,讓各行業的大數據工程師涌現出來。」
目前長期從事資料庫管理、挖掘、編程工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數據來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用數據,也可以成為大數據工程師。
2.薪酬待遇
作為IT類職業中的「大熊貓」,大數據工程師的收入待遇可以說達到了同類的頂級,國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。顏莉萍(Nicole Yan)表示,「大數據時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。」在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據了解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。
3.職業發展路徑
由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。
C. 大數據需要什麼人才
說到大數據,肯定少不了分析軟體,這應該是大數據工作的根基,但市面上很多各種分析軟體,如果不是過來人,真的很難找到適合自己或符合企業要求的。
小編通過各大企業對大數據相關行業的崗位要求,總結了以下幾點:
(1)SQL資料庫的基本操作,會基本的數據管理
(2)會用Excel/SQL做基本的數據分析和展示
(3)會用腳本語言進行數據分析,Python or R
(4)有獲取外部數據的能力,如爬蟲
(5)會基本的數據可視化技能,能撰寫數據報告
(6)熟悉常用的數據挖掘演算法:回歸分析、決策樹、隨機森林、支持向量機等
對於學習大數據,總體來說,先學基礎,再學理論,最後是工具。基本上,每一門語言的學習都是要按照這個順序來的。
1、學習數據分析基礎知識,包括概率論、數理統計。基礎這種東西還是要掌握好的啊,基礎都還沒扎實,知識大廈是很容易倒的哈。
2、你的目標行業的相關理論知識。比如金融類的,要學習證券、銀行、財務等各種知識,不然到了公司就一臉懵逼啦。
3、學習數據分析工具,軟體結合案列的實際應用,關於數據分析主流軟體有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。
4、學會怎樣操作這些軟體,然後是利用軟體從數據的清洗開始一步步進行處理,分析,最後輸出結果,檢驗及解讀數據。
當然,學習數學與應用數學、統計學、計算機科學與技術等理工科專業的人確實比文科生有著客觀的優勢,但能力大於專業,興趣才會決定你走得有多遠。畢竟數據分析不像編程那樣,需要你天天敲代碼,要學習好多的編程語言,數據分析更注重的是你的實操和業務能力。如今的軟體學習都是非常簡單便捷的,我們真正需要提升的是自己的邏輯思維能力,以及敏銳的洞察能力,還得有良好的溝通表述能力。這些都是和自身的努力有關,而不是單純憑借理工科背景就可以啃得下來的。相反這些能力更加傾向於文科生,畢竟好奇心、創造力也是一個人不可或缺的。一、計算機編碼能力實際開發能力和大規模的數據處理能力是作為大數據工程師的一些必備要素。舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中拾取有意義的信息就需要大數據工程師親自挖掘。二、數學及統計學相關的背景國內BAT為代表的大公司,對於大數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。缺乏理論背景的數據工作者,按照不同的數據模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,來解決實際問題。三、特定應用領域或行業的知識大數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大數據工程師有很大幫助。
D. 大數據人才發展前景如何
1. 人才缺口
全球最頂尖管理咨詢公司麥肯錫(McKinsey)出具的一份詳細分析報告顯示,大數據或者數據工作者的崗位需求將激增,其中大數據科學家的缺口在14萬到19萬之間,對於懂得如何利用大數據做決策的分析師和經理的崗位缺口則將達到150萬。
2. 就業薪水
根據調查,目前北京地區大數據人才的平均工資為13680,月薪在15K以上的佔41.4%。月薪6k-10k的佔52.1%。
E. 如何成為一名大數據工程師
大數據是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大數據處理相關的職業,通過對數據的挖掘分析來影響企業的商業決策。
這群人在國外被叫做數據科學家(Data Scientist),這個頭銜最早由D.J.Pati和Jeff Hammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook數據科學團隊的負責人。而數據科學家這個職位目前也已經在美國傳統的電信、零售、金融、製造、物流、醫療、教育等行業里開始創造價值。
不過在國內,大數據的應用才剛剛萌芽,人才市場還不那麼成熟,「你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才。」領英(LinkedIn)中國商務分析及戰略總監王昱堯對《第一財經周刊》說。
數據工程師是做什麼的?於是每家公司對大數據工作的要求不盡相同:有的強調資料庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司里出現的Title,我們將其統稱為「大數據工程師」。
由於國內的大數據工作還處在一個有待開發的階段,因此能從其中挖掘出多少價值完全取決於工程師的個人能力。已經身處這個行業的專家給出了一些人才需求的大體框架,包括要有計算機編碼能力、數學及統計學相關背景,當然如果能對一些特定領域或行業有比較深入的了解,對於其快速判斷並抓准關鍵因素則更有幫助。
雖然對於一些大公司來說,擁有碩博學歷的公司人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理數據的經驗並且有喜歡在數據海洋中尋寶的好奇心會更適合這個工作。
除此之外,一個優秀的大數據工程師要具備一定的邏輯分析能力,並能迅速定位某個商業問題的關鍵屬性和決定因素。「他得知道什麼是相關的,哪個是重要的,使用什麼樣的數據是最有價值的,如何快速找到每個業務最核心的需求。」聯合國網路大數據聯合實驗室數據科學家沈志勇說。學習能力能幫助大數據工程師快速適應不同的項目,並在短時間內成為這個領域的數據專家;溝通能力則能讓他們的工作開展地更順利,因為大數據工程師的工作主要分為兩種方式:由市場部驅動和由數據分析部門驅動,前者需要常常向產品經理了解開發需求,後者則需要找運營部了解數據模型實際轉化的情況。
你可以將以上這些要求看做是成為大數據工程師的努力方向,因為根據萬寶瑞華管理合夥人顏莉萍(Nicole Yan)的觀察,這是一個很大的人才缺口。目前國內的大數據應用多集中在互聯網領域,有超過56%的企業在籌備發展大數據研究,「未來5年,94%的公司都會需要數據科學家。」顏莉萍(Nicole Yan)說。因此她也建議一些原本從事與數據工作相關的公司人可以考慮轉型。
用阿里巴巴集團研究員薛貴榮的話來說,大數據工程師就是一群「玩數據」的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此「會玩」這些數據的人就很重要。
沈志勇認為如果把大數據想像成一座不停累積的礦山,那麼大數據工程師的工作就是,「第一步,定位並抽取信息所在的數據集,相當於探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當於冶煉。最後是應用,把數據可視化等。」
因此分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。
1.找出過去事件的特徵
大數據工程師一個很重要的工作,就是通過分析數據來找出過去事件的特徵。比如,騰訊的數據團隊正在搭建一個數據倉庫,把公司所有網路平台上數量龐大、不規整的數據信息進行梳理,總結出可供查詢的特徵,來支持公司各類業務對數據的需求,包括廣告投放、游戲開發、社交網路等。
找出過去事件的特徵,最大的作用是可以幫助企業更好地認識消費者。通過分析用戶以往的行為軌跡,就能夠了解這個人,並預測他的行為。「你可以知道他是什麼樣的人、他的年紀、興趣愛好,是不是互聯網付費用戶、喜歡玩什麼類型的游戲,平常喜歡在網上做什麼事情。」騰訊雲計算有限公司北京研發中心總經理鄭立峰對《第一財經周刊》說。下一步到了業務層面,就可以針對各類人群推薦相關服務,比如手游,或是基於不同特徵和需求衍生出新的業務模式,比如微信的電影票業務。
2.預測未來可能發生的事情
通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。在阿里媽媽的營銷平台上,工程師正試圖通過引入氣象數據來幫助淘寶賣家做生意。「比如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了空調、電扇,背心、游泳衣等都可能會受其影響。那麼我們就會建立氣象數據和銷售數據之間的關系,找到與之相關的品類,提前警示賣家周轉庫存。」薛貴榮說。
在網路,沈志勇支持「網路預測」部分產品的模型研發,試圖用大數據為更廣泛的人群服務。已經上線的包括世界盃預測、高考預測、景點預測等。以網路景點預測為例,大數據工程師需要收集所有可能影響一段時間內景點人流量的關鍵因素進行預測,並為全國各個景點未來的擁擠度分級—在接下來的若干天時間里,它究竟是暢通、擁擠,還是一般擁擠?
3.找出最優化的結果
根據不同企業的業務性質,大數據工程師可以通過數據分析來達到不同的目的。
以騰訊來說,鄭立峰認為能反映大數據工程師工作的最簡單直接的例子就是選項測試(AB Test),即幫助產品經理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據經驗進行判斷,但如今大數據工程師可以通過大范圍地實時測試—比如,在社交網路產品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統計一段時間內的點擊率和轉化率,以此幫助市場部做出最終選擇。
作為電商的阿里巴巴,則希望通過大數據鎖定精準的人群,幫助賣家做更好的營銷。「我們更期待的是你能找到這樣一批人,比起現有的用戶,這些人對產品更感興趣。」薛貴榮說。一個淘寶的實例是,某人參賣家原來推廣的目標人群是產婦,但工程師通過挖掘數據之間的關聯性後發現,針對孕婦群體投放的營銷轉化率更高。
需要具備的能力
1.數學及統計學相關的背景
就我們采訪過的BAT三家互聯網大公司來說,對於大數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。沈志勇認為,缺乏理論背景的數據工作者,更容易進入一個技能上的危險區域(Danger Zone)—一堆數字,按照不同的數據模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。「只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,來解決實際問題。」沈志勇說。
2.計算機編碼能力
實際開發能力和大規模的數據處理能力是作為大數據工程師的一些必備要素。「因為許多數據的價值來自於挖掘的過程,你必須親自動手才能發現金子的價值。」鄭立峰說。
舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業分析為主,但也要熟悉計算機處理大數據的方式。
3.對特定應用領域或行業的知識
在顏莉萍(Nicole Yan)看來,大數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大數據工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。
「他不能只是懂得數據,還要有商業頭腦,不論對零售、醫葯、游戲還是旅遊等行業,能就其中某些領域有一定的理解,最好還是與公司的業務方向一致的,」就此薛貴榮還打了個比方,「過去我們說一些奢侈品店員勢利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認為他們是這個行業的專家。又比如對醫療行業了解的人,他在考慮醫療保險業務時,不僅會和人們醫院看病的記錄相關,也會考慮飲食數據,這些都是基於對該領域的了解。」
職業發展1.如何成為大數據工程師
由於目前大數據人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模數據處理經驗。因此很多企業會通過內部挖掘。
2014年8月,阿里巴巴舉辦了一個大數據競賽,把天貓平台上的數據拿出來,去除敏感問題後,放到雲計算平台上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽。「通過這個方式來激勵內部員工,同時也發現外部人才,讓各行業的大數據工程師涌現出來。」
顏莉萍(Nicole Yan)建議,目前長期從事資料庫管理、挖掘、編程工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數據來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用數據,也可以成為大數據工程師。
2.薪酬待遇
作為IT類職業中的「大熊貓」,大數據工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍(Nicole Yan)的觀察,國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。顏莉萍(Nicole Yan)表示,「大數據時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。」在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據了解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。
3.職業發展路徑
由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官。「這個職位的大部分人會往研究方向發展,成為重要數據戰略人才。」顏莉萍(Nicole Yan)說。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。
F. 大數據處理需要什麼樣的人才需要具備哪些技能
既然你是零基礎,就得從頭學起了
先學習基礎知識,從基本的學起,
首先要深刻理解什麼是大數據,大數據的特點和價值等
先讀一下《大數據時代》
然後,從基本的工具開始,比如EXCEL,SPSS
可以看書《誰說菜鳥不會數據分析》全套書籍
等有了一定的基礎和能力後,再學習R語言或PYTHON
如果要做真正的大數據分析,HADOOP估計你也少不了要用的!
-
G. 聚焦大數據人才 需要哪些技能
市場觀察人士稱,大量公司目前正在尋求擁有綜合技能,可發掘大數據競爭優勢的人才。研究機構國際數據分析研究所(IIA)首席執行官Jack Phillips稱:「排名第一的企業需求是招聘到能夠通過數據的使用和分析獲得競爭優勢的人才。這一點是毫無疑問的。」那麼「大數據人才」具體是指什麼呢?這些職位都是什麼?他們需要什麼樣的技能呢?從事大數據工作的人需要什麼樣的教育背景呢?為此,美國計算機世界網站對這一新興領域內的傑出代表人物進行了專訪。相關技能曾經出任瑞銀財富管理公司商業風險與分析總監的Sandeep Sacheti稱:「現在對『大數據專業人員』還沒有一個統一的定義。」 目前Sacheti已跳槽至威科集團,並出任該集團下屬企業法律服務公司客戶洞察與營運績效副總裁。Sacheti的新職位全部是關於大數據的:利用分析法了解客戶、開發新產品、削減運營成本。在他主管的一個項目中,威科集團為律師事務所提供電子賬單服務的部門正在使用分析法挖掘從客戶那裡匯集到的數據(已取得了許可),以開發新的產品。為了處理這些大數據工作,Sacheti目前採取雙管齊下的辦法,一方面從外面招聘人才,一方面培訓內部員工。他根據四組技能對大數據職位進行了劃分:數據科學家、數據架構師、數據可視化人員和數據調整代理人。由於不同的人會使用不同的技能,因此目前這些職位還沒有一個標準的稱謂。Robert Half Technology公司高級執行董事John Reed稱,同一個職位在一家公司里可能被稱為數據分析師,但是在另一家公司里可能並不叫數據分析師。有的大數據職位的稱謂就像Sacheti給出的職位名稱那樣,職位的稱謂中既沒有「大」這個字也沒有「數據」這一詞。Phillips稱,目前已經有一些公司為了招聘到大數據人才向IIA尋求幫助。首先,他們會詢問能夠在哪裡找到這類人才。「隨後,他們會中止這些話題轉而詢問『等一下,我怎麼才能知道我正尋找什麼?』」Talent Analytics 公司首席執行官Greta Roberts稱:「每個人都會問,你是如何鑒別這些人的?你關注的是哪些技能?他們需要擁有什麼樣的學位?」Phillips 和Roberts都表示,大數據職位相關的技能主要包括數學、統計學、數據分析、商業分析和自然語言處理。盡管還沒有達成一致,但是數據科學家、數據架構師等職位已經逐步獲得了共識。責編:趙龍
H. 轉行大數據應該怎麼做
首先大數據的就業方向有:數據挖掘、數據分析&機器學習方向、大數據運維&雲計算方向、Hadoop大數據開發方向。轉行,得先選定發展方向。同時,要根據自己的自身情況和興趣愛好來選擇崗位。
其次,明白大數據要學的主要內容,首先要學習Java根底,學大數據課程之前要先學習一種核算機編程言語。Java是大數據學習需求的編程言語根底,由於大數據的開發根據常用的高檔言語。而且不論是學習hadoop,還是數據發掘,都需求有編程言語作為根底。因而,假如想學習大數據開發,把握Java根底是必不可少的。還要學習大數據中心常識Hadoop生態體系;HDFS技術;HBASE技術;Sqoop運用流程;數據倉庫東西HIVE;大數據離線剖析Spark、Python言語;數據實時剖析Storm;音訊訂閱分發體系Kafka等。假如把大數據比作容器,那麼這個容器的容量無限大,什麼都能往裡裝,大數據離不開物聯網,移動互聯網,大數據還和人工智慧、雲核算和機器學習有著千絲萬縷的聯系,大數據海量數據存儲要高擴展就離不開雲核算,大數據核算剖析採用傳統的機器學習、數據發掘技術會比較慢,需求做並行核算和分布式核算擴展。
最後,還要選擇學習方式,學習方式一般就是自學和培訓,自學一般學習時間比較長,難度比較大,對於轉行急需就業的小夥伴來講,選擇第二種方式比較好,時間消耗短,學習知識系統,對於以後就業可能有一定的幫助。
關於轉行大數據應該怎麼做,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
I. 小白想轉行做大數據,怎麼入行
大數據技術專業屬於交叉學科:以統計學、數學、計算機為三大支撐性學科;生物、醫學、環境科學、經濟學、社會學、管理學為應用拓展性學科。
此外還需學習數據採集、分析、處理軟體,學習數學建模軟體及計算機編程語言等,知識結構是二專多能復合的跨界人才(有專業知識、有數據思維)。
大數據時代則對從業人員素質的要求越來越高,因為數據處理變得越來越復雜,數據人才的競爭也越來越激烈,很多大公司都在尋找尖端人才。而且,大到國防、金融,小到跟生活息息相關的物流、購物、醫療、交通等,都日益需要大數據的支撐。大數據正在成為一門「顯學」。
對於大數據開發的學習,重在掌握基本知識以及實踐應用,合理安排基礎知識的學習,可以起到事半功倍的效果,以下是比較經典的大數據開發學習路線:
第一階段:JavaSE+MySql+Linux
Java語言入門 → OOP編程 → Java常用Api、集合 → IO/NIO → Java實用技術 → Mysql資料庫 → 階段項目實戰 → Linux基礎 → shell編程
第二階段:Hadoop與生態系統
Hadoop → MapRece → Avro → Hive → Hbase → Zookeeper → Flume → Kafka → Sqoop → Pig
第三階段:Storm與Spark及其生態圈
Storm → Scala → Spark → Spark SQL → Spark Streaming → Spark機器學習
第四階段:其他
Mahout機器學習 → R語言 → Python
第五階段:項目實戰、技術綜合運用
希望對您有所幫助!~
J. 如何開展大數據相關的人才的儲備和能力培養
一、引言
隨著計算機軟硬體技術的快速發展,計算技術已從傳統的PC平台計算模式發展到嵌入式計算、移動計算、並行計算和服務計算等多種計算系統並存及融合的計算模式,處理的對象也呈現出網路化、多媒體化、大數據化和智能化需求的特徵,而物聯網、移動互聯網的快速發展促進了這一趨勢,從而迎來了大數據時代的到來。大數據是繼雲計算、物聯網之後興起的又一新興發展方向,被學術界、工業界乃至政府機構密切關注和廣泛研究。
大數據又稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極的目的的資訊。在維克托・邁爾・舍恩伯格及肯尼斯・庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法。一般說來,大數據具有4V的特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
二、大數據時代對人才的要求
從廣義上講,大數據人才就是具備大數據處理能力的科學家和工程師。目前,國際上開設了大量的數據科學方面的課程、數據科學學位計劃以及數據科學短期培訓班。從國際上設置的培養計劃來看,大數據人才應該系統地掌握數據分析相關的技能,主要包括數學、統計學、數據分析、商業分析和自然語言處理等,具有較寬的知識面,具有獨立獲取知識的能力,具有較強的實踐能力、創新意識和團隊合作意識。具體來說,大數據人才首先應具備獲取大數據的能力,例如能根據任務的具體要求,綜合利用各種計算機手段和知識,收集整理海量數據並加以存儲,為支撐相關的決策和行為做好數據准備。其次,應具備分析大數據的能力,對於經過預處理的各類數據,能夠根據具體的需求,進行選擇、轉換、載入,採用有效方法和模型對數據進行分析,並形成分析報告,為實際問題提供決策依據。最後,應具備良好的團隊合作精神,大數據時代下的數據分析任務通常無法依賴個人能力來完成,需要在團隊制度的約束下,與他人一同攜手、互相鼓勵、分工合作來實現既定目標,因此具備較強的責任心與團隊合作精神也是大數據從業人員必備的基本條件。
三、大數據人才培養的探索
大數據產業的發展,對大數據人才提出了新的需求,國內各高校在積極進行大數據學術研究的同時,也開始考慮將大數據相關課程納入培養體系,以滿足社會對大數據人才的需求。以下結合作者在資料庫及分布式技術系列課程中的教學經驗,以及大數據分析與處理方面的實踐經驗,探討大數據系列課程教學內容和實踐形式的設置。
在教學內容的設置上,大數據系列課程建議可分為理論教學和技術教學兩個方面,因為理論是大數據認知的必經途徑,也是被廣泛認同和傳播的基線;而技術是大數據價值體現的手段和前進的基石。在理論方面,講授的理論內容可涵蓋如下幾點:
(1)大數據概念:大數據概念出現的歷史,關於大數據定義的各種流派以及說明,大數據的四個特徵,大數據與雲計算、物聯網的關系,大數據與大規模數據、海量數據的差別。這個部分主要突出「大數據」概念中應包含的「對數據對象的處理行為」。
(2)典型的大數據應用實例:精選有新意的大數據分析典型案例,可幫助學生更清晰的理解大數據的概念和含義,這樣的案例如:美國梅西百貨的實時定價機制(根據需求和庫存的情況對多達7300萬種貨品進行實時調價)、網路搜索的實時熱點排行榜(以數億網民的搜索行為作為數據基礎,建立權威的關鍵詞排行榜與分類熱點)、沃爾瑪的搜索引擎Polaris(利用語義數據進行文本分析、機器學習和同義詞挖掘使得在線購物的完成率提升了10%~15%)、谷歌流感趨勢工具(通過跟蹤搜索詞相關數據來判斷全美地區的流感情況)等。在教學過程中,教師應注意將授課的重點放在系統化的開發步驟和關鍵性問題的求解上,介紹案例的設計思想、主要方法和應用過程等。
(3)大數據關鍵技術與挑戰:介紹大數據時代面臨的新挑戰,包括大數據集成(數據異構性和數據質量問題)、大數據分析(數據形式多樣化、數據處理的實時性、索引結構的復雜性等)、大數據隱私問題(隱私保護和數據分析的矛盾)、大數據能耗問題(低功耗硬體的設計)、大數據處理與硬體的協同、大數據管理易用性問題以及性能測試基準。
(4)大數據存儲和管理技術:介紹如何把採集到的大數據存儲起來,建立相應的資料庫,並進行管理和調用。主要內容包括:分布式文件系統(HDFS)、去冗餘及高效低成本的大數據存儲技術、新型資料庫技術(鍵值資料庫、列存資料庫、圖存資料庫以及文檔資料庫等)、異構數據融合技術、分布式非關系型大數據管理與處理技術、大數據索引技術和大數據移動、備份、復制等技術。
(5)大數據分析及挖掘技術:介紹從大量數據中尋找其規律的技術,通常由數據准備、規律尋找和規律表示3個階段組成。數據准備是從上述大數據中心存儲的數據中選取所需數據並整合成用於數據挖掘的數據集;規律尋找是用某種方法將數據集所含規律找出來;規律表示則是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等。 在技術方面,可考慮分別從雲計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程,具體可包括以下幾點:
(1)NoSQL技術:NoSQL產生的背景、NoSQL現狀、NoSQL資料庫與關系資料庫的比較、聚合數據模型、分布式模型、數據一致性、典型的NoSQL資料庫分類、NoSQL資料庫開源軟體。
(2)MapRece:MapRece模型概述、編程模型:Map和Rece函數、MapRece工作流程、並行計算的實現、實例、Yarn等
(3)Hadoop分布式文件系統:Hadoop出現的背景、Hadoop的功能與作用、為什麼不用關系型資料庫管理系統、Hadoop的優點、Hadoop的應用現狀和發展趨勢、Hadoop項目及其結構、Hadoop的體系結構、Hadoop與分布式開發、Hadoop應用案例、Hadoop平台上的海量數據排序。
(4)還可進一步包括數據流的管理與挖掘、雲資料庫、圖資料庫等。
由於大數據系列課程所涉及的技術具有很強的應用背景和實踐意義,因此應摒棄傳統教學模式中「重理論、輕實踐」的思想,在掌握大數據相關的理論知識和技術知識之後,還需重點培養學生的綜合實踐能力,以滿足社會就業的需要。為此,應設立一定的大數據技術實踐課程內容,幫助學生從知識型向能力型轉變。結合上一節分析的大數據時代對人才的具體要求,建議按以下流程設置實踐環節的內容:
(1)分組。如前所述,大數據時代下的數據分析任務通常需要以團隊的形式來完成,因此首先要求學生根據自身情況,結合各自的技術優勢,合理進行分組。
(2)選題。在具體選題上,可使用校企合作的具體項目或以Apache Hadoop、MongoDB、Dremel、Gephi等一系列的開源大數據分析軟體作為實踐平台,以Kaggle為數據科學平台來進行選題。
(3)明確需求並撰寫大數據分析任務書。明確選定的題目范圍內,數據分析要研究的主要問題和預期的分析目標。只有明確了數據分析的目標,才能正確地制定數據收集方案,即收集哪些數據,採用怎樣的方式收集等,進而為數據分析做好准備。
(4)數據收集及預處理。由於大數據分析最終的結果與其獲取的數據質量緊密相關,因此收集的數據是否真正符合數據分析的目標是必須注意的重要問題。該步驟要求學生從分析目標出發,從浩瀚的數據中正確的收集高質量且服務於既定分析目標的數據,然後對數據進行必要的加工整理,包括填寫空缺值、平滑雜訊數據、識別和刪除孤立點、解決不一致性、規范化(消除冗餘屬性)和聚集(數據匯總)等。
(5)探索性數據分析。由於大數據分析的數據量通常達到PB甚至YB級以上,因此希望直接選定一個分析模型是不現實的,而且面對高維海量數據,也很難直接看出數據的規律。在這個步驟中,應指導學生通過基本描述統計量的計算、基本統計圖形的繪制、用各種形式的方程擬合等手段,計算某些特徵量等方法探索規律性的可能形式,幫助學生快速掌握數據的分布特徵,這是進一步深入分析和建模的基礎。
(6)模型選定分析。在探索性分析的基礎上提出一類或幾類可能的模型,然後通過進一步的分析從中挑選一定的模型。有時選擇幾種統計分析方法對數據進行探索性的反復分析也是極為重要的。每一種統計分析方法都有自己的特點和局限,因此,一般需要選擇幾種方法反復印證分析,僅依據一種分析方法的結果就斷然下結論是不科學的。
(7)模型的驗證及分析報告。指導學生對選擇的數據分析模型及結果進行分析,可使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。觀察模型提供決策的信息是否充分、可信,所發揮的作用是否與期望值一致,數據分析方法是否合理,是否將風險控制在可接受的范圍。
以上這種項目式實踐形式的優勢是:在學生參與完成某一具體的大數據分析任務過程中,通過主動地學習來自主地進行知識的建構,讓學生經歷項目開發的整個過程,從中去發現和掌握相關知識,達到既能熟悉大數據分析過程,又完成了經驗的積累,還能實現學習知識、培養能力的目的。在這里,教師不再是知識的傳授者,而是項目活動的組織者和咨詢者。
四、校企合作推動人才培養
一方面,大數據的核心業務必然是一種紮根於特定行業,綜合運用已有的存儲、分析、挖掘、展現技術,根據用戶需求並融入行業特色技術模型的一站式大數據平台業務。另一方面,對於企業來說,各類業務產生的數據為數據分析創造了非常好的基礎條件。大數據解決方案是有價值的,但是苦於找不到既懂數據分析技術,又懂得業務的專業人才。由此可見,既懂得相關技術,又諳熟企業業務的復合型人才才是企業部署大數據應用最迫切需要的人才。因此,企業可以與學校聯合培養自己所需要的大數據人才,這種方式有兩方面的優勢:一是大數據技能訓練的對象,即大量的數據,只有企業才具備;二是在企業的支持下,學校也能通過針對性的實踐訓練來培養學生的大數據處理技能。
大數據時代下的校企合作的形式多種多樣,可通過聯合辦學、聯合制定人才培養方案、合作開發課程和教學內容、設置實訓項目、教學管理和共建「雙師」結構教學團隊等形式展開。
五、結語
未來的十年將是一個「大數據」引領的智慧科技的時代。隨著社交網路的逐漸成熟,移動帶寬迅速提升,雲計算、物聯網應用更加豐富。更多的感測設備、移動終端接入到網路,由此產生的數據及增長速度將比歷史上的任何時期都要多,都要快。「大數據」時代的腳步悄然而至,未來幾年,中國項目數據分析專業人才需求達幾十萬人以上。國內高校應及時關注大數據時代的數據分析人才培養,融基礎理論、實驗教學、工程實踐為一體,為大數據這樣的新興產業發展輸出高層次、實用性、國際化的復合型專業人才,確保產業科學、持續、高速的發展。
