從事大數據需要學入門知識、Java 基礎、 Scala 基礎、Hadoop 技術模塊 、Hadoop 項目實戰 、Spark 技術模塊、大數據項目實戰,因為大數據不是某個專業或一門編程語言,實際上它是一系列技術的組合運用。
入門知識主要(yao)針(zhen)對的(de)(de)是新手,在學習(xi)之(zhi)前(qian)需要(yao)先掌握(wo)基(ji)本(ben)的(de)(de)數據庫知識。Java 語言具有功(gong)能強(qiang)大和簡單易(yi)用兩個特(te)征,跨(kua)平臺應用能力比(bi) C、C++ 更易(yi)用,更容易(yi)上(shang)手。同時(shi)還具有簡單性(xing)、面向對象、分布(bu)式、健壯性(xing)、安全性(xing)、平臺獨立(li)與可移植(zhi)性(xing)、多線程(cheng)、動態(tai)性(xing)等特(te)點(dian)。要(yao)的(de)(de)一點(dian)是 Hadoop 是用 Java 編寫的(de)(de)。
Scala 是一種多范式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。由于 Scala 運行于 Java 平臺(Java 虛擬機),并兼容現有的Java 程序,所以 Scala 可以和大數據相關的基于 JVM 的系統很好的集成。
Hadoop能搭建大型數據倉庫,PB 級別數據的存儲、處理、分析、統計等業務。學完理論就要進行動手實戰了,Hadoop 項目實戰可以幫助加深對內容的理解,并鍛煉動手能力。Spark 和 Hadoop 都是大數據框架。Hadoop 提供了 Spark 所沒有的功能特性,比如分布式文件系統,而 Spark 為需要它的那些數據集提供了實時內存處理。所以學習 Spark 也非常必要。
當然企業級的(de)實戰項目也是(shi)(shi)很重要的(de),這是(shi)(shi)對常(chang)用(yong)(yong)技(ji)能的(de)系統(tong)運(yun)用(yong)(yong),例如使用(yong)(yong)常(chang)用(yong)(yong)的(de)機器(qi)學習進行建模、分析和運(yun)算,可以幫我積累到一定的(de)經(jing)驗(yan)。