在平台方面,hadoop环境需要搭建在linux服务器上,首先需要了解Linux的基础知识与命令;
开发方面,hadoop首先是个提供大数据存储的平台,因此我们要使用其存储功能,因此需要掌握其数据操作的api(scala api 或者 java api);其次是hadoop是大数据分析的数据源,熟悉对大数据的 分析/使用 方法(spark/map-reduce技术,都有scala 和 java两种api)。
因此,学习hadoop必须掌握scala或者java中的一门开发语言,然后在学习hadoop数据操作命令,api,spark/map-reduce分析技术。
另外,还可以学习hbase这种基于hdfs的结构化大数据存储技术,和flume大数据采集技术。