引入
今天工作的时候写了这么一段代码:
1 |
|
Hadoop
是一个分布式计算开源框架,其提供一个分布式文件系统子项目(HDFS
)和支持 MapReduce
分布式计算的软件架构。
在有了大量数据之后,那么该如何进行存储和分析这些数据呢?Hadoop
需要解决的问题如下:
replication
);系统保存数据的副本(replica
),一旦硬件系统出现故障,就立即使用另外保存的副本。MapReduce
提出了一个编程模型,该模型抽象出这些硬盘读/写问题并将其作为对一个数据集(由键值对组成)的计算。