Skip to main content.

公告

搜索

最新评论

归档历史:2011年12月的文章档案

用python实现hadoop中的map/reduce查询

Posted by 架构点滴 @ 2011-12-22 23:19:26 阅读(298) 评论(0)

摘要: 通过上一篇总结Hadoop中的集群环境配置和使用技巧的介绍,我们就假设已经拥有了一个可运行的Hadoop集群环境。以下的这篇文章主要是用python实现hadoop中的map/reduce查询。原文链接:http://slaytanic.blog.51cto.com/2057708/731750 条件,假设你已经装好了hadoop集群,配好了hdfs并可以正常运行。 $hadoopdfs-...

总结Hadoop中的集群环境配置和使用技巧

Posted by 架构点滴 @ 2011-12-15 12:57:06 阅读(249) 评论(0)

摘要: 本文主要是和大家一起探讨Hadoop的集群配置(并非在单机上)的一些细节,通过对这些细节的详细描述,希望能帮助大家轻松搭建Hadoop集群环境,为搭建高性能Web打下坚实的基础。让我们一起来看看吧,原文如下: 环境 7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的,这个切记。7台机器的机器名务必不同,后续会谈...

Hadoop如何实现自定义的Writable

Posted by 架构点滴 @ 2011-12-14 10:05:12 阅读(622) 评论(0)

Hadoop自带一系列有用的Writable实现,可以满足绝大多数用途。但有时,我们需要编写自己的自定义实现。通过自定义Writable,我们能够完全控制二进制表示和排序顺序。Writable是MapReduce数据路径的核心,所以调整二进制表示对其性能有显著影响。现有的HadoopWritable应用已得到很好的优化,但为了对付更复杂的结构,最好创建一个新的Writable类型,而不是使用已有的...

Hadoop序列化中的Writable接口概述

Posted by 架构点滴 @ 2011-12-12 9:58:47 阅读(564) 评论(0)

在Hadoop中,Writable接口定义了两个方法:一个用于将其状态写入二进制格式的DataOutput流,另一个用于从二进制格式的DataInput流读取其态。 packageorg.apache.hadoop.io; importjava.io.DataOutput; importjava.io.DataInput; importjava.io.IOException; publicint...

Hadoop如何在MapReduce中使用压缩

Posted by 架构点滴 @ 2011-12-10 11:38:18 阅读(740) 评论(0)

在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,我们统一称为“块”。)每个分片都被作为一个独立map任务的输入单独进行处理。 现在假设。该.文件是...

Hadoop中的编码器和解码器

Posted by 架构点滴 @ 2011-12-10 1:17:27 阅读(419) 评论(0)

编码器和解码器用以执行压缩解压算法。在Hadoop里,编码/解码器是通过一个压缩解码器接口实现的。因此,例如,GzipCodec封装了gzip压缩的压缩和解压算法。下表列出了Hadoop可用的编码/解码器。  压缩格式  Hadoop压缩编码/解码器  DEFLATE  org.apache.hadoop.io.compress.DefaultCodec ...

上一页1下一页