用python实现hadoop中的map/reduce查询
摘要: 通过上一篇总结Hadoop中的集群环境配置和使用技巧的介绍,我们就假设已经拥有了一个可运行的Hadoop集群环境。以下的这篇文章主要是用python实现hadoop中的map/reduce查询。原文链接:http://slaytanic.blog.51cto.com/2057708/731750 条件,假设你已经装好了hadoop集群,配好了hdfs并可以正常运行。 $hadoopdfs-...
总结Hadoop中的集群环境配置和使用技巧
摘要: 本文主要是和大家一起探讨Hadoop的集群配置(并非在单机上)的一些细节,通过对这些细节的详细描述,希望能帮助大家轻松搭建Hadoop集群环境,为搭建高性能Web打下坚实的基础。让我们一起来看看吧,原文如下: 环境 7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的,这个切记。7台机器的机器名务必不同,后续会谈...
Hadoop如何实现自定义的Writable
Hadoop自带一系列有用的Writable实现,可以满足绝大多数用途。但有时,我们需要编写自己的自定义实现。通过自定义Writable,我们能够完全控制二进制表示和排序顺序。Writable是MapReduce数据路径的核心,所以调整二进制表示对其性能有显著影响。现有的HadoopWritable应用已得到很好的优化,但为了对付更复杂的结构,最好创建一个新的Writable类型,而不是使用已有的...
Hadoop序列化中的Writable接口概述
在Hadoop中,Writable接口定义了两个方法:一个用于将其状态写入二进制格式的DataOutput流,另一个用于从二进制格式的DataInput流读取其态。 packageorg.apache.hadoop.io; importjava.io.DataOutput; importjava.io.DataInput; importjava.io.IOException; publicint...
Hadoop如何在MapReduce中使用压缩
在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,我们统一称为“块”。)每个分片都被作为一个独立map任务的输入单独进行处理。 现在假设。该.文件是...
Hadoop中的编码器和解码器
编码器和解码器用以执行压缩解压算法。在Hadoop里,编码/解码器是通过一个压缩解码器接口实现的。因此,例如,GzipCodec封装了gzip压缩的压缩和解压算法。下表列出了Hadoop可用的编码/解码器。 压缩格式 Hadoop压缩编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec ...
分布式缓存Memcached的Java客户端优化历程
这是一篇比较老的文章了,对Memcached的JAVA客户端优化做了非常详细的总结。让我们认识到,要深入了解一样事物,必须深入去研究,而不能仅仅停留在使用的层面上。MemcachedJAVA客户端优化过程原文如下: Memcached是什么? Memcached是一种集中式Cache,支持分布式横向扩展。这里需要解释说明一下,很多开发者觉得Memcached是一种分布式缓存系统, 但是其实Memc...
浅析SOA和平台
在谈这个之前,还得再说下SOA和平台。SOA做两件事情,一个是解耦并识别可重用的服务,一个是对服务进行灵活组装和编排满足业务需求,SOA核心是业 务和技术的解耦,服务和能力的复用。而在IT领域的平台平台的概念目前基本上有三种,一种是基于快速开发目的技术平台,第二种是基于业务逻辑复用的业务平 台。第三种平台基于系统自维护,自扩展的应用平台。技术平台和业务平台都是软件开发人员使用的平台,而应用平台则是...
解依赖与接缝
接缝(seam)是MichaelC.Feathers提出的概念。Feathers在WorkingEffectivelywithLegacyCode一书中对接缝的定义如下: 接缝,顾名思义,就是指程序中的一些特殊的点,在这些点上你无需作任何修改就可以达到改动程序行为的目的。 “接缝”这个词语不太好理解,根据我的理解,大约还是依赖点的含义。通过事先找到依赖点,并采取一定方式解除依赖,就能够改善代码质...
优酷网架构学习笔记
记得以前给大家介绍过视频网站龙头老大YouTube的技术架构, 相信大家看了都会有不少的感触,互联网就是这么一个神奇的东西。今天我突然想到,优酷网在国内也算是视频网站的老大了,不知道他的架构相对于 YouTube是怎么样的,于是带着这个好奇心去网上找了优酷网架构的各方面资料,虽然谈得没有YouTube那么详细,但多少还是挖掘了一点,现在总结 一下,希望对喜欢架构的朋友有所帮助。 一、网站基本数据概...
闲谈:如何解释云计算
近来一位朋友向我请教,什么是云计算?这个问题说难不难,说简单不简单。难是因为没有统一的认同的概念。容易回答,也是因为没统一定义,可以按自己的理解说,如果真有切身实践经验或想法的话。 首先,你得看你的对象是谁。 1)如果面对的是一位中国的专家级人物,也许你可以讲一下中国云计算网的定义: “云计算是并行计算、分布式计算和网格计算的发展,或者说是这些科学概念的商业实现。” 这类定义很中国特色,...
集群架构实践 - 初试Memcached
作者:王国峰 来源:青藤园 原文链接 由于最近忙工作实习的事情,又要忙学校的毕业设计,所以很久没在博客上分享自己的技术实践成果了,真的很抱歉。今天我在整理自己毕业设计的时候,我 觉得有一样东西不得不推荐给大家,这个东西就叫Memcached。可能有些朋友已经对他非常熟悉,也可能已经用得非常溜,但我想对于像我一样的初学者来 说,这篇文章应该还是能帮助一些初学者朋友解决一些有关使用...