Skip to main content.

公告

搜索

最新评论

用python实现hadoop中的map/reduce查询

Posted by 架构点滴 @ 2011/12/22 23:19:26 阅读(145) 评论(0)

摘要: 通过上一篇总结Hadoop中的集群环境配置和使用技巧的介绍,我们就假设已经拥有了一个可运行的Hadoop集群环境。以下的这篇文章主要是用python实现hadoop中的map/reduce查询。原文链接:http://slaytanic.blog.51cto.com/2057708/731750 条件,假设你已经装好了hadoop集群,配好了hdfs并可以正常运行。 $hadoopdfs-...

总结Hadoop中的集群环境配置和使用技巧

Posted by 架构点滴 @ 2011/12/15 12:57:06 阅读(121) 评论(0)

摘要: 本文主要是和大家一起探讨Hadoop的集群配置(并非在单机上)的一些细节,通过对这些细节的详细描述,希望能帮助大家轻松搭建Hadoop集群环境,为搭建高性能Web打下坚实的基础。让我们一起来看看吧,原文如下: 环境 7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的,这个切记。7台机器的机器名务必不同,后续会谈...

Hadoop如何实现自定义的Writable

Posted by 架构点滴 @ 2011/12/14 10:05:12 阅读(253) 评论(0)

Hadoop自带一系列有用的Writable实现,可以满足绝大多数用途。但有时,我们需要编写自己的自定义实现。通过自定义Writable,我们能够完全控制二进制表示和排序顺序。Writable是MapReduce数据路径的核心,所以调整二进制表示对其性能有显著影响。现有的HadoopWritable应用已得到很好的优化,但为了对付更复杂的结构,最好创建一个新的Writable类型,而不是使用已有的...

Hadoop序列化中的Writable接口概述

Posted by 架构点滴 @ 2011/12/12 9:58:47 阅读(256) 评论(0)

在Hadoop中,Writable接口定义了两个方法:一个用于将其状态写入二进制格式的DataOutput流,另一个用于从二进制格式的DataInput流读取其态。 packageorg.apache.hadoop.io; importjava.io.DataOutput; importjava.io.DataInput; importjava.io.IOException; publicint...

Hadoop如何在MapReduce中使用压缩

Posted by 架构点滴 @ 2011/12/10 11:38:18 阅读(362) 评论(0)

在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,我们统一称为“块”。)每个分片都被作为一个独立map任务的输入单独进行处理。 现在假设。该.文件是...

Hadoop中的编码器和解码器

Posted by 架构点滴 @ 2011/12/10 1:17:27 阅读(230) 评论(0)

编码器和解码器用以执行压缩解压算法。在Hadoop里,编码/解码器是通过一个压缩解码器接口实现的。因此,例如,GzipCodec封装了gzip压缩的压缩和解压算法。下表列出了Hadoop可用的编码/解码器。  压缩格式  Hadoop压缩编码/解码器  DEFLATE  org.apache.hadoop.io.compress.DefaultCodec ...

分布式缓存Memcached的Java客户端优化历程

Posted by 架构点滴 @ 2011/11/30 9:10:33 阅读(203) 评论(0)

这是一篇比较老的文章了,对Memcached的JAVA客户端优化做了非常详细的总结。让我们认识到,要深入了解一样事物,必须深入去研究,而不能仅仅停留在使用的层面上。MemcachedJAVA客户端优化过程原文如下: Memcached是什么? Memcached是一种集中式Cache,支持分布式横向扩展。这里需要解释说明一下,很多开发者觉得Memcached是一种分布式缓存系统, 但是其实Memc...

浅析SOA和平台

Posted by 架构点滴 @ 2011/11/27 10:35:47 阅读(126) 评论(0)

在谈这个之前,还得再说下SOA和平台。SOA做两件事情,一个是解耦并识别可重用的服务,一个是对服务进行灵活组装和编排满足业务需求,SOA核心是业 务和技术的解耦,服务和能力的复用。而在IT领域的平台平台的概念目前基本上有三种,一种是基于快速开发目的技术平台,第二种是基于业务逻辑复用的业务平 台。第三种平台基于系统自维护,自扩展的应用平台。技术平台和业务平台都是软件开发人员使用的平台,而应用平台则是...

解依赖与接缝

Posted by 架构点滴 @ 2011/11/27 10:11:30 阅读(95) 评论(0)

接缝(seam)是MichaelC.Feathers提出的概念。Feathers在WorkingEffectivelywithLegacyCode一书中对接缝的定义如下: 接缝,顾名思义,就是指程序中的一些特殊的点,在这些点上你无需作任何修改就可以达到改动程序行为的目的。 “接缝”这个词语不太好理解,根据我的理解,大约还是依赖点的含义。通过事先找到依赖点,并采取一定方式解除依赖,就能够改善代码质...

优酷网架构学习笔记

Posted by 架构点滴 @ 2011/11/26 11:14:55 阅读(167) 评论(0)

记得以前给大家介绍过视频网站龙头老大YouTube的技术架构, 相信大家看了都会有不少的感触,互联网就是这么一个神奇的东西。今天我突然想到,优酷网在国内也算是视频网站的老大了,不知道他的架构相对于 YouTube是怎么样的,于是带着这个好奇心去网上找了优酷网架构的各方面资料,虽然谈得没有YouTube那么详细,但多少还是挖掘了一点,现在总结 一下,希望对喜欢架构的朋友有所帮助。 一、网站基本数据概...

闲谈:如何解释云计算

Posted by 架构点滴 @ 2011/11/26 10:51:43 阅读(148) 评论(0)

近来一位朋友向我请教,什么是云计算?这个问题说难不难,说简单不简单。难是因为没有统一的认同的概念。容易回答,也是因为没统一定义,可以按自己的理解说,如果真有切身实践经验或想法的话。 首先,你得看你的对象是谁。 1)如果面对的是一位中国的专家级人物,也许你可以讲一下中国云计算网的定义: “云计算是并行计算、分布式计算和网格计算的发展,或者说是这些科学概念的商业实现。” 这类定义很中国特色,...

集群架构实践 - 初试Memcached

Posted by 架构点滴 @ 2011/11/25 23:19:47 阅读(179) 评论(0)

作者:王国峰 来源:青藤园 原文链接 由于最近忙工作实习的事情,又要忙学校的毕业设计,所以很久没在博客上分享自己的技术实践成果了,真的很抱歉。今天我在整理自己毕业设计的时候,我 觉得有一样东西不得不推荐给大家,这个东西就叫Memcached。可能有些朋友已经对他非常熟悉,也可能已经用得非常溜,但我想对于像我一样的初学者来 说,这篇文章应该还是能帮助一些初学者朋友解决一些有关使用...

上一页1下一页