深入浅出Hadoop之Mapreduce

发布时间：2020-01-24 04:24:16 所属栏目：资源来源：博客园

导读：之前已经作出预告，那么今天就聊聊mapreduce，起源于 Google 的map reduce paper, 而后经历了mapreduce 1，和构建于yarn上的mapreduce 2，mapreduce1 除了提供一定的历史演变价值和了解一下mapreduce最初的设计之外就没有必要学了哈，毕竟现在意义上的mapr

　　之前已经作出预告，那么今天就聊聊mapreduce，起源于Google的map reduce paper, 而后经历了mapreduce 1，和构建于yarn上的mapreduce 2，mapreduce1 除了提供一定的历史演变价值和了解一下mapreduce最初的设计之外就没有必要学了哈，毕竟现在意义上的mapreduce2,spark都是在yarn上。当然mapreduce这项技术本身可能现在也是逐年衰落，不是我说的，是michael stonebraker3年前就说了(stonebraker认为程序员只需要了解sql就行了，nosql啥的都应该直接或间接支持用sql来查询交互)，而且google自己也早就不用了，不过mapreduce还是有自身一定的学习价值，比如map, combiner, shuffle/sort, practiioner, reducer，消息传递, data locality(即把运算移动到数据旁，而不是传输数据来节省网络带宽提高运算效率)都是分布式系统运算框架的一个里程碑。很多分布式系统设计课程比如MIT研究生著名的分布式系统设计的前几章必然要讲mapreduce。　　分布式系统前言　　分布式系统由于包括很多node，所以它的根基是unreliable component包括node，network和clock，上层的设计必然需要考虑到这一点。Unreliable node有如下三种表现形式：　　· fail-stop, 比如电力供应中断了（比如data center停电了，或者地震了发水灾了啥的），fail了就完了，无法恢复。　　· fail-recovery，比如node升级kernel，os，software，需要重启　　· 拜占庭 failure，这个比较狠，就是这个node看似正常，但是你说城门楼子它说胯骨轴子，你说往东，它往西走。相当于一个神经错乱的node或者说是被入侵了的node。　　同时分布式系统涉及大量的网络传输，不管是RPC还是RESTFUL都是走网络，网络也是unreliable的，有如下三种表现形式：　　· 完美传输，即%0 loss, 100% in order，俗称happy home，这个资源成本比较高，适用于特别重要的服务　　· fair-loss，这个最为常见，就是正常丢包，不已传输内容为转移。TCP/IP就是为了解决这个事儿而设计了3 way handshake，retry，sliding window，congestion control啥的　　· 拜占庭 failure，这个就基本相当于被man in the middle 了，anything is possible，good luck ：）思考题：SSL/TLS 能有效解决man in the middle吗？　　还没完，分布式系统还有一个问题就是clock，一方面每台机器的时间都可能不一样，俗称clock skew，另一方面，每台机器对每一秒的感知也不一样，俗称clock drift。所以伟大的lamport（2013图灵奖得主，分布式大神，latex，vector clock，paxos，etc）发明了logical clock，其中最著名的是vector clock。相当于让每个event有了自己的先后顺序。这个可以单独聊一次它的具体原理。插一句嘴，我觉得分布式系统这么多年敢称大神的只有两个，理论大师lamport和实战天王Jeff Dean（Jeff Dean当年在MIT淡定的给我们介绍谷歌分布式系统设计经验，然后说自己一个周末现学maching learning，搞出了个猫图片识别，当时我就在想他学machine learning干啥，然后tensor flow这个项目就横空出世了。。。orz）　　还有就是分布式系统实现分为synchronous和asynchronous两种model，synchronous就是blocking callback with optional timeout，asynchronous就是event call back with optional timeout。　　下面我们把以上几种情形组合一下：　　· fail-stop + 完美传输 + synchronous，比如超级计算机每个processor由local high speed bus相连，user case是OpenMP 和 MPI　　· fail-recovery + fair-loss + asynchronous，就是我们最近一直聊的hadoop eco system了　　· 拜占庭 node + 拜占庭网络+asynchronous，这就是分布于untrusted computer和untrusted network之中的grid computing了　　map　　先看一下python的map function，接下来会聊hadoop streaming 深入浅出Hadoop之Mapreduce

　　reduce　　先看一下python的reduce function 深入浅出Hadoop之Mapreduce

　　data flow 深入浅出Hadoop之Mapreduce

　　map 和 reduce的input／output都是key／value pair。注意map或者reduce不一定都需要，比如grep，map=grep，reduce=None　　在sort和shuffling阶段，sorting用的是external sorting，所以不用担心内存爆了。　　实现深入浅出Hadoop之Mapreduce

　　上图中，intermidiate result是存放在local disk中而不是HDFS，因为就算丢了，也可以通过map重新得到，所以不用使用HDFS做multiple copy。深入浅出Hadoop之Mapreduce

　　上图可以看出yarn分为resource manager和node manager，resource manager会launch application master，application master会请求resource根据resource富余程度launch application process。

（编辑：拼字网 - 核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!