大数据项目技术选型.docx

上传人:lao****ou 文档编号:16161 上传时间:2022-10-01 格式:DOCX 页数:16 大小:44.31KB
下载 相关 举报
大数据项目技术选型.docx_第1页
第1页 / 共16页
大数据项目技术选型.docx_第2页
第2页 / 共16页
大数据项目技术选型.docx_第3页
第3页 / 共16页
大数据项目技术选型.docx_第4页
第4页 / 共16页
大数据项目技术选型.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据项目技术选型.docx》由会员分享,可在线阅读,更多相关《大数据项目技术选型.docx(16页珍藏版)》请在第一文库网上搜索。

1、目录构造一、主流架构选用技术二、Hadoop版本选型方案三、选用的技术与其他工具的比照四、大数据相关的技术选型版本确定五、市场上的hadoop发行版厂商资料六、具体操作一、主流架构选用技术:采集层:flume;sqoop存储层:包括文件存储层和数据存储层文件:采用hdfs存储数据:采用hbase,redis等模型层:离线处理:mr/yarn;实时流式处理sparkstreaming(比storm的优势)分析层:hive管理层:zookeeper调度;ha二、Hadoop版本选型方案:Hadoop提供的经典方案:HDPHadoopDataPlatform管理一体化数据接入FlumeScriptS

2、QLNosqlStreamSearchIrrMemoryOthersSqoopPigHiveHbaseStormSolrSparkYARN-ReadyAppsNFSWebHDFSFalconYARNHDFS数据管理三、选用的技术与其他工具的比照:选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高选用Flume的好处:纯Java开发,框架清楚,易于开发,可以直接写hdfs且支持对和sequence压缩选用Spark的好处:基于存,适合需要屡次迭代计算的算法,在迭代处理计算方面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题

3、平安操作认证,授权,审计,数据保护准备,管理,监控Storage:HDFSAmbariResource:YARNZookeeperAccess:HiveOoziePipeline:FalconCluster:Kno*Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化四、大数据相关的技术选型版本确定:操作系统:Cent0S6*各个技术版本:最新,最稳定,bug少Hadoop版本:此版本是一个相对最新且比拟稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume版本

4、:Kafka版本:Spark版本:此版本能支持以上的版本且相对稳定版Sqoop版本:Hive版本:Hbase版本:Mahout版本:五、市场上的hadoop发行版厂商资料:除了社区的ApacheHadoop夕卜,Cloudera,Hortonworks,MapR,EMC版本:IBM,Intel,华为等都提供了自己的商业版本。版本容特点网址,doudera/documentation/archive/cdh/4-*/4-7-1/CDH4-Installation-Guide/cdh4ig_topic_ll_4htmlHortonworksHDP包括HDFS、YARN、HBase、MapReduc

5、exHive、Pig、hortonworks./MapRIlCatalog、Zookeeper、Oozie、MahoutxHue、Ambari、Tez和Hive的实时版(Stinger)以及其他开源工具。包括HDFS、HBase.MapReduce、Hive、MahoutsOozie、Pig、ZooKeeper、Hue和其他开源工具。还包括直接NFS访问、快照和用于“高可用性的镜像有的HBase实现(与ApacheAPI完全兼容),以及MapR管理控制台。1.构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无NameNode单点故障(SPOF),并且在AP

6、I上和开源版兼容,所以可以考虑将其作为替代方案。不再需s:/Zmapr/要单独的NameNode机器,元数据分散在集群中,也类似数据默认存储三份。2也不再需要用网络附加存储(NAS)来协助NameNode做元数据备份,提高了机器使用率。a还有个重要的特点是可以使用nfs直接访问hdfs,提供了与旧有应用的兼容性。镜像功能也很适合4每年每个节点4000美元。5.在性能方面具备优势。.emc./zh-/inde%htm/zfromGlobalSelector.ibm./us-en/在平台管理,平安认证,作业调度算法,与DB2及netezza的集成上做了增强。兼容性好,同时运行多种Hadoop版本的

7、程序,IBM的效劳。IntelHadoop主要是强调其能提供全面的软硬件解决方案设计,针对硬件具有更好的性能优化,以及提供集群管理工具和安装工具简化了Hadoop的安装和配置,能够提供工程规划到实施各阶段专业的咨询效劳,实际中采购Intel版本貌似动力缺乏。性能好,最先进入中国市场。FunsionlnsightHadoop,huawei/HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对Hadoop的小修补,远不如MapR解决的彻底。当为公司/部门选取特定发行版时,需要考虑如下因素:技术细节一一应该包括Hadoop版本、包含的组件、涉及所有权的功能组件

8、等。易于部署一一应该有可用的工具包来管理部署、版本更新、补丁等。易于维护一一涉及集群管理、多中心支持、灾难恢复支持等。本钱一一包括实现*个特定版本所需要的费用、计费模式和许可证。企业应用集成支持一一包括对Hadoop应用与企业的其他应用进展集成的支持。选用Cloudera的方案:Cloudem:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并奉献了可实时处理大数据的Impala工程。优点:L基于Apache协议,100%开源。2版本管理清晰。比方Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.L0patchl

9、evel923142,表示在原生态根底上添加了1065个patch。3比ApacheHadoop在兼容性、平安性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。4版本更新快。通常情况,比方CDH每个季度会有一个update,每一年会有一个release。5基于稳定版本ApacheHadoop,并应用了最新Bug修复或Feature的patch6提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时部署好集群。7.运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。缺点:L涉及

10、到厂商锁定的问题。可以通过技术解决六、具体操作:Hadoop2.6HA搭建至少四台机器:hadoopl,hadoop2,hadoop3,hadoop4NM任务管理HadooplYHadoop2YYYYHadoop3YYYHadoop4YYYLcore-site*mlfsdefaultFShdfs:/zhjyhazookeeperquorumhadoop1:2181,hadoop2:2181,hadoop3:2181hadoop.tmp.dir/opt/hadoop2hdfs-site*mlconfigurationdfsnameserviceszhjydfshanamenodeszhjynnl

11、,nn2dfsnamenoderpc-addresszhjy;nnlhadoop1:8020dfsnamenoderpc-addresszhjy;nn2hadoop2:8020dfsnamenode-addresszhjynnlhadoop1:50070namedfsnamenode-addresszhjynn2hadoop2:50070dfsnamenodeisharededitsdiK/nameqjournal:/hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjydfsclientfeiloverpro*yproviderzhjyorgapache,hadoop.hdfsserver,namenodehaConfigiiredFailoverPro*yProviderdfshafencingmethodssshfencedfshafencingsshprivate-ke厂files/name/root/ssh/id_dsadfsjournalnodeeditsdir/name/opt/hadoop/data

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 技术资料 > 技术总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服