大数据运维
一大数据技术回顾01 谷歌三驾马车核心逻辑谷歌提出三大技术奠定大数据基础——GFS 解决海量数据存储MapReduce 解决大规模计算Bigtable 解决结构化数据存储。02 什么是HadoopHadoop 源自 Google 的三篇论文GFS、MapReduce、Bigtable由 Doug Cutting 在 Apache 项目中实现并开源。它成为大数据领域的基石开启了企业级数据处理的平民化时代。03 Hadoop生态核心逻辑围绕 Hadoop 核心衍生出数据存储HBase、Hive、数据采集Flume、Sqoop、计算引擎Spark、Flink、资源管理YARN、协调服务ZooKeeper等组件形成完整的大数据技术栈。04 Hadoop应用场景核心逻辑Hadoop 主要用于海量数据离线分析、日志处理、数据仓库 ETL以及作为机器学习平台的基础存储与计算层。二分布式大数据集群框架对于刚接触 Hadoop 的初学者来说搭建分布式集群环境往往是最让人头疼的一步。许多人花费大量时间在安装与配置上却因为各种细节问题导致环境无法成功运行。更令人沮丧的是搭建失败的概率在初学者中相当高。因此在正式开始搭建集群之前做好充分的集群规划是确保后续操作顺利进行的关键一步。1. 集群拓扑本次规划的任务是使用4 台主机搭建 Hadoop 2.0 集群。集群中节点角色包括 Master 和 Slave具体拓扑如下mastermasterbackslave1slave2其中master 和 masterback 承担主控节点角色slave1 和 slave2 作为工作节点。2. 主机规划在主机规划中我们为四台主机分配了各自的 IP 地址和角色确保高可用与职责分离IP 地址主机名角色分配172.16.206.16masterActive NameNode、ResourceManager、ZooKeeper172.16.206.26masterbackStandby NameNode、ResourceManager、ZooKeeper172.16.206.27slave1DataNode、NodeManager、ZooKeeper172.16.206.29slave2DataNode、NodeManager、ZooKeeper通过这种角色划分实现了 NameNode 的高可用Active/Standby同时也保证了资源管理与数据存储的分布式部署。3. 软件规划集群的运行依赖于多个软件组件各组件及其版本说明如下软件版本说明CentOS7Linux 操作系统JDK1.8Hadoop 基于 Java 开发基础运行环境Flume1.7.0用于非结构日志数据采集Hive2.2.0非结构化数据仓库工具Hadoop2.7.2核心分布式计算与存储框架HBase1.2.6分布式、面向列的非结构化数据库Sqoop1.4.6结构化数据与 Hadoop 之间的数据同步工具ZooKeeper3.4.6分布式应用程序协调服务MySQL5.7.12存储小规模结构化数据这些软件共同构成了一个完整的大数据处理平台涵盖数据采集、存储、计算与协调等多个环节。4. 数据目录规划合理的目录结构有助于管理和维护集群中的各类数据与应用程序。规划中涵盖了 Linux 系统标准目录与自定义数据目录例如/bin、/boot、/dev、/etc等系统目录/home下的用户目录如alice、bob、eve/usr/local、/sbin、/tmp等应用与临时目录通过清晰划分避免了文件混乱与权限冲突便于后续服务的部署与日志管理。5. Windows 主机映射为了在 Windows 环境下通过主机名访问各台虚拟机需要修改本机的 hosts 文件。操作步骤如下打开 hosts 文件路径通常为C:\Windows\System32\drivers\etc\hosts添加以下映射关系text172.16.206.16 master 172.16.206.26 masterback 172.16.206.27 slave1 172.16.206.29 slave2完成配置后即可通过主机名如master访问对应节点简化后续配置与操作。通过以上五个方面的详细规划我们为 Hadoop 集群的搭建奠定了清晰、可靠的基础。每一步规划都旨在降低搭建过程中的不确定性帮助新手更顺利地完成环境部署集中精力在后续的大数据应用与开发上。