目前从事大数据应用开发工作的人员工资已经远超普通技术开发者,初级月薪在2万左右,高级年薪已经达到50万。Hadoop对累积了海量数据资产的企业来说意义非凡。Hadoop可以在商业服务器集群上分布数据和执行并行处理,还能侦测和处理对于分布式处理至关重要的故障。
*阶段:Hadoop应用技术浅析
课程目标:
1.掌握Linux操作系统的基本命令和简单维护
2.深入理解Hadoop架构
3.掌握Hadoop HDFS的设计原理
4.掌握Hadoop HDFS常用操作命令
5.掌握Hadoop MapReduce的设计原理
6.熟悉Hadoop MapReduce程序开发基本流程
7.掌握Hadoop 1.x与hadoop2.x的主要区别
8.独立实施Hadoop集群以及对集群进行监控
9.了解Zookeeper基本原理以及实施Zookeeper集群
10.了解Hbase基本原理以及实施Hbase集群
11.了解Hadoop调优的基本思路和方法
课程内容:
1.Linux系统安装和配置
2.Linux系统进程和用户管理
3.Linux文件和目录创建和配置
4.Linux RPM和YUM配置管理
5.Linux网络管理
6.Hadoop生态系统总体概览
7.Hadoop分布式文件系统DHFS详解
8.Hadoop MapReduce详解
9.Hadoop单机、伪分布式和分布式部署
10.Hadoop Namenode HA详解及部署
11.Hadoop日常维护管理
12.Zookeeper原理及分布式部署
13.Hbase原理及分布式部署
14.Hadoop与RDBMS数据库进行数据转换
15.Hadoop调优
第二阶段:Nutch应用技术详解
课程目标:
1.了解Nutch的基本工作流程
2.能够在Hadoop分布式环境中安装、配置、运行、调试、优化Nutch搜索引擎
3.使用Java编程语言开发对Nutch插件进行定制化开发
4.使用Nutch内置脚本对运行状态及结果进行分析
5.使用Linux Shell开发定制脚本
6.使用Nutch发送Solr索引数据
7.使用Java语言为搜索引擎开发网页快照功能
8.通过Nutch了解Hadoop map/reduce
9.通过Nutch了解大数据在HDFS的应用
课程内容:
1.Nutch的基本工作流程
2.Nutch的安装与配置
3.Nutch的单机、伪分布式和分布式部署
4.Nutch的常用命令
5.Nutch的参数设置及调优
6.Nutch与Solr的对接
7.Nutch的第三方插件安装与配置
8.Nutch在Eclipse中的部署与调试
第三阶段:Solr企业级搜索应用技术
课程目标:
1.了解Solr的基本工作流程
2.熟练使用Solr界面功能主要包括词语分析,模板配置,查询及数据导入
3.Solr创建核心服务容器并新增删除数据
4.使用查询及过滤器获取Solr里的数据
5.使用Solr对查询结果实现关键词高亮显示
6.Solr添加中文分词插件,实现中文语义分析
7.了解Solr Cloud基本原理以及实施Solr Cloud集群
8.Solr Cloud新增删除及分布式数据查询
SolrJ查询分析器的使用
9.掌握Solr服务性能境问题分析及提升方法
课程内容:
1.Solr的基本工作流程
2.Solr的安装与配置
3.Solr的单机、伪分布式和分布式部署
4.Solr的界面使用及应用配置
5.Solr的中文分词mmseg4j使用
6.Solr的查询分析器使用
7.Solr的高级应用--关键字高亮显示、内容过滤、结果去重及排序
8.Solr的用户搜索界面设计