小白学习大数据测试之hadoop再次探索 - 大数据测试

引子

虽然通过《小白学习大数据测试之hadoop初探》以及把hadoop的基本核心说明白了，但是似乎对于小白来说还是会有点懵逼。。。。那么这次我们就在来看看

大数据粗暴理解

大数据甭管什么，简单粗暴的理解为大！大！大！对，你没看错，不管什么都是大就对了，哈哈哈哈

大数据应用的功能抽象出来基本就是：数据采集、数据存储、数据处理（过滤、拆分、聚合）、数据分析、数据应用。说白了就是对从各处采集的数据经过一系列的处理后给出分析，然后应用到不同的场景里或者提供数据报表等。

hadoop架构演变

此处不多说，很明显是做了拆分，集群的资源管理由yarn完成，ta运行在hdfs之上，而MapReduce则运行在yarn之上（后续在搭建环境的时候需要进行对应配置文件的修改）

大数据测试的难点

需要学习大数据的相关知识和技术（其实我内心是拒绝的。。。好麻烦），比如：hadoop、hbase（分布式开源数据库）、hive（数据仓库）、kafka（分布式发布订阅消息系统）、spark（大数据处理引擎）、yarn、solr（企业级搜索应用）、zookeeper（分布式应用程序协调服务）、sqoop、flume（分布式日志处理系统）等等。。。。。（别问我这是什么，我只想静静啊~）
需要熟悉大数据处理的逻辑（其实就是上面说的那个过程）
需要熟练掌握代码，嗯，你没看错，是必须的，不管是python还是java你必须会。因为这里100%会用到自动化测试的技术，不会代码何谈自动化？
测试思维的变化。传统测试中很多bug是可以通过固定的步骤重现的，但大数据测试里很多bug很难重现的，所以必须要调整自己的思维，提前切入测试并利用多技术手段尽可能的发现bug