大数据测试之hadoop单机环境搭建(超级详细版) 置顶

点击链接加入QQ群:https://jq.qq.com/?_wv=1027&k=5C08ATe友情提示:本文超级长,请备好瓜子 Hadoop的运行模式 单机模式是Hadoop的默认模式,在该模式下无需任何守护进程,所有程序都在单个JVM上运行,该模式主要用于开发和调试mapreduce的应用逻辑; 伪分布式模式下,Hadoop守护进程运行在一台机器上,模拟一个小规模的集群。该模式在单机模式...
  2018/02/09   大管家   2023

Hadoop大数据实战系列文章之HBase

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。 本章内容: 1) Hbase 简介 2) Hbase 数据模型 3) Hbase 基础原理 4) Hbase 系统架构 5) Hbase 基础操作 1. Hbase 简介 HBase 是 Apache Hadoo...
2020/11/11   testingbang   173

Hadoop大数据实战系列文章之Zookeeper

Zookeeper 是一种分布式的,开源的,应用于分布式应用的协作服务。它提供了一些简单的操作,使得分布式应用可以基于这些接口实现诸如同步、配置维护和分集群或者命名的服务。Zookeeper 很容易编程接入,它使用了一个和文件树结构相似的数据模型。可以使用 Java 或者 C 来进行编程接入。 众所周知,分布式的系统协作服务很难有让人满意的产品。这些协作服务产品很容易陷入一些诸如竞争选择条件或...
2020/11/10   testingbang   144

Hadoop大数据实战系列文章之Mapreduce 计算框架

如果将Hadoop比做一头大象,那么MapReduce就是那头大象的电脑。MapReduce是 Hadoop 核心编程模型。在 Hadoop 中,数据处理核心就是 MapReduce 程序设计模型。 本章内容: 1) MapReduce 编程模型 2) MapReduce 执行流程 3) MapReduce 数据本地化 4) MapReduce 工作原理 5) MapReduce 错误处理机制 ...
2020/11/10   testingbang   149

Hadoop大数据实战系列文章之安装Hadoop

点击链接加入群138269539(全国招聘信息、免费公开课、视频应有尽有):https://jq.qq.com/?_wv=1027&k=5q0IklJ 更多内容可以关注公众号:测试帮日记 成果展示:http://www.xqtesting.com/blog/offer-31.html 由于实践部分主要以 Hadoop 1.0 环境为主,所以这主要介绍如何搭建 Hadoop 1.0 分布...
2020/11/06   testingbang   160

Hadoop大数据实战系列文章之HDFS文件系统

点击链接加入群138269539(全国招聘信息、免费公开课、视频应有尽有):https://jq.qq.com/?_wv=1027&k=5q0IklJ 更多内容可以关注公众号:测试帮日记 成果展示:http://www.xqtesting.com/blog/offer-31.html Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统,专门 存储超大数据...
2020/11/06   testingbang   157

Hadoop大数据实战系列文章之Hadoop介绍

Hadoop 是一个由 Apache 基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括 HDFS,MapReduce 基本组件。 1 Hadoop 版本 衍化 历史 由于Hadoop版本混...
2020/11/03   testingbang   150

什么是大数据血缘?

点击链接加入QQ群229390571(全国招聘信息、免费公开课、视频应有尽有):https://jq.qq.com/?_wv=1027&k=5rbudQa 更多内容可以关注公众号:测试帮日记 今天跟一个测试同事聊天: 我:最近忙什么项目呢? 他:在测大数据血缘 我:啥? 他:血缘啊 我:啥血缘? 他:大数据血缘啊 我:血缘是啥? 他:就是数据血缘啊 我:... 看看,天就是这么被聊...
2019/07/25   小静-测试帮日记   777

基于python的大数据分析-数据处理(代码实战)

点击链接加入QQ群229390571(免费公开课、视频应有尽有):https://jq.qq.com/?_wv=1027&k=5rbudQa 接着上篇继续。数据获取之后并不能直接分析或使用,因为里面有很多无效的垃圾数据,所以必须要经过处理才可以。数据处理的主要内容包括数据清洗、数据抽取、数据交换和数据计算等。 数据清洗 数据清洗是数据价值链中最关键的一步。垃圾数据即使是通过...
2019/06/19   测试帮日记   690

基于python的大数据分析-pandas数据存储(代码实战)

点击链接加入QQ群229390571(免费公开课、视频应有尽有):https://jq.qq.com/?_wv=1027&k=5rbudQa 上篇我们学习了pandas的数据读取,这次我们来看看如何进行数据的存入,代码撸起来~ csv文件 格式:to_csv(文件路径, sep='', index=TRUE, header=TRUE) index默认是true,带行序号 heade...
2019/06/15   测试帮日记   711

基于python的大数据分析-pandas数据读取(代码实战)

点击链接加入QQ群229390571(免费公开课、视频应有尽有):https://jq.qq.com/?_wv=1027&k=5rbudQa 我们常见的数据存储格式无非就是csv、excel、txt以及数据库等形式。 数据读取 在pandas中可以使用一些函数完成数据的读取。比如read_csv、read_excel、read_table、read_sql等,这些分别是啥意思呢...
2019/06/12   测试帮日记   725
1/3