个人简介

导读


这里是谷震平个人的博客文章,描述了关于大数据技术的一些实践结果和理论知识。包括,集群搭建、大数据工具学习、运维、学术资料整理。请记住这里:http://guzhenping.com

笔者作为一名数据仓库工程师,经历过两个数据仓库系统,一大一小。大的让笔者学到了很多,小的是笔者自己从0到1攒的。

前端开发学习笔记(一)

前言

在做一个叫计算平台的项目,主要是将机器学习、深度学习和大数据结合在一起,对标该领域中,阿里的计算平台、第四范式的先知平台等知名项目。目前,我们实现了基于Spark的可视化ETL功能,还有很多事情要做。

在这个项目中,用到了Vue.js的技术栈。为了加快项目进度,笔者还是在全沾的道路上越走越远,所以特地记录一路上的问题。

Redash开发指南

一 Redash介绍

Redash是一款融合多数据源的可视化查询工具,用于Ad-hoc查询再好不过。除了官方支持的数据源,还可以通过复用代码开发支持Kylin、Clickhouse、TiDB、Palo、Druid等。

写给刚刚接触Redash的同学看,大佬请绕路哈。

Kylin应用篇

简介

Kylin是一款处理海量数据,提供SQL和多维度分析的OLAP工具。Kylin用于处理hadoop/spark场景下大量数据的预聚合,用户可自定义数据模型用于解决超过100亿+条记录的查询。

大数据开发学习(Clickhouse)

前言

1年前,用过Greenplum,这是第一次接触MPP结构的OLAP系统。今天市面上常见的MPP架构工具,还有Clickhouse和Palo等。(当然,SQL on Hadoop体系的Presto和Impala也算是MPP结构,只是数据存储方面没有自己的东西,都是依赖hdfs,mysql等。)

工作需要,对Clickhouse进行学习。

Redash权限管理

前言

Reash是一个数据查询平台,必定会涉及权限管理。主要由3个概念:组(group),用户(user), 数据源(data source)。

group在最上层,一个group对应多个user 和 data source。反之也可行,但不利于权限的管理。

权限功能主要基于组(group)和所属数据源(data source)来控制。一个用户(user)必须属于一个或多个组,当新用户进入时,该用户默认在“default组”。在新增一个数据源时,该数据源默认归属于”default组”。

Python学习(迭代器&生成器)

前言

一直对Python的生成器、yield相关的东西比较晕。也终于到了这一天,算算总账,一口气理解这些东西。

这篇文章的背景是对yield/生成器/协程知识的总结,用于自我提升。请静下心来读,走马观花就不会有自己的思考。

懂分享的人,一定会快乐。笔者的内心期待着大家一起进步。所以,一起来分享自己的理解,留下你的评论吧。

HA成功升级的总结

前言

从升级到现在,一共过了1个半月,到昨天(20170511)总算踏实了。踩的那些坑,真的教会了笔者咋做人。升了,笔者并不后悔。当然脸被打了这么多下,也高兴不起来。

升级过程的所有问题,发生在当事人无法注意到、无法理解的地方。然而,只要时间充足,精力充沛,严谨严格,肯定能克服。

必须申明:本文是基于个体实际经验所写,难免片面,可能不具备参考价值。其次,本文是对一个已经存在数年有大数量的集群所做的一些升级,情况较为特殊。

Hadoop学习指南(HA配置)

前言

本篇介绍Hadoop的一些常用知识。要说和网上其他manual的区别,那就是这是笔者写的一套成体系的文档,不是随心所欲而作。

HA模式,主要是将namenode及resourcemanager都变成主备两个。这里先不讨论resourcemanager,主要针对namenode。

将namenode变成可主备自动切换的,主要是通过zookeeper集群对namenode的健康状态进行监控,然后选举一个健康的namenode做active(主)的,另一个成为standby(备)。因此,保证zookeeper集群的配置是正确且不易挂掉,是HA的基石。同时,注意HA升级过程中的相关进程的启动步骤即可完成。

集群搭建指南(上卷)

前言

阅读本文,需要具备Linux、计算机网络的基础知识。所以在文中出现的相关基础知识,均以链接的形式给出,务必理解该链接的内容后,继续阅读本指南。

集群搭建的环境多种多样,本文采用VitualBox安装5台虚拟机构建集群。具体环境:

  • CentOS 6.5 64位
  • VirtualBox 5.1.10 Mac版
  • 本机macOS Sierra 10.12.1 i7 8G内存

集群搭建指南(下卷)

前言

本文的搭建基于上卷的配置,环境不再一一赘述。网络配置好的5台节点均可相互ping通,对于节点hadoop1(192.168.20.2)可以ping同其余四台hadoop2(192.168.20.3)、hadoop3(192.168.20.4)、hadoop4(192.168.20.5)、hadoop5(192.168.20.6)。其余节点同理。

本文继续进行集群的搭建—-SSH配置。禁止root账户进行ssh登陆,只允许指定用户进行ssh登陆。

集群搭建指南(下卷)

前言

什么是Hadoop?

Apache Hadoop is a framework for running applications on large cluster built of commodity hardware. The Hadoop framework transparently provides applications both reliability and data motion. Hadoop implements a computational paradigm named Map/Reduce, where the application is divided into many small fragments of work, each of which may be executed or re-executed on any node in the cluster. In addition, it provides a distributed file system (HDFS) that stores data on the compute nodes, providing very high aggregate bandwidth across the cluster. Both MapReduce and the Hadoop Distributed File System are designed so that node failures are automatically handled by the framework.

本文是用于搭建hadoop集群的学习性文章,主要对hadoop的一些基础知识进行解释,中间穿插着hadoop的安装配置过程。

环境问题:

  • 系统:Centos 6.5 64位 minamal版本
  • hadoop版本:2.7.1
  • java版本:1.8

可能不具备通用性,仅供参考。