引入

Spark 是用于处理大数据的集群计算框架 ,与其他大多数数据处理框架不同之处在于 Spark 没有以 MapReduce 作为执行引擎,而是使用它自己的分布式运行环境在集群上执行工作。另外 SparkHadoop 又紧密集成,Spark 可以在 YARN 上运行,并支持 Hadoop 文件格式及其存储后端(例如 HDFS)。

Spark 最突出的表现在于其能将 作业与作业之间的大规模的工作数据集存储在内存中。这种能力使得在性能上远超 MapReduce 好几个数量级,原因就在于 MapReduce 数据都是从磁盘上加载。根据 Spark 的处理模型有两类应用获益最大,分别是 迭代算法(即对一个数据集重复应用某个函数,直至满足退出条件)交互式分析(用户向数据集发出一系列专用的探索性查询)
另外 Spark 还因为其具有的 DAG 引擎更具吸引力,原因在于 DAG 引擎可以处理任意操作流水线,并为用户将其转化为单个任务。

Read more »

复现

工作时需要拉一下测试环境的数据到开发环境,所以就是 mysqldump 老哥出场了…

1
2
3
# mysqldump -h localhost -u root -p --tables test_table --where="str='str1'" > test_table_data.sql
Enter password:
Warning: A partial dump from a server that has GTIDs will by default include the GTIDs of all transactions, even those that changed suppressed parts of the database. If you don't want to restore GTIDs, pass --set-gtid-purged=OFF. To make a complete dump, pass --all-databases --triggers --routines --events.
Read more »

基础

MapReduce 是一种用于数据处理的编程模型,其本质是并行运行,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心,当然其优势也是处理大规模数据集

MapReduce 任务过程分为两个处理阶段: map 阶段reduce 阶段。每个阶段都是以键值对作为输入和输出,其类型由开发者决定,当然 map 函数和 reduce 函数也是由开发者实现。

Read more »

HDFS

当数据集的大小超过一台计算机的存储上限时,就有必要对数据进行分区然后存储到其他的计算机上。管理网络中跨多台计算机存储的文件系统被称为分布式文件系统(distributed filesystem,该架构于网络之上,势必会引起网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。
Hadoop 自带一个称为 HDFS 的分布式文件系统,也是 Hadoop 的旗舰级文件系统,即 Hadoop Distributed Filesystem

Read more »

简介

Hadoop 是一个分布式计算开源框架,其提供一个分布式文件系统子项目(HDFS)和支持 MapReduce 分布式计算的软件架构。

在有了大量数据之后,那么该如何进行存储和分析这些数据呢?Hadoop 需要解决的问题如下:

  • 硬件故障问题。一旦使用磁盘存储数据,就会遇到磁盘故障;但是为了避免数据丢失,最常见的做法就是复制(replication);系统保存数据的副本(replica),一旦硬件系统出现故障,就立即使用另外保存的副本
  • 以某种方式结合大部分数据来共同完成分析。各种分布式系统允许不同来源的数据进行分析,但其数据的正确性是无法保证的。因此 MapReduce 提出了一个编程模型,该模型抽象出这些硬盘读/写问题并将其作为对一个数据集(由键值对组成)的计算。
Read more »

概述

风控模型是风控系统的核心,应用模型进行风险决策是识别风险的主要途径,也是控制风险的重要方法。

Read more »

概述

特征挖掘是从原始数据构造特征的过程。
特征是数据和模型之间的纽带,数据和特征决定机器学习的上限,而模型和算法只是无限逼近这个上限。
特征挖掘的完整流程包含原始数据分析数据清洗中间数据集构建特征设计和生成特征评估特征的上线、监控、维护和下线

Read more »

概述

风控策略是指根据不同业务场景和客群,通过一系列规则策略与模型策略的组合,对客户的风险进行判断,从而实现准入反欺诈授信风险定价催收等阶段目标,最终达成风险控制的目的。

Read more »

简介

本文将对 ClickHouse 管理与运维相关的知识进行说明,主要包含用户权限熔断机制数据备份服务监控等知识。

Read more »