概要

决策树(decision tree)是一种基本的分类和回归方法。其主要呈现为树状结构,在分类问题中,表示基于特征对实例进行分类的过程,可以被认为是 if-then 的规则集合,也可以被认为是定义在特征空间与类空间上的条件概率分布

其优点主要有分类速度快、模型具有可读性,在学习时利用训练数据根据损失函数最小化的原则建立决策树模型;而在预测时对新的数据利用决策树模型进行分类。

决策树模型主要包含以下步骤:

  • 特征选择
  • 决策树的生成
  • 决策树的修剪
Read more »

数据简介

该数据集最初来自糖尿病/消化/肾脏疾病研究所,此数据集的目标是基于数据集中包含的某些身体指标来诊断性的预测患者是否患有糖尿病。
数据集由多个医学指标和一个目标变量 Outcome 组成,医学指标包含患者的怀孕次数、BMI 指数、胰岛素水平、年龄、血压等。

Read more »

简介

Jupyter Notebook 是一个开源的 Web 应用程序,允许用户创建和共享包含代码、方程式、可视化和文本的文档。主要用于 数据清理和转换数值模拟统计建模数据可视化机器学习 等等。
具有以下优势:

  • 可选择语言:支持超过 40 种编程语言,包括 PythonRJuliaScala 等。
  • 分享笔记本:可以使用电子邮件、DropboxGitHubJupyter Notebook Viewer 与他人共享。
  • 交互式输出:代码可以生成丰富的交互式输出,包括 HTML、图像、视频、LaTeX 等等。
  • 大数据整合:通过 PythonRScala 编程语言使用 Apache Spark 等大数据框架工具。支持使用 pandasscikit-learnggplot2TensorFlow 来探索同一份数据。
Read more »

前要简介

  1. 首都医科大学附属北京同仁医院始建于 1886 年,是一所以眼科学、耳鼻咽喉科学为国家重点学科的大型综合三甲医院,对于眼科相关绝对是权威专业。
  2. 一般的眼镜店对于只验光不配镜的顾客有多多少少的抵触。
  3. 镜片和镜框需要单独在网上购买,接着找眼镜店帮忙组装,可以最大化保证钱花在刀刃上。
Read more »

基础

HBase 是一个在 HDFS 上开发的面向列分布式数据库,如果你需要实时访问超大规模的数据集,那么使用 HBase 就对了。

HBase 自底而上地进行构建,可以简单的通过增加节点来线性扩展。其并不是关系型数据库,并且也不支持 SQL,在特定的空间里,能够做 RDBMS 不能做的事,即在廉价的硬件构成的集群上管理超大规模的稀疏表。

Read more »

今天是 2023515 日,距离我第一次来北京工作的时间刚好跨过了整整三年,关于这个时间我也是在跟朋友的闲聊中才发现原来我已经来北京北漂三年了。

Read more »

配置列表

CPUIntel i5-12400 散片
主板:微星 MAG B660 MORTAR WIFI DDR4
内存:光威 天策系列 16G * 2 套条
固态:宏基掠夺者 GM7000 PCIe4.0 NVMe
电源:长城 650w 金牌全模
散热:九州风神 玄冰 400V5(四热管)
机箱:先马 平头哥 M2(五风扇位,侧头玻璃)
系统:Windows 10 专业版

Read more »

基础

Hive 是一个构建在 Hadoop 之上的数据仓库框架,其设计目的在于让精通 SQL 但编程技能较弱的运营人员能够对存放在 HDFS 中的大规模数据集执行查询。
但是由于其底层依赖的 HadoopHDFS 设计本身约束和局限性,限制 Hive 不支持记录级别的更新、插入或者删除操作,不过可以通过查询生成新表或将查询结果导入文件中来实现。同时由于 MapReduce 任务的启动过程需要消耗较长的时间,所以查询延时比较严重。

Read more »

复现

在之前的博客中说明过,我负责的业务有数据同步的需求,是从 MySQL 实时同步数据到 ClickHouse,为此我们使用了一个工具 clickhouse-mysql-data-reader,该工具的底层是通过监听 MySQLbin log 来实现实时同步数据。

就在今早,数据同步不知为何停止了,当发现问题重新拉起同步任务时,就发现同步脚本出现了异常:

1
Could not find first log file name in binary log index file
Read more »

引入

Spark 是用于处理大数据的集群计算框架 ,与其他大多数数据处理框架不同之处在于 Spark 没有以 MapReduce 作为执行引擎,而是使用它自己的分布式运行环境在集群上执行工作。另外 SparkHadoop 又紧密集成,Spark 可以在 YARN 上运行,并支持 Hadoop 文件格式及其存储后端(例如 HDFS)。

Spark 最突出的表现在于其能将 作业与作业之间的大规模的工作数据集存储在内存中。这种能力使得在性能上远超 MapReduce 好几个数量级,原因就在于 MapReduce 数据都是从磁盘上加载。根据 Spark 的处理模型有两类应用获益最大,分别是 迭代算法(即对一个数据集重复应用某个函数,直至满足退出条件)交互式分析(用户向数据集发出一系列专用的探索性查询)
另外 Spark 还因为其具有的 DAG 引擎更具吸引力,原因在于 DAG 引擎可以处理任意操作流水线,并为用户将其转化为单个任务。

Read more »