回忆

记得第一次出去骑车还是在大二的时候,记得路线是从学校去兴平,全程 75 公里,下午四点钟多到达酒店,酒店的那个阿姨人很好,她还允许我把我的自行车带到楼梯间锁起来,短暂休息后就去了杨贵妃墓,在市区里吃了烧烤和鸡蛋醪糟,第二天早早骑车又回了学校。
现在回想起来,当时简直就是无所畏惧,一个人带着手机骑着山地车就出发了🤦‍♂️

多图警告!!!

Read more »

简介

MathJax 是一个 JavaScript 库,可以让你直接用 Latex 语法来写复杂数学公式,使用十分方便。

Read more »

基础

逻辑回归(logistic regression是统计学习中的经典分类方法,虽然被称为回归,但其实是个分类模型。其本质是假设某个数据服从逻辑分布,就可以使用极大似然法估计出其线性回归的参数,之后再使用 Sigmoid 逻辑函数对其分类。
面试的时候千万不要说你很了解 LR,因为细节真的太多了😂

Read more »

小故事

每个人小时候最讨厌的事情就是吃药了,但不幸的是有一天你得了感冒,妈妈给你买了药,你拿到药后打开了包装纸。在药包里有两种药片,一种是白色的另一种是黑色的,白色的看起来比较甜,而黑色的一看就很苦;因此你决定先吃白色的药片,那么如何一把抓住所有的药片呢?你可以找一个勺子这么把药划分出来
svm_1.jpg

那么如果药包里的药片是这样排布的呢?
svm_2.jpg

此时你心里想着终于可以祭出我的绝世神功了!哼哈…充满内力的手一拍桌子,药片就飞到了半空中,此时无影手技能发动,你就用一张纸接住了黑色的药片,哈哈哈哈哈哈…
svm_3.jpg

Read more »

概要

决策树(decision tree)是一种基本的分类和回归方法。其主要呈现为树状结构,在分类问题中,表示基于特征对实例进行分类的过程,可以被认为是 if-then 的规则集合,也可以被认为是定义在特征空间与类空间上的条件概率分布

其优点主要有分类速度快、模型具有可读性,在学习时利用训练数据根据损失函数最小化的原则建立决策树模型;而在预测时对新的数据利用决策树模型进行分类。

决策树模型主要包含以下步骤:

  • 特征选择
  • 决策树的生成
  • 决策树的修剪
Read more »

数据简介

该数据集最初来自糖尿病/消化/肾脏疾病研究所,此数据集的目标是基于数据集中包含的某些身体指标来诊断性的预测患者是否患有糖尿病。
数据集由多个医学指标和一个目标变量 Outcome 组成,医学指标包含患者的怀孕次数、BMI 指数、胰岛素水平、年龄、血压等。

Read more »

简介

Jupyter Notebook 是一个开源的 Web 应用程序,允许用户创建和共享包含代码、方程式、可视化和文本的文档。主要用于 数据清理和转换数值模拟统计建模数据可视化机器学习 等等。
具有以下优势:

  • 可选择语言:支持超过 40 种编程语言,包括 PythonRJuliaScala 等。
  • 分享笔记本:可以使用电子邮件、DropboxGitHubJupyter Notebook Viewer 与他人共享。
  • 交互式输出:代码可以生成丰富的交互式输出,包括 HTML、图像、视频、LaTeX 等等。
  • 大数据整合:通过 PythonRScala 编程语言使用 Apache Spark 等大数据框架工具。支持使用 pandasscikit-learnggplot2TensorFlow 来探索同一份数据。
Read more »

前要简介

  1. 首都医科大学附属北京同仁医院始建于 1886 年,是一所以眼科学、耳鼻咽喉科学为国家重点学科的大型综合三甲医院,对于眼科相关绝对是权威专业。
  2. 一般的眼镜店对于只验光不配镜的顾客有多多少少的抵触。
  3. 镜片和镜框需要单独在网上购买,接着找眼镜店帮忙组装,可以最大化保证钱花在刀刃上。
Read more »

基础

HBase 是一个在 HDFS 上开发的面向列分布式数据库,如果你需要实时访问超大规模的数据集,那么使用 HBase 就对了。

HBase 自底而上地进行构建,可以简单的通过增加节点来线性扩展。其并不是关系型数据库,并且也不支持 SQL,在特定的空间里,能够做 RDBMS 不能做的事,即在廉价的硬件构成的集群上管理超大规模的稀疏表。

Read more »

今天是 2023515 日,距离我第一次来北京工作的时间刚好跨过了整整三年,关于这个时间我也是在跟朋友的闲聊中才发现原来我已经来北京北漂三年了。

Read more »