HMM 关键词检索

记一下 HMM 的一些总是忘记的名词和计算过程。

2016

2016-10-03

Network Mining Based On Co-occurrence

Generate network based on co-occurrence was proposed several decades ago, however, it still occupies most of papers talking about network discovering. Here I want to give a simple introduction for network capture by conventional co-occurrence methods. The following contents are slightly related with the basis of my current work, they are out of date but still useful sometimes.

大数据/分布式系统

2016-02-27

《机器学习实战》总结

书中的很多算法解决了此前的一些疑惑，让我一些拙劣的思维方式得到了一些提升，也让许多问题成为可能。从数据中挖掘重要特征是一件很有意义的事，这个过程让我更能理解数学的重要性。

大数据/分布式系统

2016-02-27

机器学习笔记（Chapter 15 - MapReduce框架）

MapReduce是一个分布式计算框架，可以将单个计算作业分配给多台计算机执行。

大数据/分布式系统

2016-02-26

机器学习笔记（Chapter 14 - SVD简化）

从数据中提取一些关键信息可以使用奇异值分解（Singular Value Decomposition，SVD），可以简化数据，去除噪声，将数据映射到低维空间。

大数据/分布式系统

2016-02-25

机器学习笔记（Chapter 13 - PCA简化）

在低维下，数据更容易进行处理，其相关特征可能在数据中明确显示出来。PCA是降维技术中最广泛的一种。

大数据/分布式系统

2016-02-24

机器学习笔记（Chapter 12 - FP-growth算法）

FP-growth算法基于Apriori构建，先将数据集存储在FP树内，再发现频繁项集，速度通常快于Apriori两个数量级以上。FP-growth只需要对数据库扫描两次，而Apriori需要对每个潜在的频繁项集扫描一次数据集。Apriori算法拓展性更好，可以用于并行计算。

大数据/分布式系统

2016-02-22

机器学习笔记（Chapter 11 - Apriori算法）

商店通过会员卡等忠诚度计划，可以获取顾客所购买商品的组合信息，从而更好地安排商品定价、市场促销等。从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。Apriori算法可以解决计算代价极高的物品组合问题，从而在合理的时间范围内找到频繁项集和关联规则。

大数据/分布式系统

2016-02-21

机器学习笔记（Chapter 10 - K-均值聚类算法）

聚类是一种无监督学习，将相似的对象归到同一个簇中，类似全自动分类，即类别体系也是自动构建的。聚类方法几乎可以应用于所有对性，簇内的对象越相似，聚类效果越好。K-均值聚类算法可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值构成。聚类与分类的区别在于，分类的目标事先已知，而聚类未知。

大数据/分布式系统

2016-02-20

机器学习笔记（Chapter 09 - 树回归）

第8章的线性回归创建的模型需要拟合所有的样本点（除了局部加权线性回归）。当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法就比较困难，并且生活中很多问题是非线性的，无法用全局线性模型来拟合所有数据。一种方法是将数据集递归地切分成很多份易建模的数据，并对可以拟合的小数据集用线性回归建模。

标签：: 机器学习