lish's blog

welcome to here

标签: Scala

Spark-K均值聚类

2016-05-31

聚类
最有名的非监督学习的算法，试图找到数据中的自然数组，一群互相相似而与其他点不同的数据点往往代码某种意义的一个簇群，聚类算法就是把这些相似的数据划分到同一簇群中。
Spark-决策树

2016-05-25

回归
回归是预测一个数值型数量，比如大小，收入和温度，而分类是指预测标号(label)或类别(category)，比如邮件是否为垃圾邮件
分类和回归都需要从一组输入和输出中学习预测规则，属于监督学习

特征
类别型特征和数值型特征，类别型特征只能在几个离散值中取一个
回归问题的目标为数值型特征，分类问题的特征是类别型特征
12.5，12，0.1，晴朗，0 为特征所有特征的集合为训练集
Spark-推荐引擎

2016-05-23

推荐引擎
基于内容的过滤
利用物品的内容或是属性信息以及某些相似度定义，来求出与该物品类似的物品，这些属性通常是文本内容(标题，名称，标签，其他元数据)
Spark-wordcount

2016-05-11

Scala开发Spark
jar包下载
在spark-1.6.1-bin-hadoop2.6找到spark-assembly-1.6.1-hadoop2.6.0.jar放到Scala的环境配置中