oange(Not Origin)在Anaconda浏览器中安装GUI版本,或者在Python中安装(pip install Orange3)。origin比orange早个三四年。
下面的例子是Orange3 GUI版本中的。
Iris鸢尾花数据集,三种花,每朵花有四个属性,即每个数据为一个四维向量
https://orangedatamining.com/widget-catalog/
File and Data Table
File Widget:读取文件
Data Table Widget:显示表格
Widget左边为输入,右边为输出,两个Widget连线(channel)为前一个Widget将数据流向下一个Widget
增加一个Data Table Widget
双击channel可以选择
Selected Data与Data连线:会在Data Table (1) 中显示Data Table中选择数据
Data与Data连续:会在Data Table (1) 中显示Data Table中所有数据
Interactive Visualizations交互可视化
增加一个Box Plot Widget
双击Scatter Plot,点击拖拉选择数据,则在Data Table 与 Box Plot中可显示注:
箭头与注释在左下角
Visualization of Data Subsets子集可视化
在Data Table中点击拖拉选择数据(Ctrl键),在Scatter Plot会标记出选择的数据
Classification Tree分类树
Classification Tree将数据分类,并在Viewer中显示。
在Viewer中单击选择数据,在Scatter Plot会标记出选择的数据,在Box Plot会显示
注:决策树包括回归树、分类树、CART(分类与回归树)
Principal Component Analysis主成分分析
将文件更换为Iris数据集
双击PCA widget选择主成分分量的个数
利用PCA,可将四种属性进行降低,比如降成三种属性。降低并不是删掉一种属性即可,而是进行空间变换。
如20朵花的数据为20X4的矩阵,将其降为20X3的矩阵,并不是删去一列,而是找一个4X3矩阵相乘得到20X3的矩阵。
注:pca经常用于数据降维
Hierarchical Clustering层次聚类
计算每个数据间的距离,利用距离来分类
dendrogram树状图
distance map距离图
注:分类与聚类
分类:通过带标签的训练数据训练出分类器,不带标签的新数据通过分类器后被分类
聚类:对不带标签的数据进行分类
Feature Ranking特征排序
Impute widget将数据中的缺失值补全
Rank widget将特征进行排名
Cross-Validation交叉验证
Test&Score进行交叉验证
数据在三种分类器中通过交叉验证进行学习
Confusion Matrix混淆矩阵或误差矩阵,来评估结果
Where are Misclassification?查看分类错误
在混淆矩阵中点击分错的数据,可以在Scatter Plot中显示出来