oange(Not Origin)在Anaconda浏览器中安装GUI版本,或者在Python中安装(pip install Orange3)。origin比orange早个三四年。
下面的例子是Orange3 GUI版本中的。

Iris鸢尾花数据集,三种花,每朵花有四个属性,即每个数据为一个四维向量

https://orangedatamining.com/widget-catalog/

File and Data Table

ORIGIN软件中有必要用python origin与python_ORIGIN软件中有必要用python


File Widget:读取文件

Data Table Widget:显示表格

Widget左边为输入,右边为输出,两个Widget连线(channel)为前一个Widget将数据流向下一个Widget


增加一个Data Table Widget

ORIGIN软件中有必要用python origin与python_交叉验证_02


双击channel可以选择

ORIGIN软件中有必要用python origin与python_Data_03


Selected Data与Data连线:会在Data Table (1) 中显示Data Table中选择数据

Data与Data连续:会在Data Table (1) 中显示Data Table中所有数据

Interactive Visualizations交互可视化

ORIGIN软件中有必要用python origin与python_Data_04

增加一个Box Plot Widget

ORIGIN软件中有必要用python origin与python_交叉验证_05


双击Scatter Plot,点击拖拉选择数据,则在Data Table 与 Box Plot中可显示注:

箭头与注释在左下角

ORIGIN软件中有必要用python origin与python_Data_06

Visualization of Data Subsets子集可视化

ORIGIN软件中有必要用python origin与python_ORIGIN软件中有必要用python_07


ORIGIN软件中有必要用python origin与python_Data_08


在Data Table中点击拖拉选择数据(Ctrl键),在Scatter Plot会标记出选择的数据

ORIGIN软件中有必要用python origin与python_Data_09

Classification Tree分类树

ORIGIN软件中有必要用python origin与python_Data_10


Classification Tree将数据分类,并在Viewer中显示。

在Viewer中单击选择数据,在Scatter Plot会标记出选择的数据,在Box Plot会显示

注:决策树包括回归树、分类树、CART(分类与回归树)

Principal Component Analysis主成分分析

ORIGIN软件中有必要用python origin与python_ORIGIN软件中有必要用python_11

将文件更换为Iris数据集
双击PCA widget选择主成分分量的个数

利用PCA,可将四种属性进行降低,比如降成三种属性。降低并不是删掉一种属性即可,而是进行空间变换。
如20朵花的数据为20X4的矩阵,将其降为20X3的矩阵,并不是删去一列,而是找一个4X3矩阵相乘得到20X3的矩阵。

注:pca经常用于数据降维

Hierarchical Clustering层次聚类

ORIGIN软件中有必要用python origin与python_数据_12

计算每个数据间的距离,利用距离来分类

dendrogram树状图
distance map距离图

注:分类与聚类
分类:通过带标签的训练数据训练出分类器,不带标签的新数据通过分类器后被分类
聚类:对不带标签的数据进行分类

Feature Ranking特征排序

ORIGIN软件中有必要用python origin与python_Data_13

Impute widget将数据中的缺失值补全
Rank widget将特征进行排名

Cross-Validation交叉验证

ORIGIN软件中有必要用python origin与python_Data_14

 

Test&Score进行交叉验证
数据在三种分类器中通过交叉验证进行学习
Confusion Matrix混淆矩阵或误差矩阵,来评估结果

Where are Misclassification?查看分类错误

ORIGIN软件中有必要用python origin与python_交叉验证_15

在混淆矩阵中点击分错的数据,可以在Scatter Plot中显示出来