Java数据挖掘包(JDMP)是一个开源的Java程序库,用于数据分析和机器学习。它能够促进对数据源和机器学习算法(如,聚类、回归、分类、图形模式和优化)的访问,并且提供了可视化模块。它包含一个用于存储和处理任何类型的数据矩阵库,能够处理非常大的矩阵,甚至当这些矩阵无法写入内存时它仍然能够处理。JDMP不仅提供了许多算法和工具,并且提供了与其他机器学习和数据挖掘包(Weka, LibSVM, Mallet, Lucene, Octave)之间的接口。
JDMP主要的优点在于一致的数据表示。对于Linux来说,一切事物均是文件,而对于JDMP来说,一切事物均是矩阵!例如,可以将几个矩阵组合成一个变量,如,一个时间序列。可以一个一个地访问这些矩阵,也可以作为一个单个的大型矩阵来进行访问。可以将几个变量组合成一个样本,如,在分类中有输入值和目标值的样本。许多样本可以形成一个数据集,在交叉验证测试中可以将数据集进行存储或分裂操作。可以一个样本一个样本地来访问数据集,也可以用以一个大型矩阵作为输入值且以一个大型矩阵作为目标值的样本来访问数据集。
算法可以操纵变量,样本或数据集,例如:进行预处理或分类任务。需要强调的是,在JDMP中,数据处理方法是与数据源分离的,因此,算法和数据可能位于不同的计算机上,并且并行处理变成了可能。然而,分布式计算尚未完全落实,只存在于一个概念证明型版本中。