几款优异的开源数据发掘东西ITeye环球 - 超凡娱乐

几款优异的开源数据发掘东西ITeye环球

2018-10-10 09:47:24 | 作者: 盼菡 | 标签: 数据,开源,东西 | 浏览: 5674

R

R (https://www.r-project.org) 是用于核算剖析和图形化的核算机言语及剖析东西,为了确保功用,其中心核算模块是用C、C++和Fortran编写的。一起为了便于运用,它供给了一种脚本言语,即R言语。R言语和贝尔实验室开发的S言语相似。R支撑一系列剖析技术,包括核算查验、猜测建模、数据可视化等等。在CRAN(https://cran.r-project.org) 上能够找到许多开源的扩展包。
R软件的首选界面是命令行界面,经过编写脚原本调用剖析功用。假如缺少编程技术,也可运用图形界面,比方运用R Commander(https://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)或Rattle()。

Tanagra

Tanagra (https://eric.univ-lyon2.fr/wricco/tanagra/) 是运用图形界面的数据发掘软件,选用了相似Windows资源管理器中的树状结构来安排剖析组件。Tanagra缺少高档的可视化才能,但它的强项是核算剖析,供给了许多的有参和无参查验办法。一起它的特征选取办法也许多。

Weka

Weka (Waikato Environment for Knowledge Analysis, https://www.cs.waikato.ac.nz/ml/weka/) 可能是名望最大的开源机器学习和数据发掘软件。高档用户能够经过Java编程和命令行来调用其剖析组件。一起,Weka也为普通用户供给了图形化界面,称为Weka KnowledgeFlow Environment和Weka Explorer。和R比较,Weka在核算剖析方面较弱,但在机器学习方面要强得多。在Weka论坛 (https://weka.sourceforge.net/wiki/index.php/Related_Projects) 能够找到许多扩展包,比方文本发掘、可视化、网格核算等等。许多其它开源数据发掘软件也支撑调用Weka的剖析功用。



YALE (IDMer:现在现已更名为RapidMiner)

YALE (Yet Another Learning Environment, https://rapid-i.com) 供给了图形化界面,选用了相似Windows资源管理器中的树状结构来安排剖析组件,树上每个节点表明不同的运算符(operator)。YALE中供给了很多的运算符,包括数据处理、改换、探究、建模、评价等各个环节。YALE是用Java开发的,依据Weka来构建,也就是说它能够调用Weka中的各种剖析组件。

KNIME

KNIME (Konstanz InformationMiner, https://www.knime.org)是依据Eclipse开发环境来精心开发的数据发掘东西。无需装置,便利运用(IDMer:呵呵,咱们喜爱的绿色版)。和YALE相同,KNIME也是用Java开发的,能够扩展运用Weka中的发掘算法。和YALE不同点的是,KNIME选用的是相似数据流(data flow)的办法来树立剖析发掘流程(IDMer:这个我喜爱,和SAS EM或SPSS Clementine等商用数据发掘软件的操作办法相似)。发掘流程由一系列功用节点(node)组成,每个节点有输入/输出端口(port),用于接纳数据或模型、导出成果。(IDMer:感觉KNIME比Weka的KnowledgeFlow更好用,衔接节点时很便利,直接用鼠标拖拽衔接端口即可。而Weka中则需要在节点上按鼠标右键,再挑选后续节点,比较费事,刚开始运用时找了半天才知道怎样连)
KNIME中每个节点都带有交通信号灯,用于指示该节点的状况(未衔接、未装备、缺少输入数据时为红灯;预备履行为黄灯;履行结束后为绿灯)。在KNIME中有个特征功用——HiLite,答应用户在节点成果中符号感兴趣的记载,并进一步打开后续探究。

Orange

Orange (https://www.ailab.si/orange)是相似KNIME和Weka KnowledgeFlow的数据发掘东西,它的图形环境称为Orange画布(OrangeCanvas),用户能够在画布上放置剖析控件(widget),然后把控件衔接起来即可组成发掘流程。这儿的控件和KNIME中的节点是相似的概念。每个控件履行特定的功用,但与KNIME中的节点不同,KNIME节点的输入输出分为两种类型(模型和数据),而Orange的控件间能够传递多种不同的信号,比方learners, classifiers, evaluation results, distance matrices, dendrograms等等。Orange的控件不象KNIME的节点分得那么细,也就是说要完结相同的剖析发掘使命,在Orange里运用的控件数量能够比KNIME中的节点数少一些。Orange的长处是运用更简略一些,但缺陷是控制才能要比KNIME弱。
除了界面友爱易于运用的长处,Orange的强项在于供给了很多可视化办法,能够对数据和模型进行多种图形化展现,并能智能查找适宜的可视化方法,支撑对数据的交互式探究。
Orange的弱项在于传统核算剖析才能不强,不支撑核算查验,报表才能也有限。Orange的底层中心也是选用C++编写,一起答应用户运用Python脚本言语来进行扩打开发(拜见)。

 


GGobi
数据可视化是数据发掘的重要组成部分, GGobi ()就是用于交互式可视化的开源软件,它运用brushing的办法。GGobi能够用作R软件的插件,或许经过Perl、Python等脚本言语来调用。

定论

以上介绍的几款软件都是优异的开源数据发掘软件,各有所长,一起也各有缺陷。读者能够结合自己的需求来进行挑选,或许组合运用多个软件。关于普通用户能够选用界面友爱易于运用的软件,关于希望从事算法开发的用户则能够依据软件开发东西不同(Java、R、C++、Python等)来挑选相应的软件。以上这几款软件(除了GGobi)基本上都供给了咱们希望的大部分功用。
(IDMer:我尝试了以上这几种开源软件,Weka很有名但用起来并不便利,界面也简略了点;RapidMiner现在盛行的气势在上升,但它的操作办法和商用软件不同较大,不支撑剖析流程图的办法,当包括的运算符比较多的时分就不简单查看了;KNIME和Orange看起来都不错,Orange界面看上去很清新,但我发现它不支撑中文。我的引荐是KNIME,一起装置Weka和R扩展包。)
(IDMer:我的点评纯属个人定见,欢迎咱们批判沟通。在我的实践工作中运用开源发掘东西并不多,大部分时分都是在运用SAS Enterprise Miner。)

版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表超凡娱乐立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章

阅读排行

  • 1
  • 2

    oracle权限传递tengxun

    权限,用户,时分
  • 3
  • 4
  • 5

    主题:ORACLE函数大全sohu

    字符串,字符,函数
  • 6

    数据库备份问题huabian

    数据库,备份,数据
  • 7

    MySQL刺进数据报错处理sina

    文件,目录,数据库
  • 8

    mysql计算句子ITeye头条

    数据,汇总,季度
  • 9

    zz 彻底卸载mysqlITeyeitjob

    目录,数据库,问题
  • 10