博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
MIT做了一个全自动的大数据分析系统
阅读量:6793 次
发布时间:2019-06-26

本文共 1062 字,大约阅读时间需要 3 分钟。

大数据

信息爆炸引爆了大数据时代的到来,前一两年大数据到达了炒作的高峰,而马云则称今后 30年 属于数据技术(DT)。但是最近一段时间大数据似乎没有那么大的动静了,这固然有技术炒作周期曲线的规律作用,也跟大数据遭遇到的一些瓶颈有关。

这个最大的瓶颈之一便是人。隐藏在大数据里面的模式挖掘很长程度上需要依靠人的建模和直觉,但是数据科学家的数量却跟不上大数据的规模发展。不过 MIT 正在为打破这个瓶颈而努力,其研发的一款名为 Data Science Machine(数据科学机器)的软件实现了无人参与下的大数据分析,经过对比发现,其表现已经与数据分析师不分高下。

Data Science Machine 由 MIT CSAIL 的 Max Kanter 和他的指导老师 Kalyan Veeramachaneni 等人设计。其关键突破是它不仅会寻找模式,还会自己设计特征集。学机器学习的人都知道特征工程的重要性。特征工程是指利用数据的领域知识来创建特征以便让机器学习算法可以工作的过程,这个过程往往需要人的直觉。而 Data Science Machine 却利用了关系数据库的不同表间的结构化关系作为线索来进行特征构造,从中生成一批候选的特征集,然后再通过分析值的相关性来缩小特征集的范围,从而免去了人的参与。然后,Data Science Machine 还会把这个特征集运用到样本数据上,再用不同的方式重新组合特征来优化预测的准确率。

为了测试这套系统的第一款原型,研究人员让它参与了三项数据科学方面的竞赛,竞赛的目标是在不常见的数据集中寻找出预测性的模式。三场竞赛供有 906 支队伍参加,Data Science Machine 的成绩比其中的 615 支队伍都要高。

在准确率方面,Data Science Machine 在其中两场竞赛的准确率分别达到了 94%和 96%。另外一场的准确率略低,为 87%。但是效率方面却是人类不能比的,因为 Data Science Machine 得出结果用时在 2-12 小时之间,而人类团队的预测性算法往往要折腾数月的时间。

目前 Data Science Machine 已能对哪些学生有可能退出 MIT 的在线课程做出分析,它选出的两个特征分析学生开始写作业时间的早晚,以及在网上学习课程的时间长短。尽管这种能力看起来还不够强大,但是这只是开始,一旦机器具备真正的自我学习能力,在计算能力指数增长的作用下,其进化速度将是我们难以想象的。

本文作者:佚名

来源:51CTO

转载地址:http://gplgo.baihongyu.com/

你可能感兴趣的文章
The First Blog
查看>>
个人站长盈利的下一个出路:域名交易市场
查看>>
webSphere
查看>>
使用Intellj Idea打开选中文件/文件夹
查看>>
MyElicpse整合Tomcat
查看>>
gitlab搭建与基本使用
查看>>
Mybatis 错误Should be: #{propName,attr1=val1,attr2
查看>>
Gluster管理命令的总结与归纳
查看>>
13款网站在线性能测试工具
查看>>
ubuntu 安装 Mongodb
查看>>
MySQL常用命令
查看>>
Ext Scheduler Web资源甘特图控件
查看>>
Ontology与OO的结合在应用软件开发应用中的可行性前景很大
查看>>
服务器日志
查看>>
08-26作业
查看>>
用bootchart分析Linux开机过程,关掉影响开机速度的程序
查看>>
VMware安装CentOS 6.7系统
查看>>
我的友情链接
查看>>
linux内核的编译与安装
查看>>
FusionCharts free(图形报表)中文开发指南
查看>>