深圳大数据培训
达内深圳宝安中心

136-3244-2201

热门课程

如今大数据面临哪些挑战?

  • 时间:2017-09-22
  • 发布:深圳大数据培训
  • 来源:达内新闻

如今大数据面临哪些挑战?

跟着近年来大数据高潮的不断升温,人们认识到“大数据”并非是指“大范围的数据”,加倍代表了其本色寄义:思想 商业和管理范畴前所未有的大变革。

在这次变革中,大数据的呈现,对产业界 学术界和教育界都正在发生宏大影响。跟着迷信家们对大数据研讨的不断深刻,人们愈来愈认识到对数据的应用能够为其生发生涯带来宏大方便的同时,也带来了不小的挑战。

(一)大数据的安全与隐患问题

跟着大数据的成长,数据的起源和应用范畴愈来愈普遍:在互联网上随便阅读网页,就会留下一连串的阅读陈迹;在收会合登录相干网站需要输出小我的紧张信息,例如用户名暗码 身份证号 手机号 住址 银行卡暗码等;随处可见的摄像头和传感器会记载下小我的行动和地位信息,等等。

经由过程相干的数据分析,数据专家就能够随意马虎挖掘出人们的行动习气和小我紧张信息。假如这些信息应用适合,能够赞助相干范畴的企业随时懂得客户的需要和习气,便于企业调剂响应的产物临盆筹划,获得更大的经济效益;

但假如这些紧张的信息被不良份子盗取,随之而来的便是小我信息 产业等的安全性问题。

为了办理大数据期间的数据隐患问题,学术界和工业界纷繁提出本身的办理方法。Lindell等提出了掩护隐患的数据挖掘(Privacy PreservingData Mining)观点;

Sweeney针对地位办事的安全性问题,提出了一种k-匿名方法,行将本身与四周的(k-1)个用户组分解一个数据聚集,从而隐约了本身的地位观点;

差分隐患(Differential Privacy)掩护技巧能够是办理大数据隐患问题的无力兵器,Dwork在2006年提出了一种新的差分隐患方法,Roy即是2010年提出了一种隐患掩护系统Airavat,将会合信息流节制和差分隐患掩护技巧融入云盘算的数据天生与盘算阶段,避免MapReduce盘算进程中的数据隐患泄漏。

另外,大数据期间数据的更新变更速率加速,而一样平常的数据隐患掩护技巧多数基于动态数据掩护,这就给隐患掩护带来了新的挑战。在繁杂变更的条件下若何完成数据隐患安全的掩护,这将是将来大数据研讨的重点偏向之一。

(二)大数据的集成与管理问题

纵观大数据的成长过程,大数据的起源与应用愈来愈普遍,为了把分布于分歧的数据管理系统的数据网络起来同一收拾,就有需要停止数据的集成与管理。

固然对数据的集成和管理已经有了许多的方法,然则传统的数据存储方法已经不克不及满意大数据期间数据的处理需要,这就面对着新的挑战。

1)数据存储。在大数据期间,大数据的特性之一便是数据范例的多样性。数据范例由传统的布局化数据渐渐转变为半布局化 非布局化数据。

另外,数据的起源也渐渐多样化,传统的数据多数来自于少部分军事企业或是研讨所的电脑终端;如今,跟着互联网和移动设备在环球的普及,平板电脑 手机 GPS等发生的数据呈“井喷”状况,是以,数据的存储就显得格外紧张。

由前文可看出,传统的数据存储方式已经不足以满意如今的数据存储需要,为了应对愈来愈多的海量数据和日渐繁杂的数据布局,许多公司都着手研发适用于大数据期间的分布式文件系统和分布式并行数据库,如HDFS BigTable等。在数据存储进程中,数据格局的转换是需要的,而且是非常关键和繁杂的,这就对数据存储系统提出了更高的请求。

2)数据洗濯。大数据期间数据的特性“Value”,是大数据低代价密度的体现。也便是说,大数据量并不意味着大信息量,许多时刻它意味着冗余数据的增多 渣滓代价的众多,是以,对数据停止挑选 清算是非常需要的,不然过多的滋扰信息一方面会盘踞大批的存储空间,形成存储资本的挥霍,另一方面这些渣滓数据会对真正有用的信息形成滋扰,影响数据分析成果。

大数据期间的数据洗濯进程必需加倍细致和业余,即在数据洗濯进程中,既不克不及洗濯地细致,因为这会增长数据洗濯的繁杂度,乃至有能够会把有用的信息过滤掉;也不克不及洗濯的不细致,因为要包管数据挑选的效果。

(三)大数据的IT技巧架构问题

大数据因其奇特的特性对数据分析处理系统提出了极高的请求,无论是存储 传输还是盘算,在大数据分析技巧平台上,将会是一个技巧的激烈交锋。因为现有的大数据平台技巧难以满意大数据的处理需要,以是IT架构的革命性重构势在必行。

美国的6个部分配合启动的大数据研讨筹划中,绝大部分的研讨项目都是针对大数据带来的技巧挑战,重要应对大数据分析算法和系统的效力问题。

大数据分析技巧。

目前来看,海量数据中跨越85%的数据都是半布局化和非布局化的数据,传统的关系型数据库已经无奈处理。依据CAP实践(Consistency,Availability,Partitions tolerance),一致性 可用性和容错性弗成兼得,是以,关系型数据库没有良好的可扩大性。

以MapReduce和Hadoop为代表的非关系型数据库的非关系型分析技巧因其具备良好的横向扩大(Scale-out)才能而在大数据分析范畴获得了普遍应用,现已成为大数据处理的支流技巧。

只管如许,MapReduce和Hadoop在机能方面仍然不克不及尽善尽美,还需依据现实应用环境不断更新研发更高效 更实用的大数据分析技巧。

数据交融。大数据期间数据的数目和品质都达到了一个前所未有的状况,然则若没有一个很好的技巧将这些“人心涣散”的数据充足整合,就无奈最大化地施展大数据的代价,是以,大数据处理技巧面对的一个紧张问题便是若何将小我 企业和当局的各类信息数据加以交融。

因为这些数据的格局根本都不一致,这就给数据交融带来了相称大的艰苦。为了办理这个问题,须研讨推行不与平台绑定的数据格局,用如许一种同一的数据格局,将人类社会 物理天下和网络空间接洽起来,构建同一的信息系统。

大数据能耗问题。大数据的处理 存储和通讯都是要耗费相称大的动力,在动力价钱下跌敏捷的本日,因为数据的存储范围不断扩大,高能耗已经渐渐成为制约大数据疾速成长的瓶颈之一。

然则因为大数据的成长也是方才起步,能耗问题也未能获得充足的看重。

《纽约时报》已经做过一年的查询拜访,颁发了一篇名为“Power,Pollution and the Internet”的文章,文章表现,Google大数据平台的耗电量每一年3 000kW阁下,但是只要6%~12%的电能被用来支持大数据的分析处理 对客户的需要停止响应等系统运转,绝大部分电能只是用来支持许多闲置状况的办事器,是以,为了削减不用要的动力耗费,起首能够应用低功耗的硬件资本,好比闪存 PCM等,这些新型存储硬件的功耗绝对传统磁盘等硬件要低许多;

另外,跟着天下动力的耗费量愈来愈大,“第三次工业革命”海潮也敏捷囊括环球,能够斟酌引入新型可再生动力,好比传统的电能能够用太阳能 风能 生化能等发生,避免应用传统的弗成再生动力如煤炭 煤油等,既勤俭了动力又削减了环境污染。

(四)大数据的生态环境跟着近年来大数据高潮的不断升温,人们认识到“大数据”并非是指“大范围的数据”,加倍代表了其本色寄义:

思想 商业和管理范畴前所未有的大变革。在这次变革中,大数据的呈现,对产业界 学术界和教育界都正在发生宏大影响。跟着迷信家们对大数据研讨的不断深刻,人们愈来愈认识到对数据的应用能够为其生发生涯带来宏大方便的同时,也带来了不小的挑战。

想知道更多关于IT行业的信息吗?想远远不如行动,行动起来,一起加入达内,一起进入IT行业,跟着达内的脚步,一起走进如今的互联网信息时代,带给你不一样的色彩生活——【深圳大数据培训

深圳达内

上一篇:大数据发展中的应用有哪些?
下一篇:大数据和如何产生出来的?

深圳大数据培训:12个沟通技巧受用一辈子!

深圳大数据培训:危险的大数据

深圳大数据培训:大数据最懂你的心

深圳大数据培训:大数据“谋杀”了惊喜

选择城市和中心
贵州省

广西省

海南省