教育培训 > 什么是大数据?要简单通俗点的解释?

什么是大数据?要简单通俗点的解释?

2020-08-05 22:18阅读(77)

什么是大数据?要简单通俗点的解释?:什么是大数据及应用?大数据即为海量数据。人类生活在三维空间中,一草一木,一山一水,人类活动的行为轨迹,都能用数据来表

1

什么是大数据及应用?大数据即为海量数据。人类生活在三维空间中,一草一木,一山一水,人类活动的行为轨迹,都能用数据来表达。如企业的生产运营,商品标准。政府的管理决策,消费者的消费水平,消费习惯。地理环境的一条公路,一条河流等等。每方面都有每方面的大数据。每个行业都有每个行业的大数据。通过各企业,行业,社会主体等等数据的集成。形成了概念更大,更有价值的大数据流。通过宇宙万物是互联的原理。以及逻辑关系的分析。能够得到。关于社会治理,企业运营,个人服务的便捷可靠,真实的服务方案。一件事物的组成并非由单一因素组成。由多方组合或者协同完成的。一件衣服的完成,要有生产布料的厂家,制衣厂家,制扣厂家,制线厂家,设计方,工人加工等等环节组合而成。大数据也是如此。大数据应用也是如此。人类刚刚迈入数字经济时代。既为以数据为生产资料的时代。谁能掌握大数据以及大数据的应用?更好地服务于人类社会。谁就占据了未来财富以及地位的制高点。中国战略性新兴产业联盟河北唐冠众兴科技有限公司毕绍鹏回答

2
大数据,不仅仅是数据量大,同时在其他方面,也有一定的特点。

第一,大数据数据体量非常大,传统的单机存储系统,已经无法在存储这么大量的数据,此时需要用到分布式存储技术。

第二,大数据的数据种类非常多,数据的格式也会变得复杂,比如数据种类有视频、文档、图片、消息记录等等。

第三,大数据中潜藏着非常重要的价值,通过数据分析技术,对商业决策做出智能化以及数据化的支持。

大数据最主要的功能,就是为公司上层提供商业化决策支持,让公司能够结合历史数据,往正确的方向发展。大数据技术主要分为两类:大数据计算和大数据存储。

大数据计算主要分为离线计算和实时计算,具体使用要看业务场景对于数据产出时延的要求

离线计算对于数据的产出会有一定的时延,具体时延可以是15分钟、小时或者天级别的。离线任务一般会对数据进行全局批计算,这一次运行完就运行完了,不会像实时计算那样,除非你自己停止实时任务,否则实时程序会一直运行。

实时计算数据是不断产生的,一般数据产出的延迟会很低,最多是秒级别的。比如我们的数据大屏、实时数据流的加工处理等,这些场景对于数据的产出的时延要求很低。

离线计算的话,一般对于数据的产出时延没有那么高的要求,只要数据最终产出即可,具体使用像现在很多公司离线业务报表。目前大多数公司离线计算引擎使用的是Hive或者Spark,实时计算引擎目前主要是Flink。

大数据存储需要数据分布式存储,单机不能够在存储这么多巨量数据

在传统的关系型数据库中,当一个表非常大时,会使用分库分表技术,将表分布式的存储在不同的机器上面。分库分表技术可以使用开源工具TDDL。

在非关系型NoSQL数据库中,一般最底层的文件存储系统可以选择HDFS。HDFS文件系统将文件按照块来进行存储,一个块的大小为128兆,同时每个块会存储三份,对数据进行容灾存储,即使其中一个块坏了,可以选择其他块进行数据恢复。

分布式数据库系统可以对数据表进行水平分割和垂直分割比如HBase数据库,水平分割使用的是Region,垂直分割则是使用的列族。

分布式数据存储技术,需要不同机器一起协同工作,每台机器存储整体数据的一个子集。在未来大数据时代,肯定都会使用分布式数据存储,分布式数据库,会成为大数据系统的标配。


我是Lake,专注大数据技术原理、人工智能、数据库技术、程序员经验分享,如果我的问答对你有帮助的话,希望你能点赞关注我,感谢。

我会持续大数据、数据库方面的内容,如果你有任何问题,也欢迎关注私信我,我会认真解答每一个问题。期待您的关注

3

这是一个非常好的问题,作为一名大数据从业者,我来回答一下。

在当前的大数据时代,不仅IT(互联网)行业的人需要了解大数据相关知识,传统行业的从业者和普通大学生也都应该了解一定的大数据知识,在产业互联网和新基建计划的推动下,未来大数据技术将全面开始落地应用,大数据也将重塑整个产业结构。

了解大数据首先要从大数据的概念开始,不同于人工智能概念,大数据概念还是相对比较明确的,而且大数据的技术体系也已经趋于成熟了。解释大数据概念,可以从数据自身的特点入手,然后进一步从场景、应用和行业来逐渐展开。

大数据自身的特点往往集中在五个方面,分别是数据量、数据结构多样性、数据价值密度、数据增长速度和可信度,对于这五个维度的理解和认知,是了解大数据概念的关键。当然,随着大数据技术的发展和在行业领域的应用,关于数据自身的维度也有了一定程度的扩展,这些扩展本身也是对大数据概念的一种丰富和完善。

数据量大是大数据的一个重要特征,但是数据量本身是一个汇集的概念,并不是只有很大的数据才称为大数据,传统信息系统所产生的“小数据”也是大数据的一个重要组成部分,这一点一定要有清晰的认知。当前从大数据的数据来源来看,主要集中在三个渠道,包括互联网、物联网和传统信息系统,物联网数据当前占据的比例比较大,相信在5G时代,物联网将依然是大数据的主要数据来源。

数据结构多样性是大数据的另一个重要特点,不同于创新信息系统(ERP)当中的数据,大数据的数据类型是非常复杂的,既有结构化数据,也有非结构化数据和半结构化数据,这对于传统的数据处理技术提出了巨大的挑战,这也是推动大数据技术产生的一个重要原因。在工业互联网时代,大数据的数据结构多样性会进一步得到体现,这对于数据价值化过程也提出了新的挑战。

数据价值密度往往是衡量数据价值的重要基础,相对于传统的信息系统来说,大数据当中的数据价值密度是比较低的,这就需要有更快速和便捷的方式,来完成数据的价值化提取过程,而这也正是当前大数据平台所关注的核心能力之一。实际上,早期的Hadoop、Spark平台之所以能够脱颖而出,一个重要的原因就是其数据处理(排序)速度比较快。

数据增长速度快是大数据的另一个重要表现,通常传统信息系统的数据增量是可以预测的,或者说增长速度是可控的,但是在大数据时代,数据增长速度已经大大突破了传统数据处理所能承载的极限。数据增长是一个相对的概念,相对于消费互联网来说,产业互联网所带来的数据增量可能会更加客观,因此产业互联网时代会进一步打开大数据的价值空间。

最后,大数据还有一个特点就是数据本身的真实性,大数据时代所带来的一个重要副作用就是数据真假难辨,这也是当前大数据技术所要重点解决的问题之一。从当前大型互联网平台所采用的方法来看,通常是技术和管理相结合的方式,比如通过为用户认证就能够解决一部分数据的真实性(专业性)问题。

我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。

如果有互联网、大数据、人工智能等方面的问题,或者是考研方面的问题,都可以在评论区留言,或者私信我!

4

用最通俗的语言跟你解释一下。

举个例子,你想要买一双鞋,打开淘宝搜索了半天,感觉不太合适,然后又一想,晚点买也可以,于是退出了淘宝,打开了抖音,开始看某些土味视频。

当你下一次打开淘宝的时候,淘宝一定会给你推荐各种新款式的鞋,并且会给你推送相关的活动。而你每次打开抖音,看到的大部分都是土味视频。

其原因就是因为你在淘宝上用了大部分时间去搜索鞋子,淘宝通过测算觉得你对鞋子感兴趣,于是你每次进淘宝都会给你推荐鞋子。除非你下次用更多的时间去搜索另外一个东西。而抖音觉得你比较喜欢土味视频,因此这种视频便一直出现。

这就是我们所说的大数据,通过对你各种行为分析,为你推荐更符合你口味的东西。

会销售的售货员在卖东西的时候一定不会仅仅去说产品,他肯定会通过各种方法去了解你的信息,等到信息足够后再去为你推荐更加合适的产品,而此时你成交的概率非常大。

所以不妨回忆一下,买东西的时候有没有售货员跟你聊除产品以外的东西?比如家庭?

生活中的大数据有很多,打开歌曲APP,每日推荐就是大数据;打开今日头条,推荐你最感兴趣的内容也是大数据;打开视频APP,推荐的视频同样是你最爱看的,这也是大数据。

因此,只要能通过某种途径,了解到你的详细信息或者行为,根据这些信息或者行为进行推荐你所感兴趣的东西,就叫做大数据。

不知道你清楚了没有?

5

大数据通俗来说就是有个机器,把你生活中的点点滴滴都记录下来,形成一种特定的形式!

6

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  麦肯锡全球研究所给大数据出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

  随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

  这一切都始于数字时代到来后我们所产生的数据量的指数激增。这主要是因为计算机、因特网和技术能够从我们生活的真实世界中获取信息,并将其转化为数字数据。在2017年,当我们上网时、当我们携带配备GPS的智能手机时、当我们通过社交媒体或聊天应用程序与我们的朋友沟通时、以及我们在购物时,我们会生成数据。你可以说,我们所做的涉及数字交易的一切都会留下数字足迹,这几乎是我们生活的一切。

  除此之外,机器生成的数据量也在快速增长。当我们的“智能”家庭设备彼此通信或与他们的家庭服务器通信时,数据就会生成和共享。世界各地的工厂和工厂的工业机械越来越多地配备了传感器来收集和传输数据。很快,自动驾驶的汽车将走上街头,将他们所到之处周围的环境实时、四维的地图发送回家。

7

相信大家对于这次新冠肺炎疫情期间社区防控力度之严、强度之大深有体会。但在杭州滨江区,在疫情爆发之初,却面临着社区疫情防控人手不足的问题。对此,国家电网杭州分公司研发了全国首个“电力大数据+社区网格化”算法,实现了收集、研判电力数据功能,并对滨江157476户居民、超过1000万条电力数据,进行了收集和分析。为了精准判断细微的用电数据差别,该公司在算法中开发了居民短暂和长期外出、举家返回、隔离人员异动等3个场景6套算法模型。通过3轮150余万条次电力大数据巡航,精准判断出区域内人员日流动量和分布,还可以实时监测居家隔离人员、独居老人等特殊群体347户。这让社区人员得以根据电量波动判断业主状况,提高了登记和服务的效率,从而解决了人手不足的难题。

听完这个例子,不知道你有没有什么感触呢?看似“高大上”的大数据,实际上就是这么的“接地气”。今天呢,我主要是想纠正一些大家对于大数据的误解,对大数据有一个更清晰且正确的认识。

二、大数据是什么?

其中,第三范式和第四范式都是由计算机来进行计算的,二者之间有什么区别呢?

引用维克托·迈尔·舍恩伯格撰写的《大数据时代》中的话来说,就是:大数据时代最大的转变,就是放弃对因果关系的渴求,取而代之关注相关关系。第四范式相对于第三范式来说,更关注“是什么”,而不需要知道“为什么”,就像人类总是会思考事物之间的因果联系,电脑却更擅长相关性分析。这也是为什么有人提出第三范式是“人脑+电脑”,人脑是主角,而第四范式是“电脑+人脑”,电脑是主角。

也许会有同学提出疑问,这是不是与我们科学研究的理念相违背?毕竟,如果通篇只有对数据相关性的分析,而缺乏具体的因果解读,这样的文章一般被认为是数据堆砌,是不可能发表的。

这里我又想给大家举一个例子了,让大家更好的理解第四范式的意义所在。拿我们近年来特别关心的雾霾来说,我们想要研究雾霾的产生机制,从而进行针对性的预防。

按照第三范式的思路,我们需要先在一些具有“代表性”的地方建立气象站,收集与雾霾形成有关的参数,包括大气化学成分、地形、风向、温度、湿度等气象因素。需要注意的是,第三范式下,我们所收集的参数都是我们认为可能会影响到雾霾形成的因素,实际上已经人为地排除了某些不重要的参数。从研究的可行性角度出发无可厚非,但是从准确性上来说,已经是根源性的错误了。如果能够获取更全面的数据,即不加筛选地收集各类参数数据,进行更细致的数据分析,那么就能得出更科学的预测,这就是第四范式的出发点。

相信通过上面的解说,大家对大数据有了一个基本的认识,下面呢我来对大数据做一个简单的定义:大数据(big data),指的是在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集。这些大数据集包括结构化、非结构化和半结构化数据,需要经过进一步的数据处理和分析才能形成有价值的信息。

第一、数据体量巨大

这点相不难理解,我们日常生活中使用的微信、支付宝、微博、抖音等软件每天都会产生数百亿条以上的数据,这仅仅是移动应用一天的数据量,此外其他各行各业也都会产生各式各样的数据,其总量绝对超出了你们的想象。举个具体的例子,据英特尔预测,全球数据总量在2020年将达到44ZB,而中国产生的数据量将为8000EB,8000EB是什么概念?整个地球上所有沙粒总数的10倍!

第二、数据类型繁多

正如我刚才所提到的,大数据包括结构化数据、半结构化数据和非结构化数据。结构化数据指数据的属性相同,可以用统一的结构进行表示;非结构化数据缺少固定的结构,通常整体存储,比如各种图片、视频、音频等,非结构化数据越来越成为数据的主要形式,据IDC数据显示,企业中80%的数据都是非结构化数据;而半结构化数据则介于两者之间,比如HTML和XML文档,其内部用成对的标签记录对应的数据,但每个文档内部的标签又不是统一的,没有固定的规律。

第三、价值密度低

大数据的价值很高,但是单条记录却基本无意义,缺乏有效信息,这也对我们收集数据提出了要求,数据分析一定要建立在大量的数据集的基础上。举个例子,张三是某电商平台的忠实用户,我们作为后台,如果单看他的某一条购物记录,无非是知道了他买了什么东西,消费了多少钱,但是我们一旦利用大数据分析系统对张三所有的购物记录进行分析,那么我们就能得出他的一个消费画像,了解其购买偏好,从而对他进行精准的商品推荐。

第四、处理速度快

如今5G时代,数据产生的速度越来越快,这就要求数据后台能够快速处理掉无用信息,因为需要控制存储成本。同时更快速地处理信息,能够获取更多的有效价值,才能够在商业竞争中取得优势。两方面因素都刺激着数据处理技术的高速发展,目前采取流式数据处理技术可以达到毫秒级甚至微秒级的处理时间,满足实时监控分析用户行为,从而提供个性化服务的需求。

三、结语

最后,引马云的一句话作为结尾:未来的时代将不是IT时代,而是DT的时代。这里的DT就是data technology, 希望各位对大数据有了一个新的认识,也希望大家能够在这个万物互联的时代,把握时代机遇,掌握信息技能,做一朵勇往直前的“后浪”。

8

网上抄一段谁都会,又长又空。所以尝试用我自己理解的东西简单说一下,若有问题请指出,仅供参考。

大数据,大数据,最重要的特点,毫无疑问,那就是大!大!数据量相当的大。这里说的大可以从两方面理解,一个是数据条数(比如1万亿个整数),另一个是容量(比如1百万个TB)。

可千万别小看数据量大这个特点。普通人根本无法处理如此大体量的数据。比如1百万TB,一个普通硬盘也就1TB,那么得需要1百万个硬盘来装,那得堆起来多高!一般的服务器也扛不住,说不定得搬1万台电脑。你说这种技术难不难?在大数据提出来之前,人们也是可以处理的,比如谷歌百度搜索,比如网易电子邮箱。不过这些技术都是人家的看家本领,不外传之秘籍。而自从谷歌2004年公布了它的mapreduce技术,并且有人在2006年前后公布了hadoop源码后,世人马上就可以很轻松地使用了,大数据突然就火了。

曹操称象,都听过吧?大象很大,很重,三国时期根本没有那么大的秤,怎么办?就把大象放到船上,看船在水中的位置。然后大象牵走,运很多石头上去,让船到同样的位置。这个思想就是mapreduce,大数据处理海量数据的核心思想。它把一个很大的任务分解为等效的很多小部分,然后让成千上万的普通电脑(服务器)去计算,最后再把结果“加”起来。专业术语叫分布式处理。这项技术早就有了,只不过hadoop的兴起,让它的门槛瞬间变低很多很多。门槛低了,这项技术就火了。

从某种程度上说,hadoop就是大数据的代名词。如果你不用hadoop,都不好意思在“行家”面前说叫大数据。hadoop简单说就是一个软件,具体的信息大家网上搜,我就不复制粘贴了。当然现在也有一种不好的现象,那些对hadoop一知半解的,随便用用,就几个GB或几个TB也号称叫大数据,炒作概念。可以这么说,连1000TB都没有,根本算不上什么大数据,那只不过是借助hadoop故弄玄虚罢了,就好比买几十本世界名著放在客厅书架上(但却几乎不看),就号称是文化人文学人一样。

大数据除了数据量大外,第二个特点就是数据种类多

举个例子,传统大超市,它可以借助收银系统掌握每天每时的货物售出情况。这个数据就比较单一。而再看网上商城,它不但可以掌握货物流动,还能知道购买者的性别,年龄,地区,浏览过哪些商品,在哪些商品上看了多长时间,浏览商品时是在什么位置(GPS定位)。后者就符合大数据数据种类多的特点。

大数据还有一个特点就是有价值的数据比例少。请注意是比例。比方说你存了1亿条数据,可能只有其中1千条是有价值的。另外还有一些数据可能是错的,还有一些是缺失的。这种思路与传统思维不一样。传统软件设计认为要存数据就存有用的,正确的,还要尽量避免数据缺失。比如传统银行就是要求数据不能错,近期交易信息不能丢。而网上购物就不一样了,用户的浏览历史记录,实际上就是可有可无的,多一条少一条关系不是很大。存起来只不过为了数据挖掘而已。后者就符合大数据价值密度小的特点。

再来说说为什么大数据现在火了,难道这些大数据的特点和优点以前想不到吗?

首先,刚说过了,hadoop的兴起(再外加云计算,特别是公有云),让普通开发者处理大数据的能力瞬间提高一个档次,门槛变低。第二,硬件特别是存储设备成本变低。而以前的系统遇到没有价值的数据就丢了,要来干啥,浪费空间。我记得以前用手机的时候发短信有30条的限制,那都是挖空心思删除没用的短信,不然提示收件箱已满。现在聊天记录几十万条都懒得删,反正手机装的下。

第三,物联网技术,传感器技术,GPS定位,移动设备,网上交易等的发展。还有,实名认证机制。这些种种发展,导致了数据的种类一下子变多了。而且由点到线,由线到面,看似没有价值的数据连在一起就变得有价值了。如果大家都用手机地图开车,那么这些大数据就可以联系起来,知道哪里拥堵,指导如何避免拥堵,还可以统计不同类别的人(实名认证)开车的喜好,比如哪类人喜欢去公园,哪类人喜欢去大饭店。

大数据和数据挖掘,人工智能有什么区别和联系?这个说法不一。我认为大数据侧重点是数据量大,强调如何使用特定的技术快速处理海量的,异构的数据。一定是使用分布式技术。如何使用分布式,是大数据的一个重要特征。而数据挖掘则是强调数学上的算法,而不过分关注在分布式集群上实现的细节。数据挖掘通常都要借助大数据技术,但不是必须,“小数据”也可以挖掘。这就好比算账和计算器的关系。算账就是数据挖掘,计算器就是大数据。两者密不可分,通常,算账离不开计算器,计算器主要用来算账。算账需要理解业务甚至要学会计知识,而计算器关注的是电子技术,浮点数运算,泰勒级数展开等等。另外数据挖掘不总是强调性能和实时性。比方说我可以用100小时的时间用一台破电脑去进行一个分类学习或叫训练(正如同我用笔算也可以算账一样,虽然慢一点)。但是大数据一般动辄出动数十台服务器,在几分钟甚至几秒钟就要出结果。所以两者侧重点不一样。

而人工智能包括机器学习,也包括数据挖掘。但是平常所说的人工智能,或者说狭义的人工智能,通常都是使用了神经网络,更准确地说是深度学习(可理解为深度神经网络)。

9

博士时候就是做大数据。

最通俗一点就是很多条数据。

我们做大数据研究呢,就是高效的处理数据,对未来做一些预测,建议等。

例如,全中国人大多数都是10点睡觉。睡觉前看一看手机。那我们做推广时候,就可以选择9点半的时间。

大数据没有什么特别神秘的地方,就是数据多一点。

10

“不接触互联网,以后寸步难行!”十年前,在这样的危言耸听下,大家扔掉砖块手机拿起手掌大的智能手机。

好不容易学会了玩微信刷朋友圈,现在中年危机和“大数据”都一起来了。

是不是不接触大数据,也要被时代淘汰?

而现实生活中处处看见大数据,你刷不刷小视频?读不读每日新闻?看不看新剧?

细心的人就会发现,为什么软件这么了解我,知道我喜欢看婆媳伦理视频、知道我喜欢学最新广场舞、知道我喜欢哈哈搞笑段子?

手指不管怎么往下滑,都是我喜欢看的,每次像再刷五分钟就去睡觉,一刷就是两个小时。这样熟悉的场景是不是有感同身受?

这就是大数据整合优化。

用专业术语概括大数据就是:使用新的处理模式,对信息进行捕捉、管理和处理的数据集合。

简单来说就是:你拿着没有喝完的奶茶,准备扔进垃圾桶。上海清洁工阿姨非常友好地问你,“你是什么垃圾?”,

这时候你就要:

第一,先倒了剩下的奶茶

第二,然后把珍珠倒到“湿垃圾”处

第三,把外包装扔到“干垃圾”处。

以上这个过程就是大数据处理,对海量的数字信息进行分类、整合、优化,来达到客户需求的目的。

大数据在资源分配、信息配对非常有用,例如器官移植配对,就职简历投放等等。

像我们这样的普通人,我们享受的是大数据给我们带来的便捷,我们并不需要去过于专研它。

所以不用担心不接触大数据,就要被时代淘汰!就像我们都会用智能手机,要理解智能手机到底是怎么运作,里面的锂子电子排列顺序是什么,这个是完全不必要的。