大数据的基本特征有哪些?

2021-05-07 19:10发布

29条回答
722
2楼 · 2021-05-08 10:00

简言之,大数据是指大数据集,这些数据集经过计算分析可以用于揭示某个方面相关的模式和趋势。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

大数据的特点:数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。

大数据的5V特性:


浅浅77
3楼 · 2021-05-08 10:42

1、容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。

2、种类(Variety):数据类型的多样性。

3、速度(Velocity):指获得数据的速度。

4、可变性(Variability):妨碍了处理和有效地管理数据的过程。

5、真实性(Veracity):数据的质量。

6、复杂性(Complexity):数据量巨大,来源多渠道。

7、价值(value):合理运用大数据,以低成本创造高价值。

1.容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。

2.种类(Variety):数据类型的多样性。

3.速度(Velocity):指获得数据的速度。

4.可变性(Variability):妨碍了处理和有效地管理数据的过程。

5.真实性(Veracity):数据的质量。


yuixan
5楼 · 2021-05-08 11:11

大数据(big data)是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据有大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、真实性(Veracity)五大特点。它并没有统计学的抽样方法,只是观察和追踪发生的事情。大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。


我想吃肉
6楼 · 2021-05-08 11:22

1、大容量

  据马海祥了解,天文学和基因学是最早产生大数据变革的领域,2000年,斯隆数字巡天项目启动时,位于新墨西哥州的望远镜,在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多;在智利的大型视场全景巡天望远镜一旦于2016年投入使用,其在5天之内搜集到的信息量将相当于前者10年的信息档案。

  2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。

  伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。

  移动互联网的核心网络节点是人,不再是网页,人人都成为数据制造者,短信、微博、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;来自自动流程记录,刷卡机、收款机、电子不停车收费系统,互联网点击、电话拨号等设施以及各种办事流程登记等。

  大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海(具体可查看马海祥博客《大数据技术到底能帮企业做些什么》的相关介绍)。

  我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。

  2011年,马丁·希尔伯特和普里西利亚·洛佩兹在《科学》上发表了一篇文章,对1986——2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。其研究范围大约涵盖了60种模拟和数字技术:书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等。

  据他们估算:2007年,人类大约存储了超过300EB的数据;1986——2007年,全球数据存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;预计到2013年,世界上存储的数据能达到约1.2ZB。

  这样大的数据量意味着什么?

  据估算,如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果存储在只读光盘上,这些光盘可以堆成5堆,每堆都可以伸到月球。

  在公元前3世纪,希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品,可以代表当时世界上其所能搜集到的知识量。但当数字数据洪流席卷世界之后,每个人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

  2、多样性

  随着传感器、智能设备以及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

  在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自于组织外部。

  例如,在交通领域,北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万户家庭等等,这些数据在体量和速度上都达到了大数据的规模。

  发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、能前人所不能的机会。

  大数据不仅是处理巨量数据的利器,更为处理不同来源、不同格式的多元化数据提供了可能。

  例如,为了使计算机能够理解人的意图,人类就必须要将需解决的问题的思路、方法和手段通过计算机能够理解的形式告诉计算机,使得计算机能够根据人的指令一步一步工作,完成某种特定的任务。

  在以往,人们只能通过编程这种规范化计算机语言发出指令,随着自然语言处理技术的发展,人们可以用计算机处理自然语言,实现人与计算机之间基于文本和语音的有效通信,为此,还出现了专门提供结构化语言解决方案的组织—语言数据公司。

  自然语言无疑是一个新的数据来源,而且也是一种更复杂、更多样的数据,它包含诸如省略、指代、更正、重复、强调、倒序等大量的语言现象,还包括噪声、含混不清、口头语和音变等语音现象。

  苹果公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。用户可以通过语音、文字输入等方式与Siri对话交流,并调用手机自带的各项应用,读短信、询问天气、设置闹钟、安排日程,乃至搜寻餐厅、电影院等生活信息,收看相关评论,甚至直接订位、订票,Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。

  为了让Siri足够聪明,苹果公司引入了谷歌、维基百科等外部数据源,在语音识别和语音合成方面,未来版本的Siri或许可以让我们听到中国各地的方言,比如四川话、湖南话和河南话。

  多样化的数据来源正是大数据的威力所在,例如交通状况与其他领域的数据都存在较强的关联性。据马海祥博客收集的数据研究发现,可以从供水系统数据中发现早晨洗澡的高峰时段,加上一个偏移量(通常是40-45分钟)就能估算出交通早高峰时段;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量估算出晚上的堵车时段。

  3、快速度

  在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。

  例如,IBM有一则广告,讲的是“1秒,能做什么”?1秒,能检测出台湾的铁道故障并发布预警;也能发现得克萨斯州的电力中断,避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈,保障客户利益。

  在商业领域,“快”也早已贯穿企业运营、管理和决策智能化的每一个环节,形形色色描述“快”的新兴词汇出现在商业数据语境里,例如实时、快如闪电、光速、念动的瞬间、价值送达时间。

  英特尔中国研究院首席工程师吴甘沙认为,快速度是大数据处理技术和传统的数据挖掘技术最大的区别。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的“快”有两个层面。

  一是数据产生得快。有的数据是爆发式产生,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓涓细流式产生,但是由于用户众多,短时间内产生的数据量依然非常庞大,例如,点击流、日志、射频识别数据、GPS(全球定位系统)位置信息。

  二是数据处理得快。正如水处理系统可以从水库调出水进行处理,也可以处理直接对涌进来的新水流。大数据也有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式,以实现快速的数据处理。

  为什么要“快”?

  第一,时间就是金钱。如果说价值是分子,那么时间就是分母,分母越小,单位价值就越大。面临同样大的数据“矿山”,“挖矿”效率是竞争优势。

  第二,像其他商品一样,数据的价值会折旧,等量数据在不同时间点?价值不等。NewSQL(新的可扩展性/高性能数据库)的先行者VoltDB(内存数据库)发明了一个概念叫作“数据连续统一体”:数据存在于一个连续的时间轴上,每个数据项都有它的年龄,不同年龄的数据有不同的价值取向,新产生的数据更具有个体价值,产生时间较为久远的数据集合起来更能发挥价值。

  第三,数据跟新闻一样具有时效性。很多传感器的数据产生几秒之后就失去意义了。美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性,但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。

  越来越多的数据挖掘趋于前端化,即提前感知预测并直接提供服务对象所需要的个性化服务,例如,对绝大多数商品来说,找到顾客“触点”的最佳时机并非在结账以后,而是在顾客还提着篮子逛街时。

  电子商务网站从点击流、浏览历史和行为(如放入购物车)中实时发现顾客的即时购买意图和兴趣,并据此推送商品,这就是“快”的价值(具体可查看马海祥博客《浅谈大数据时代的大数据技术与应用》的相关介绍)。

  4、真实性

  在以上3项特征的基础上,我归纳总结了大数据的第四个特征——真实性。

  数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。

  追求高数据质量是一项重要的大数据要求和挑战,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如,人的感情和诚实性、天气形势、经济因素以及未来。

  在处理这些类型的数据时,数据清理无法修正这种不确定性,然而,尽管存在不确定性,数据仍然包含宝贵的信息。我们必须承认、接受大数据的不确定性,并确定如何充分利用这一点,例如,采取数据融合,即通过结合多个可靠性较低的来源创建更准确、更有用的数据点,或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。

  业界还有人把大数据的基本特征从4V扩展到了11V,包括价值密度低(Value)、可视化(Visualization)、有效性(Validity)等。例如,价值密度低是指随着物联网的广泛应用,信息感知无处不在,信息海量,但在连续不间断的视频监控过程中,可能有用的数据仅一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

  国际数据公司报告里有一句话,概括出了大数据基本特征之间的关系:大数据技术通过使用高速的采集、发现或分析,从超大容量的多样数据中经济地提取价值(具体可查看马海祥博客《如何通过大数据来获取商业价值》的相关介绍)。

  除了上述主流的定义,还有人使用3S或者3I描述大数据的特征。

  3S指的是:大小(Size)、速度(Speed)和结构(Structure)。

  3I指的是:

  (1)、定义不明确的(Ill-de.ned):多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应不断变大,因而并没有一个明确的标准。

  (2)、令人生畏的(Intimidating):从管理大数据到使用正确的工具获取它的价值,利用大数据的过程中充满了各种挑战。

  (3)、即时的(Immediate):数据的价值会随着时间快速衰减,因此为了保证大数据的可控性,需要缩短数据搜集到获得数据洞察之间的时间,使得大数据成为真正的即时大数据,这意味着能尽快地分析数据对获得竞争优势至关重要。


茄子酱
7楼 · 2021-05-08 11:37

大数据的基本特点为:

1、容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。

2、种类(Variety):数据类型的多样性。

3、速度(Velocity):指获得数据的速度。

4、可变性(Variability):妨碍了处理和有效地管理数据的过程。

5、真实性(Veracity):数据的质量。

6、复杂性(Complexity):数据量巨大,来源多渠道。

7、价值(value):合理运用大数据,以低成本创造高价值。



大冬瓜
8楼 · 2021-05-08 13:47

容量、种类、速度、可变性、真实性、复杂性、价值。

大数据的特征:

容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;

种类(Variety):数据类型的多样性;

速度(Velocity):指获得数据的速度;

可变性(Variability):妨碍了处理和有效地管理数据的过程。

真实性(Veracity):数据的质量

复杂性(Complexity):数据量巨大,来源多渠道

价值(value):合理运用大数据,以低成本创造高价值


三岁奶猫
9楼 · 2021-05-08 14:57

1.数据量大。
2.规定快速响应,销售市场变化快,规定能立即迅速的回应转变,因此对数据的分析还要迅速,在特性上面有更伟岸规定。

相关问题推荐

  • 什么是大数据时代?2021-01-13 21:23
    回答 100

    大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,而这个海量数据的时代则被称为大数据时代。随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结...

  • 回答 84

    Java和大数据的关系:Java是计算机的一门编程语言;可以用来做很多工作,大数据开发属于其中一种;大数据属于互联网方向,就像现在建立在大数据基础上的AI方向一样,他两不是一个同类,但是属于包含和被包含的关系;Java可以用来做大数据工作,大数据开发或者...

  • 回答 52
    已采纳

    学完大数据可以从事很多工作,比如说:hadoop 研发工程师、大数据研发工程师、大数据分析工程师、数据库工程师、hadoop运维工程师、大数据运维工程师、java大数据工程师、spark工程师等等都是我们可以从事的工作岗位!不同的岗位,所具备的技术知识也是不一样...

  • 回答 14

    tail -f的时候,发现一个奇怪的现象,首先 我在一个窗口中 tail -f test.txt 然后在另一个窗口中用vim编辑这个文件,增加了几行字符,并保存,这个时候发现第一个窗口中并没有变化,没有将最新的内容显示出来。tail -F,重复上面的实验过程, 发现这次有变化了...

  • 回答 18

    您好针对您的问题,做出以下回答,希望有所帮助!1、大数据行业还是有非常大的人才需求的,对于就业也有不同的岗位可选,比如大数据工程师,大数据运维,大数据架构师,大数据分析师等等,就业难就难在能否找到适合的工作,能否与你的能力和就业预期匹配。2、...

  • 回答 17

    最小的基本单位是Byte应该没多少人不知道吧,下面先按顺序给出所有单位:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,按照进率1024(2的十次方)计算:1Byte = 8 Bit1 KB = 1,024 Bytes 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576...

  • 回答 33

    大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新...

  • 回答 5

    MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL的版本:针对不同的用户,MySQL分为两种不同的版本:MySQL Community Server社区版本,免费,但是Mysql不提供...

  • mysql安装步骤mysql 2022-05-07 18:01
    回答 2

    mysql安装需要先使用yum安装mysql数据库的软件包 ;然后启动数据库服务并运行mysql_secure_installation去除安全隐患,最后登录数据库,便可完成安装

  • 回答 5

    1.查看所有数据库showdatabases;2.查看当前使用的数据库selectdatabase();3.查看数据库使用端口showvariableslike'port';4.查看数据库编码showvariableslike‘%char%’;character_set_client 为客户端编码方式; character_set_connection 为建立连接...

  • 回答 5

    CREATE TABLE IF NOT EXISTS `runoob_tbl`(    `runoob_id` INT UNSIGNED AUTO_INCREMENT,    `runoob_title` VARCHAR(100) NOT NULL,    `runoob_author` VARCHAR(40) NOT NULL,    `submission_date` DATE,    PRI...

  • 回答 9

    学习多久,我觉得看你基础情况。1、如果原来什么语言也没有学过,也没有基础,那我觉得最基础的要先选择一种语言来学习,是VB,C..,pascal,看个人的喜好,一般情况下,选择C语言来学习。2、如果是有过语言的学习,我看应该一个星期差不多,因为语言的理念互通...

  • 回答 7

    添加语句 INSERT插入语句:INSERT INTO 表名 VALUES (‘xx’,‘xx’)不指定插入的列INSERT INTO table_name VALUES (值1, 值2,…)指定插入的列INSERT INTO table_name (列1, 列2,…) VALUES (值1, 值2,…)查询插入语句: INSERT INTO 插入表 SELECT * FROM 查...

  • 回答 5

    看你什么岗位吧。如果是后端,只会CRUD。应该是可以找到实习的,不过公司应该不会太好。如果是数据库开发岗位,那这应该是不会找到的。

  • 回答 7

    查找数据列 SELECT column1, column2, … FROM table_name; SELECT column_name(s) FROM table_name 

没有解决我的问题,去提问