大数据概论】大数据是一门什么技术?

2020-09-09 15:52发布

8条回答
敦敦宁
2楼 · 2020-09-09 16:16

一方面,从技术角度看,大数据只是一种方法;一方面从现实角度看,大数据是一种新产生的业态,并且还处于初级阶段;一方面是从规模上看,体量大,范围广;一方面是从本质上看,大数据就是能够采集到的全部生命活动、非生命活动产生的记录所生成的数据,并通过技术手段存储、传输、计算、统计、分析、利用及提取有价值的信息的整个活动过程及所采用到的技术的整体,包括宇宙本身及活动,生命体自身、生存环境及全部生命及非生命活动所产生的记录所生成的数据。

爱学习的小巴
3楼 · 2020-09-09 16:20

大数据是也不是一门技术,原因如下:1、 指代巨大的数据集,是一种信息资产,简单理解为:"大数据"是一个体量特别大,数据类别特别大的数据集。2、 指大数据技术体系,是一种新技术。大数据有从采集、处理、存储到形成结果的整个过程,每一个环节侧重的技术会有不同。3、 指大数据的实践和应用,实践和应用是大数据的最终价值体现。当前大数据技术体系已经趋于成熟,应用落地将是又一个重点被关注的层面。


yy123456
4楼 · 2020-09-09 16:24

大数据就相当于一个信息堆积的地方,爬虫技术就需要在大数据里找关键信息,所以相当于是所有信息一个基础的聚集点

猜不到结尾
5楼 · 2020-09-09 16:29

1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

2、数据存取:关系数据库、NOSQL、SQL等。

3、基础架构:云存储、分布式文件存储等。

4、数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

6、数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

7、模型预测:预测模型、机器学习、建模仿真。

8、结果呈现:云计算、标签云、关系图等。


我是大脸猫
6楼 · 2020-09-09 16:50

大数据产生和互联网的发展离不开,它是互联网发展到一定程度的一种表象或特征,没有那么神秘和可怕,人们对大数据要有客观现实的认识。大数据技术就是在云计算的推动下,对于已有的各类数据进行充分挖掘和加工,产生数据本身没有体现出来的价值。如要系统地认知、全面地了解和分析大数据,一般可以从三个层面入手。

首先是理论。理论是认知的必经途径,只有把理论弄清楚和明白了才能更深入往下分析探究。一般对于大数据的定义,首先从特征上描述,然后从行业对大数据的整体分析描绘和定性。从大数据应用的领域和发展来全面深入探讨分析其真正价值趋向所在。理清大数据发展的方向,以及对于大数据发展过程中带来一系列关于对人的影响,如大数据技术可以危及人的隐私或其他价值取向。

其次是技术。大数据首先是一门信息技术,这是大数据根本属性。大数据的价值和用途最终都要落到技术上。这个技术是一个综合技术,大数据技术不断和其他技术融合形成新的技术。互联网金融从某种意义上说就是大数据技术、云计算、互联网技术等多种技术交织融汇。大数据技术在这里分别从云计算、存储技术、分布式处理技术与感知技术的发展来解释大数据从采集、处理、存储到形成结果的整个过程。


苏橙C
7楼 · 2020-09-09 21:03

一方面,从技术角度看,大数据只是一种方法;一方面从现实角度看,大数据是一种新产生的业态,并且还处于初级阶段;一方面是从规模上看,体量大,范围广;一方面是从本质上看,大数据就是能够采集到的全部生命活动、非生命活动产生的记录所生成的数据,并通过技术手段存储、传输、计算、统计、分析、利用及提取有价值的信息的整个活动过程及所采用到的技术的整体,包括宇宙本身及活动,生命体自身、生存环境及全部生命及非生命活动所产生的记录所生成的数据。

是你的小甜心呀
8楼 · 2020-09-10 09:57

"大数据"是一个体量特别大,数据类别特别大的数据集

tiger
9楼 · 2020-09-11 12:18

大数据就相当于一个信息堆积的地方,爬虫技术就需要在大数据里找关键信息,所以相当于是所有信息一个基础的聚集点,而且现在就是大数据时代,很受国家重视。

相关问题推荐

  • 回答 6

    大数据开发:1、负责公司大数据产品/项目的后台研发;2、负责技术预研,产品设计以及文档编写等工作;3、参与大数据的数据治理和数据处理相关java开发工作;4、参与海量数据处理,业务数据体系的设计、数据统计、分析及数据建模大数据开发要处理大规模的数据...

  • 回答 1

    修改log4j.properties文件中的:# Define the root logger to the system property plsql.root.logger.log4j.rootLogger=./sql.log# Logging Threshold to INFO for queryserver. root logger still at WARN for sqlline cl...

  • 回答 1

    如果没找到解决方法,最好的方法就是重装

  • 回答 1

    杀毒软件关了

  • 回答 2

    1、上传jar包到/opt/software/解压到/opt/module 改名为phoenix2、 复制server和client这俩个包拷贝到各个节点的hbase/lib在phoenix目录下3、向每个节点发送server jar4、向每个节点发送client jar5、在root权限下给/etc/profile 下添加如下内容6、启动Zookee...

  • 回答 1

    安装和配置Phoenix把下载好的安装包放入software目录下解压Phoenix到opt目录下[root@hadoop100 software]# tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt进入Phoenix的bin目录下把phoenix-4.14.0-cdh5.14.2-server.jar包复制到hbase目...

  • 回答 7

    phoenix是构建的Hbase之上的,使用标准的SQL操作Hbase,可以做联机事务处理,拥有低延迟的特性。phoenix会把SQL编译成一系列的Hbase的scan操作,然后把scan结果生成标准的JDBC结果集,其底层由于使用了Hbase的API,协处理器,过滤器,处理千万级行的数据也只...

  • 回答 3

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。...

  • 回答 2

    想考计算机相关证书或者想学技术的同学可以抓紧时间啦!双11更多优惠活动详情咨询18597153017(微信同号)

  • 回答 2

    一、Selector(选择器)Selector概述Selector(选择器)可以工作在复制或多路复用(路由) 模式下 。复制模式Selector复制模式-属性说明selector.type replicating 类型名称,默认是 replicatingselector.optional – 标志通道为可选Selector复制模式-案例 #命...

  • 回答 2

    (1)电子商务网站比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信...

  • 回答 4

    HBase是一个构建在HDFS之上的、分布式的、支持多版本的NoSQL数据库,它的出现补齐了大数据场景下快速查询数据能力的短板。它非常适用于对平台中的热数据进行存储并提供查询功能。...

  • 回答 4

    HBase数据结构运行原理

  • 回答 6

    传统数据库存储B树 B+树 B-树传统关系型数据普通索引就是采用B+树的方式B+树最大的性能问题是会产生大量的随机IO,随着新数据的插入,叶子节点会慢慢分裂,逻辑上连续的叶子节点在物理上往往不连续,甚至分离的很远,但做范围查询时,会产生大量读随机IO;Hba...

  • 回答 7

    对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵,蚂蚁的风控就是...

  • 回答 4

    Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件、socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现。Flume...

没有解决我的问题,去提问