大数据概论】大数据开发与大数据分析有什么不同吗?

2020-03-27 13:59发布

0基础的童鞋适合学哪个呀?

0基础的童鞋适合学哪个呀?

4条回答
diy_me
2楼 · 2020-03-27 18:54

大数据开发工程师

1、编写一些Hadoop、Spark的应用程序;

2、对大数据处理系统本身进行开发。对理论和实践要求的都更深一些

大数据分析师

1、偏向产品和运营,更加注重业务,主要工作包括日常业务的异常监控、客户和市场研究、

2、更注重数据挖掘技术,门槛较高,需要扎实的算法能力和代码能力。同时薪资待遇也更好。


tiu
3楼 · 2021-05-17 16:01

数据开发类的岗位对于code能力、工程能力有一定要求,这意味着你需要有一定的编程能力,有一定的语言能力,然后就是解决问题的能力,因为大数据开发会涉及到大量的开源的东西,而开源的东西坑比较多,所以需要你能够快速的定位问题解决问题,如果是零基础,适合有一定的开发基础,然后对于新东西能够快速掌握。

2、如果是大数据分析类的职位,在业务上,需要你对业务能够快速的了解、理解、掌握,通过数据感知业务的变化,通过对数据的分析来做业务的决策,在技术上需要有一定的数据处理能力,比如一些脚本的使用、sql数据库的查询,execl、sas、r等工具的使用等等。在工具层面上,变动的范围比较少,主要还是业务的理解能力。


yuixan
4楼 · 2021-06-09 14:33
1、技术区别
大数据开发类的岗位对于code能力、工程能力有一定要求,这意味着需要有一定的编程能力,有一定的语言能力,然后就是解决问题的能力。
因为大数据开发会涉及到大量的开源的东西,而开源的东西坑比较多,所以需要能够快速的定位问题解决问题,如果是零基础,适合有一定的开发基础,然后对于新东西能够快速掌握。
如果是大数据分析类的职位,在业务上,需要你对业务能够快速的了解、理解、掌握,通过数据感知业务的变化,通过对数据的分析来做业务的决策。
在技术上需要有一定的数据处理能力,比如一些脚本的使用、sql数据库的查询,execl、sas、r等工具的使用等等。在工具层面上,变动的范围比较少,主要还是业务的理解能力。
2、薪资区别
作为IT类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。
在美国,大数据工程师平均每年薪酬高达17.5万美元。大数据开发工程师在一线城市和大数据发展城市的薪资是比较高的。
大数据分析:大数据分析同样作为高收入技术岗位,薪资也不遑多让,并且,我们可以看到,拥有3-5年技术经验的人才薪资可达到30K以上。
3、数据存储不同
传统的数据分析数据量较小,相对更加容易处理。不需要过多考虑数据的存储问题。而大数据所涉及到的数据具有海量、多样性、高速性以及易变性等特点。因此需要专门的存储工具。
4、数据挖掘的方式不同
传统的数据分析数据一般采用人工挖掘或者收集。而面对大数据人工已经无法实现最终的目标,因此需要跟多的大数据技术实现最终的数据挖掘,例如爬虫。
flame
5楼 · 2021-07-01 15:12

大数据和股票方面恰巧有一定的了解,试着做一个回答

从此前市场数据来看,用大数据做股票预测是有一定有效性的,而且也能够带来一定的超额回报。

不过,从金融市场有一些自己的特性,所以大数据对股票形成有效预测也有一些需要解决的问题


1.金融数据的高噪音:真实的信息被淹没在噪音之中,如果不对噪音进行处理,很难得到有效信息

2.金融市场的弱平稳性:金融市场本身是弱平稳的。对于市场数据的分析预测如果一直采用同样的模型,很难长期有效。

所以,如果要有大数据的方式尝试对股票市场做出有一定准确度的预测,就需要有一个从大数据中分离有效信息,并能够根据金融市场当下状况进行实施调整的模型。

而对于整个数据的分析预测来讲,大致也需要以下的几个步骤:



首先需要对金融数据进行降噪,尽可能减少噪音的影响。简单的话这里可能会采用一些滤波的方法,比如均线、kalman滤波等等

滤波之后的数据本身可能还不能与需要预测得数据形成较好的对应关系。而且大数据的情况下,可能本身的数据就是几百上千维,直接处理对于计算机来讲也是不现实的。所以这里还需要进行降维。简单做一下的话可以采用很多线性的方法,比如pca等等。或者一些非线性的比如神经网络深度学习之类的也可以用到这里

之后可以尝试做一下建模,这个就要看具体打算预测什么数据。

最后考虑到金融市场本身的弱平稳性,就需要根据最新数据的反馈对模型进行实时调整。这里可以采用一些统计学的方法,当然机器学习方面的一些算法也可以都加进来


不过要真正实现用大数据对股票市场进行有效的预测并不简单,在无套利的假设下,如果想获得额外的利润,肯定是需要在某些方面有过人之处。而具体到向通过大数据做股市的预测方面,具体就是下边的几个能力:



对于绝大多数参与者而言,所拥有的数据仅仅是市场公开数据,很难在数据这一环占据优势。但是如果是一些拥有大数据资源的参与者,就可以在这一层超过市场上的平均水准。

拥有数据只是有了最基本的材料,但是最终结果能否做好还需要看之后数据处理的活做得怎么样。这方面需要好的算法,从原始数据中提取有价值的信息。这里可以参考一家著名的公司:文艺复兴科技,他们的早期团队在最大熵方面方面有很强的学术背景,可以猜测他们的处理方式与之有关。除了这个例子之外,在大数据做金融数据预测方面,也就是通过什么样的算法能够更快更好提取有价值信息乃至做出决策。

最后的一环就是算力。如果交易对手也有数据,也有好的算法,对于市场上的某个交易机会,剩下的就是谁先算出来以及谁先成交的问题。对于用大数据方面预测金融数据,如果大家都是同等数据、同等算法,那么就是看谁能更早拿到结果。交易机会稍纵即逝,最先完成的交易一般而言会容易拿到更好的价格,而如果交易机会结束前都没有算出来,那这次的计算结果也就没有太多价值了。

相关问题推荐

  • 回答 6

    大数据开发:1、负责公司大数据产品/项目的后台研发;2、负责技术预研,产品设计以及文档编写等工作;3、参与大数据的数据治理和数据处理相关java开发工作;4、参与海量数据处理,业务数据体系的设计、数据统计、分析及数据建模大数据开发要处理大规模的数据...

  • 回答 1

    修改log4j.properties文件中的:# Define the root logger to the system property plsql.root.logger.log4j.rootLogger=./sql.log# Logging Threshold to INFO for queryserver. root logger still at WARN for sqlline cl...

  • 回答 1

    如果没找到解决方法,最好的方法就是重装

  • 回答 1

    杀毒软件关了

  • 回答 2

    1、上传jar包到/opt/software/解压到/opt/module 改名为phoenix2、 复制server和client这俩个包拷贝到各个节点的hbase/lib在phoenix目录下3、向每个节点发送server jar4、向每个节点发送client jar5、在root权限下给/etc/profile 下添加如下内容6、启动Zookee...

  • 回答 1

    安装和配置Phoenix把下载好的安装包放入software目录下解压Phoenix到opt目录下[root@hadoop100 software]# tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt进入Phoenix的bin目录下把phoenix-4.14.0-cdh5.14.2-server.jar包复制到hbase目...

  • 回答 7

    phoenix是构建的Hbase之上的,使用标准的SQL操作Hbase,可以做联机事务处理,拥有低延迟的特性。phoenix会把SQL编译成一系列的Hbase的scan操作,然后把scan结果生成标准的JDBC结果集,其底层由于使用了Hbase的API,协处理器,过滤器,处理千万级行的数据也只...

  • 回答 3

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。...

  • 回答 2

    想考计算机相关证书或者想学技术的同学可以抓紧时间啦!双11更多优惠活动详情咨询18597153017(微信同号)

  • 回答 2

    一、Selector(选择器)Selector概述Selector(选择器)可以工作在复制或多路复用(路由) 模式下 。复制模式Selector复制模式-属性说明selector.type replicating 类型名称,默认是 replicatingselector.optional – 标志通道为可选Selector复制模式-案例 #命...

  • 回答 2

    (1)电子商务网站比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信...

  • 回答 4

    HBase是一个构建在HDFS之上的、分布式的、支持多版本的NoSQL数据库,它的出现补齐了大数据场景下快速查询数据能力的短板。它非常适用于对平台中的热数据进行存储并提供查询功能。...

  • 回答 4

    HBase数据结构运行原理

  • 回答 6

    传统数据库存储B树 B+树 B-树传统关系型数据普通索引就是采用B+树的方式B+树最大的性能问题是会产生大量的随机IO,随着新数据的插入,叶子节点会慢慢分裂,逻辑上连续的叶子节点在物理上往往不连续,甚至分离的很远,但做范围查询时,会产生大量读随机IO;Hba...

  • 回答 7

    对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵,蚂蚁的风控就是...

  • 回答 4

    Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件、socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现。Flume...

没有解决我的问题,去提问