大数据里边也要学习机器学习吗?

2020-05-21 14:51发布

4条回答

1、大数据定义

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据是一个笼统的概念暂未发现和准确的定义。

2、机器学习定义

从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法

首先,我们需要在计算机中存储历史的数据。接着,我们将这些 数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。对新数据 的预测过程在机器学习中叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导 “预测”

人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。

机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应,我们可以发现,机器学习的思想并不复杂,仅仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论

这也可以联想到人类为什么要学习历史,历史实际上是人类过往经验的总结。有句话说得很好,“历史往往不一样,但历史总是惊人的相似”。通过学习历史,我们从历史中归纳出人生与国家的规律,从而指导我们的下一步工作,这是具有莫大价值的。当代一些人忽视了历史的本来价值,而是把其作为一种宣扬功绩的手段,这其实是对历史真实价值的一种误用。

3、机器学习范围

机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深的联系。

从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时,可以等同于说机器学习。同时,我们平常所说的机器学习应用,应该是通用的,不仅仅局限在结构化数据,还有图像,音频等应用。

(1)模式识别

模式识别=机器学习。两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。在著名的《Pattern Recognition And Machine Learning》这本书中,Christopher M. Bishop在开头是这样说的“模式识别源自工业界,而机器学习来自于计算机学科。不过,它们中的活动可以被视为同一个领域的两个方面,同时在过去的10年间,它们都有了长足的发展”。

(2)数据挖掘

数据挖掘=机器学习+数据库。这几年数据挖掘的概念实在是太耳熟能详。几乎等同于炒作。但凡说数据挖掘都会吹嘘数据挖掘如何如何,例如从数据中挖出金子,以及将废弃的数据转化为价值等等。但是,我尽管可能会挖出金子,但我也可能挖的是“石头”啊。这个说法的意思是,数据挖掘仅仅是一种思考方式,告诉我们应该尝试从数据中挖掘出知识,但不是每个数据都能挖掘出金子的,所以不要神话它。一个系统绝对不会因为上了一个数据挖掘模块就变得无所不能(这是IBM最喜欢吹嘘的),恰恰相反,一个拥有数据挖掘思维的人员才是关键,而且他还必须对数据有深刻的认识,这样才可能从数据中导出模式指引业务的改善。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。

(3)统计学习

统计学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向量机算法,就是源自统计学科。但是在某种程度上两者是有分别的,这个分别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。

(4)计算机视觉

计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多,例如百度识图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常火热的,同时也是研究的热门方向。随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果,因此未来计算机视觉界的发展前景不可估量。

(5)语音识别

语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。

(6)自然语言处理

自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习等技术。作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。按照百度机器学习专家余凯的说法“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”。如何利用机器学习技术进行自然语言的的深度理解,一直是工业和学术界关注的焦点。

4、两者关系

(1)互相促进,相依相存

大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据会越 可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。因此,机器学习的兴盛也离不开大数据的帮助。 大数据与机器学习两者是互相促进,相依相存的关系。

(2)机器学习≠大数据

必须清醒的认识到,大数据并不等同于机器学习,同理,机器学习也不等同于大数据。大数据中包含有分布式计算,内存数据库,多维分析等等多种技术。单从分析方法来看,大数据也包含以下四种分析方法:

1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。

2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。

3.流式分析:这个主要指的是事件驱动架构。

4.查询分析:经典代表是NoSQL数据库。

也就是说,机器学习仅仅是大数据分析中的一种而已。尽管机器学习的一些结果具有很大的魔力,在某种场合下是大数据价值最好的说明。但这并不代表机器学习是大数据下的唯一的分析方法。

十一郎
3楼 · 2020-05-21 17:06

机器学习属于深度学习,如果你有兴趣,喜欢挑战,可以好好学学,如果没兴趣,那么学完大数据生态圈就可以开始工作了。

三岁奶猫
4楼 · 2021-12-17 13:25

大数据的整体技术体系结构紧紧围绕数据价值化来展开,而数据价值化的出口又依赖于两个核心的环节,一个是数据分析,一个是数据应用。数据分析当前有两种主要的分析方式,一种是统计学方式,另一种就是机器学习方式,所以学习大数据分析,一定要重视机器学习,而且机器学习未来在数据分析领域的应用会有巨大的空间。



老易
5楼 · 2021-12-24 14:45

大数据就是许多数据的聚合;

数据挖掘就是把这些数据的价值发掘出来,比如说你有过去10年的气象数据,通过数据挖掘,你几乎可以预测明天的天气是怎么样的,有较大概率是正确的;
机器学习嘛说到底它是人工智能的核心啦,你要对大数据进行发掘,靠你人工肯定是做不来的,那就得靠机器,你通过一个模型,让计算机按照你的模型去执行,那就是机器学习啦。

相关问题推荐

  • 回答 15

    也不难学,但是要有JAVA的基础

  • 回答 13

    这个要看你在哪个城市就业了,一般来说适合大数据就业的城市不多,一线城市北上广深,甚至在成都找大数据方向的工作都不太好找。如果你学了大数据,刚好也在比较热门的城市,大数据薪资至少也得上万吧。...

  • 回答 5

    自学的话就走很多弯路,需要花费大量时间。如果时间充足可以自学。

  • 回答 7

    人工智能当前有六大研究领域,涉及到计算机视觉、自然语言处理、机器学习、自动推理、知识表示和机器人学,初学者应该选择一个主攻方向,并围绕这个主攻方向来制定学习计划。对于初学者来说,可以从机器学习开始学起,一方面机器学习是打开人工智能知识大门的...

  • 回答 4

    机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着关系

  • 机器学习是啥呢?2020-06-10 10:29
    回答 4

    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的...

  • 回答 4

    先来看一下机器学习的概念,我们提供给电脑样例数据,电脑通过一定的模型自己学习出相应的规则,并且这些规则可以随着数据的输入不断调整。而深度学习,则是一种十分有效的机器学习方法。现在的深度学习主要指的是深度神经网络。神经网络形式上就是一个分层的...

  • 回答 4

    行业里其实都有参合一起用,但是java用的比较多!

  • 回答 0

  • 回答 2

    特征缩放(feature scaling)是预处理阶段的关键步骤,但常常被遗忘。虽然存在决策树和随机森林这种是少数不需要特征缩放的机器学习算法,但对于大部分机器学习算法和优化算法来说,如果特征都在同一范围内,会获得更好的结果。比如梯度下降法。特征缩放的重要...

  • 回答 4

    机器学习【一】K最近邻算法涉及内容:分类——————数据集生成器、KNN拟合数据多元分类————生成数据集、KNN拟合回归分析————用于回归分析的数据集生成器、KNN拟合、调整近邻数KNN实战—酒的分类————数据集有哪些键、生成训练集和测试集、KNN拟...

  • 回答 3

    java 的优势就是 运行速度快(相比 pure python),python 的优势就是 库多,写起来代码量少

  • 回答 3

    微积分、线性代数、概率论、最优化方法

没有解决我的问题,去提问