大数据的工作流程？_大数据

10条回答

苏楠 - 世界的没好好与你环环相扣

2楼 · 2021-06-02 09:29

数据处理需要有三个基本的环节和五个方面的工作。首先要有“数据采集”的方法和途径（采集）；其次要用符合教育原理的数据处理方法（建模）；另外，还要有“数据还原现象”综合方法（还原）。其中，还有“数据清理”、“数据汇聚”等技术处理工作。

一个Ai

3楼 · 2021-06-04 15:12

获取，清理，探索，模型，解释

爱学习的小巴

4楼 · 2021-06-07 10:06

第一步就是数据采集，搭建数据仓库，数据采集就是把数据通过前端埋点，接口日志调用流数据，数据库抓取，客户自己上传数据，把这些信息基础数据把各种维度保存起来（不要感觉有的数据没用，有功能就行，就放弃一些数据的采集，如果你有这种情况，感觉把数据补齐，不然一定会被老大训）。

第二步：数据到手了，里边肯定会有一些不好的数据，我们需要把收集到的数据简单处理一下，比如把IP转换成地址，过滤掉脏数据等。

第三步：有了数据之后就可以对数据进行加工处理，数据处理的方式很多，总体分为离线处理，实时处理，离线处理就是每天定时处理，常用的有阿里的maxComputerhive，MapReduce，离线处理主要用storm，spark，hadoop，通过一些数据处理框架，可以把数据计算成各种KPI，在这里需要注意一下，不要只想着功能，主要是把各种数据维度建起来，基本数据做全，还要可复用，后期就可以把各种kpi随意组合展示出来。

第四步：数据加工处理好了，就要可视化展现出来，做到MVP，就是快速做出来一个效果，不合适及时调整，这点有点类似于Scrum敏捷开发，数据展示的可以用datav，神策等，前端好的可以忽略，自己来画页面。

安之

5楼 · 2021-06-07 10:12

处理大数据的四个环节：

收集：原始数据种类多样，格式、位置、存储、时效性等迥异。数据收集从异构数据源中收集数据并转换成相应的格式方便处理。
存储：收集好的数据需要根据成本、格式、查询、业务逻辑等需求，存放在合适的存储中，方便进一步的分析。
变形：原始数据需要变形与增强之后才适合分析，比如网页日志中把IP地址替换成省市、传感器数据的纠错、用户行为统计等。
分析：通过整理好的数据分析what happened、why it happened、what is happening和what will happen，帮助企业决策

猫的想法不敢猜

6楼 · 2021-08-08 17:03

高效的工作流应该做到这一点-流程化-将我们从项目的每个阶段无缝地引导到下一个阶段，优化任务管理，并最终指导我们从业务问题到解决方案再到价值。随着数据泛滥的持续减少，企业正在淹没数据，但却渴望获得洞察力。这使得雇用大数据分析团队至关重要。但是，由什么构成大数据分析团队?大数据分析工作流程的最佳实践是什么?大数据分析家需要什么才能最大程度地执行?

大数据分析

　　尽管没有解决大数据分析问题的模板，但OSEMN(获取，清理，探索，模型，解释)大数据分析管道是一个很好的起点，该管道是大数据分析家Hilary Mason和Chris Wiggins在2010年引入的流行框架。大多数大数据分析工作流都是OSEMN步骤序列的变体，具有基于相同既定原理的基本流程，并且其共同目标是使组织的其他部门能够做出更好的，由数据驱动的决策。大数据分析工作流的功能完全取决于手头的业务目标和任务。

　　改善大数据分析工作流程中最重要的步骤是开发针对团队特定需求的最佳实践。为此，您需要考虑以下大数据分析工作流程最佳实践。

　　‍

　　大数据分析作为一项团队运动

　　大数据分析家最初的印象是一个人可以神奇地做所有事情。出于明显的原因，这不是一个好主意。大数据分析涵盖了广泛的学科和角色，包括编程工程师，机器学习工程师，系统架构师，数据库管理员，商业智能分析师，IT工程师等等。建筑大数据分析团队应包括专门研究不同领域的人员。有效的团队工作流程始于确定团队所需的专业知识类型，并明确定义团队中的角色。

大数据分析工作流程是什么

　　如果要构建原型，则可能不需要系统架构师。如果您正在处理较小的项目，则可能不需要数据库管理员。生产工程师将最适合面向客户的服务。并且一些具有学术经验的团队成员将主要进行不一定旨在产生产品销售的研究。大数据分析团队的各种角色取决于您的业务目标和任务。大数据分析家不是一个单人乐队，并且经常被高估。让所有这些专家共同努力，朝着一个共同的目标迈进，比让几个人自己做一切都可以帮助您进一步发展。

　　识别业务问题

　　您在回答什么问题，业务目标是什么?大数据分析家工作效率的主要组成部分是将大问题分解为更小的部分，并真正专注于您要解决的业务成果的能力，而不是为了研究而进行研究。最终，大数据分析团队的存在是为了改善业务流程，增加收入并降低成本。提出正确问题并实际解决实际业务问题的能力决定了您的成功。确定摘要为您希望团队完成的工作设定了议程。谁是您的最终用户?他们有什么问题?您优先考虑的是准确性，速度或可解释性?

　　‍

　　拥抱开源和云计算

　　得益于开源数据分析解决方案和云计算，与早期大数据分析工作流程相关的成本过高方面已得到有效消除。开源已经发展成为大数据分析家的主要工具来源。就概念访问而言，您无需构建自己的数据中心。如果要使用各种不同的工具，现在可以选择进行测试并根据需要订阅。云计算提供了大量可以按小时租用的硬件。

　　使用开放源代码库通常也没有明确的成本，因为开放源代码库提供了令人难以置信的资源和灵活性。与专有软件不同，可以修改开源项目以适合您的需求。在现有项目上进行构建无需再从头开始，从而节省了大量时间和金钱。没有任何实际许可成本的情况下，转换成本也应更低。通过将开源与云计算相结合，您可以评估要使用的内容，创建原型，对其进行一段时间的测试，确定不起作用的内容，然后尝试其他操作，而这些操作的成本都大大降低了。

　　‍

　　建立正确的大数据分析工作流工具包

　　大数据分析家的大部分时间都花在了解业务问题和传达结果上。以清晰有效的方式记录和传达您的发现可能是科学过程中最具挑战性的步骤之一。自动化此过程对于良好的大数据分析工作流程和您的理智至关重要。一些有用的大数据分析工作流程工具包括：

　　Jupyter的大数据分析工作流程

　　Jupyter Notebook是一个开放源码的大数据分析前端，用于捕获数据准备过程，由包含实时代码，方程式，可视化效果和解释性文本的笔记本组成。无论您使用的是笔记本电脑，服务器还是云提供商，Jupyter Notebook都可以正常工作。笔记本方面指的是您的代码和结果位于同一窗口中的事实。作为交流和互动探索的一种方式，Jupyter Notebooks具有非常理想的接口属性集，您可以在其中一次添加一点点代码，查看结果，在数据源和结论上给自己写相应的注释，然后将这些文件发送给其他人。为了使这些笔记本能够正常工作，您需要数据以及用于重现此数据的所有依赖项，而这正是docker容器的所在。

　　使用Docker容器的大数据分析工作流

　　借助Docker，您可以将所有代码以及运行代码所需的一切打包在标准化，隔离的软件容器中，这些容器可以传入并在任何环境中工作。　
　‍

　　使用RAPIDS的大数据分析工作流程

　　RAPIDS是在NVIDIA GPU平台上部署的GPU加速的机器学习和数据分析库的开源套件。对于需要解决大规模问题，需要毫秒级响应时间或执行大量重复计算的团队而言，RAPIDS是理想的选择。

　　Amazon Web Services的大数据分析工作流

　　Amazon Web Services提供了一套非常适合于机器学习工作流程的大数据分析工具。通过启用数据收集和转换来协调和自动化机器学习任务的序列。使用Amazon Athena在AWS Glue中执行查询，聚合和准备数据，在Amazon SageMaker上执行模型培训，然后将模型部署到生产环境。大数据分析工作流可以在数据工程师和大数据分析家之间共享。

　　机器学习和网络

　　机器学习和人工智能，通常可互换用于商业目的，是解决需要准确答案而不必要求可解释答案的商业问题的理想选择。例如，在乘车共享应用程序中，如果您只是想预测在城市的给定部分中将要有多少用户，或者需要多少辆车，那么您不必在乎为什么- -您只想获得最准确的数字。

大数据分析工作流程是什么

　　本着开源的精神，用于自动化机器学习和深度学习工作流程的最佳资源是其他大数据分析家。与其他大数据分析家建立网络，阅读他们正在发布的内容，评估其他要素工程项目以及如何解决这些问题，查看其他人在做什么，尝试对其进行改进和调整其技术要比依靠任何一个人都要有效得多。书籍，工具，博客文章(!)或个人，以改善您的机器学习工作流程。

　　‍

　　效率-不一定更好

　　试图追赶最新事物可能会损害您的大数据分析工作流程效率。

　　‍

　　大多数大数据分析项目不需要先进的方法。花太多时间担心最前沿的问题，而不是做一些众所周知的事情(可能会为您带来99%的结果)，可能会使您陷入无休止的研究周期，而没有明确的解决方案。在大多数业务案例中，完成更多的工作要比追赶准确性的最后2%更好。

　　‍

　　重现性

　　可再现性是一个非常重要的问题，但也很难证明。可重复性的总体目标是说：这是我使用的数据，这是我使用的代码，如果您执行相同的操作，您将获得相同的正确答案。在大数据分析领域中，可重复性仍然存在重大挑战。即使您可以对所编写的代码使用版本控制，也不必一定写下所拥有的每个库依赖关系，您使用的开源库也可能会发生变化。在进行大规模数据分析时，进行版本控制也非常困难。缺少用于复制这些庞大数据集的基础结构的结果导致了一个易于更改的单一副本。

　　最安全的做法是使用Git版本控制，记下您正在使用的所有软件包，对所有代码进行版本控制，至少，您可以遵循创建者的想法，并希望您可以拥有一份副本。数据集。

　　‍

　　Python和R?

　　大数据分析工作流的最佳语言是……这取决于。R和Python是高级语言，它们在大数据分析项目中均具有优势。用于R和Python的软件包通常在较低的一层，其中以非常快速的语言(例如C ++和Fortran)完成计算。差异往往在于应用程序。R更像是一种学术性的，基于研究的统计学家的语言，而Python更适合于科学研究，大数据分析，建筑应用程序和生产工程。Python对于大数据分析工作流可能是更可取的，因为通常认为Python速度更快，数据处理更好，并且本质上是面向对象的。R可能较难学习，但通常认为它适合进行临时分析。R中的大数据分析工作流程和Python中的大数据分析工作流程都有优点。

　　‍

　　大数据分析工作流程的OmniSci优势

　　OmniSci建立在GPU加速的基础上，从一开始就瞄准其分析平台的极高性能，而Immerse正是出于这种痴迷。Immerse为您提供的功能是，您可以查看比以往更大的数据并将其可视化，不仅可以在GPU上执行计算，还可以渲染图形。就您可以解决的问题规模而言，尤其是围绕地理空间数据而言，OmniSci在那里具有优势，因为所有硬件都已充分利用其全部功能，无论是数学，图片还是整个频谱。

大数据分析工作流程是什么

　　从数据中获得洞察力的愿望没有丝毫放缓的迹象。随着对大数据分析家的需求以惊人的速度增长，支持您的大数据分析团队和开发可靠的大数据分析工作流程的重要性也越来越重要。大数据分析是一门艺术，拥有一支装备精良，充满灵感的团队，任何项目都可以转化为有价值的，引人入胜的故事。

寂静的枫林

7楼 · 2021-08-09 10:51

数据处理的第一个步骤就是数据抽取与集成。这是因为大数据处理的数据来源类型丰富，大数据处理的第一步是对数据进行抽取和集成，从中提取出关系和实体，经过关联和聚合等操作，按照统一定义的格式对数据进行存储。现有的数据抽取和集成方法有三种，分别是基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎。这些引擎都是很重要的。

大数据处理的第二个步骤就是数据分析。数据分析是大数据处理流程的核心步骤，通过数据抽取和集成环节，我们已经从异构的数据源中获得了用于大数据处理的原始数据，用户可以根据自己的需求对这些数据进行分析处理，比如数据挖掘、机器学习、数据统计等，数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。通过数据分析我们能够掌握数据中的信息。

大数据处理的第三个步骤就是数据解释。大数据处理流程中用户最关心的是数据处理的结果，正确的数据处理结果只有通过合适的展示方式才能被终端用户正确理解，因此数据处理结果的展示非常重要，可视化和人机交互是数据解释的主要技术。这个步骤能够让我们知道我们分析数据的结果。

我的网名不再改

8楼 · 2021-08-25 13:25

大数据的数据来源广泛，应用需求和数据类型都不尽相同，但是最基本的处理流程是一致的。

整个大数据的处理流程可以定义为，在合适工具的辅助下，对广泛异构的数据源进行抽取和集成，将结果按照一定的标准进行统一存储，然后利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识，并利用恰当的方式将结果展现给终端用户。

具体来讲，大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释等步骤。

数据抽取与集成

大数据的一个重要特点就是多样性，这就意味着数据来源极其广泛，数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。

要想处理大数据，首先必须对所需数据源的数据进行抽取和集成，从中提取出数据的实体和关系，经过关联和聚合之后采用统一定义的结构来存储这些数据。

在数据集成和提取时，需要对数据进行清洗，保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系，大数据时代的数据往往是先有数据再有模式，并且模式是在不断的动态演化之中的。

数据抽取和集成技术并不是一项全新的技术，在传统数据库领域此问题就已经得到了比较成熟的研究。随着新的数据源的涌现，数据集成方法也在不断的发展之中。

从数据集成模型来看，现有的数据抽取与集成方式可以大致分为 4 种类型：基于物化或 ETL 方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎，以及基于搜索引擎的方法。

数据分析

数据分析是整个大数据处理流程的核心，大数据的价值产生于分析过程。

从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。

小数据时代的分析技术，如统计分析、数据挖掘和机器学习等，并不能适应大数据时代数据分析的需求，必须做出调整。大数据时代的数据分析技术面临着一些新的挑战,主要有以下几点。

1）数据量大并不一定意味着数据价值的增加，相反这往往意味着数据噪音的增多。

因此,在数据分析之前必须进行数据清洗等预处理工作，但是预处理如此大量的数据，对于计算资源和处理算法来讲都是非常严峻的考验。

2）大数据时代的算法需要进行调整。

首先，大数据的应用常常具有实时性的特点，算法的准确率不再是大数据应用的最主要指标。

在很多场景中，算法需要在处理的实时性和准确率之间取得一个平衡。其次，分布式并发计算系统是进行大数据处理的有力工具，这就要求很多算法必须做出调整以适应分布式并发的计算框架，算法需要变得具有可扩展性。

许多传统的数据挖掘算法都是线性执行的，面对海量的数据很难在合理的时间内获取所需的结果。因此需要重新把这些算法实现成可以并发执行的算法，以便完成对大数据的处理。

最后，在选择算法处理大数据时必须谨慎，当数据量增长到一定规模以后，可以从小量数据中挖掘出有效信息的算法并一定适用于大数据。

3）数据结果的衡量标准。

对大数据进行分析比较困难，但是对大数据分析结果好坏的衡量却是大数据时代数据分析面临的更大挑战。

大数据时代的数据量大，类型混杂，产生速度快，进行分析的时候往往对整个数据的分布特点掌握得不太清楚，从而会导致在设计衡量的方法和指标的时候遇到许多困难。

数据解释

数据分析是大数据处理的核心，但是用户往往更关心对结果的解释。如果分析的结果正确，但是没有采用适当的方法进行解释，则所得到的结果很可能让用户难以理解，极端情况下甚至会引起用户的误解。

数据解释的方法很多，比较传统的解释方式就是以文本形式输出结果或者直接在电脑终端上显示结果。这些方法在面对小数据量时是一种可行的选择。

但是大数据时代的数据分析结果往往也是海量的，同时结果之间的关联关系极其复杂，采用传统的简单解释方法几乎是不可行的。

解释大数据分析结果时，可以考虑从以下两个方面提升数据解释能力。

1）引入可视化技术。

可视化作为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。

该方法通过将分析结果以可视化的方式向用户展示，可以使用户更易理解和接受。常见的可视化技术有标签云、历史流、空间信息流等。

2）让用户能够在一定程度上了解和参与具体的分析过程。

这方面既可以采用人机交互技术，利用交互式的数据分析过程来引导用户逐步地进行分析，使得用户在得到结果的同时更好地理解分析结果的过程，也可以采用数据溯源技术追溯整个数据分析的过程，帮助用户理解结果。

py大白

9楼 · 2021-09-01 10:21

采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

统计/分析

回答: 2021-10-18 08:54

1、数据生产
2、数据收集
3、数据存储
4、需求分析
5、数据预处理
6、数据计算
7、结果数据存储
8、结果数据展示

1 2 下一页