数据采集应该如何去做

2021-07-22 10:03发布

25条回答
三岁奶猫
2楼 · 2021-07-22 13:17

数据采集要求及相关规定为使绩效管理有效、有序地贯彻并执行,需保证关键绩效指标统计数据的公平性、真实性。

靓猴一枚
3楼 · 2021-07-23 10:05

可以使用前嗅ForeSpider数据采集系统,有很多python解决不了的网站,ForeSpider都可以采集的,功能还是很强大的。

1.可视化+脚本

除了可视化的配置外,有自带的脚本语言,对于通用性采集软件来说,能够百分百都能采集是很理想的。

2.自带免费数据库,同步存储数据

可以在采集的同时,进行数据挖掘和分析。挖掘结果和采集同步,存入数据库。软件自带免费数据库,可以免安装免配置使用。

3.企业级数据采集软件

面向企业级的软件,对于多任务管理、采集策略等是面向大规模数据采集而设计。

4.超快采集速度

采集速度在笔记本上可以达到400万条每天,服务器可以达到4000-8000万每天。

我们还有免费的使用版本,使用版本不限功能,采集数量每天上限1000条。


数据采集的方式分别两种,一种是埋点,一种是无埋点

爱梦 - 拿来吧你
5楼 · 2021-07-27 09:56

采集数据主要有两个方向,一是自己编爬虫程序去采集,二是使用别人政府或者企业公司等公开的数据。

1. 编爬虫程序去采集数据(比较有针对性,比较适合我们的需求就是我想要什么数据就采集什么数据,可以使用Python爬虫去采集,不是很难。但有一点就像楼主说的一样,有点麻烦。)

2.使用公开的数据(针对性不强,可能公开的数据样本不符合我们的需求,这样就不利于工作的开展了,但特点就是方便)

常见的数据采集工具有:

八爪鱼采集器

这是一个非常不错的国产网络爬虫软件,目前仅支持Windows平台,个人使用完全免费,只需简单创建任务,设置字段,就可采集大部分网页数据,内置了大量数据采集模板,可以轻松爬取天猫、京东、淘宝、大众点评等热门网站,官方自带有非常详细的入门教学文档和示例,非常适合初学者学习和掌握

后羿采集器

这是一个非常智能的网络爬虫软件,完美兼容3大操作平台,个人使用完全免费,基于人工智能技术,可以轻松识别网页中的数据,包括列表、链接、图片等,支持自动翻页和数据导出功能,对于小白使用来说,非常不错,当然,官方也自带有非常丰富的入门教程,可以帮助初学者更好的掌握和使用

火车采集器

这是一个功能强大的网络爬虫软件,在业界非常流行,也非常受欢迎,集成了数据从采集、处理、分析到挖掘的全过程,可以灵活抓取网络上任意散乱的数据(规则设置非常智能),并通过一系列准确的分析得到有价值的结果,官方自带有非常详细的使用文档和教程,初学者学习的话,很容易掌握


安之
6楼 · 2021-07-27 15:22

分析数据前没有明确的目的

其实这点问题大家应该都有存在,就拿我自己说,每天打开网站我都会在第一时间site一下自己的网站,接着就会看一下网站的各项数据,比如IP来源、用户跳出率等,但这些都是些表面的工作,因为之前在A5上看文章,说一个成功的站长应该具有超强的数据分析能力,所以我才增加了数据查看这一个步骤,但说实话这个步骤对我来说并没有什么实质性的帮助,就像高中时老师让我们经常看“错题集”一样,我们知道这是好学生的标准,但当自己真的去看“错题集”的时候,未免会流于形式,趋于面子工程,看了和没看一样,所以既然站长每天都要查看数据了,不如有个目标,比如今天我分析一下用户地区分布怎样,然后因地制宜,加强那个地区的网上影响力等等,做一些真正有益的事情,不让自己看到数据只是一味的自怨自艾。

  • 没有提高时间利用率

    大家可能觉得我在扯淡,数据分析怎么会和时间利用率扯上关系,其实并不是这样,做什么事情都要讲究个效率,当大家以为数据分析就是想起什么就做什么的话,那就大错特错了,数据分析掌握一定的步骤,不仅可以节省自己的时间去做网站其他的动作,也可以让自己的分析结果变得更加准确,有说明力。一般情况下,我分析数据会遵循收集数据>>整理数据>>分析数据>>美化表格这几个步骤,因为这几个步骤可以让我的数据得到一个从表面到深层次的过度,打个比方,比如我看到今天的百度贡献IP是2000个,那么我就要总结一下其他的搜索引擎的IP站点数目,然后分析一下贡献率的不同,最后在进行优化的时候着重处理,使得数据不再是单纯的数字,至少为我的网站建设贡献一份力量,所以从这个角度上说,我们在进行数据分析的时候,一定要要预估一下每一个步骤需要花多少时间,哪一步比较重要,需要花更多的时间等,做到有重点的分析。

  • 只收集不分析,数据的作用没被挖掘出来

    这点就算是自我批评了,因为就我而言,我经常犯的一个错误就是,数据收集和分析的处理不得当,很多时候我花费在数据收集的环节时间过多,以至于自己手里的数据往往因为时间的不充足而得不到有效地分析,就像自己之前用了1个星期做用户回头率分析,结果最后因为网站改版直接影响到权重,用户点击率直线下降,数据也不具有说明了说明力了。还有一个原因就是自己总觉得以后的时间长着呢,数据先收集着,以后再做分析,就是这样拖拉的心态才使得自己的数据没有丝毫用处,仅仅是空架子而已。所以从这点说,数据分析重点应该在于分析,应该以最快的速度收集完数据,才有更多的时间整理和分析,最后经过分析的数据才是最有价值的。

  • 收集数据“贪婪”,无法进行数据的整理导出

    这也是大家的通病,很多时候我们收集数据总会落入大、杂的误区,不管什么内容通通收录帐下,这样长久以来就会让网站表格里的内容越来越多,上次我做表格的时候,数据直接填到了最后一页,让我看的自己都晕了,还怎么谈数据的分析和总结呢?所以站长在进行数据分析的时候,一定要做到有的放矢,不能照单全收,收集数据的时候就应该先过滤一下,什么数据对于网站有帮助,什么数据只是参考价值,做到心里有数,这样可以减少工作量,也能让日后的分析过程变得轻松一点。

     


  • 不能用数据进行有效地“举一反三”

    很多时候我们应该透过表面看本质,看到自己的用户跳出率很高,那么我们就要对用户IP来源、用户主要分布地区、用户回头率等进行一系列的分析,然后再做一个表格进行有效地整理,而不是看着用户跳出率这一个表单而“黯然神伤”,毕竟一个数据不能说明问题,只能显现问题,所以我们要分析排名前十的某类网站,那就要知道这个行业什么样的网站才是最好的,最好的行业网站应该具备什么条件,把这些条件列出来,然后根据条件去收集网站的数据,最后满足所有条件的网站就是最好的行业网站之一了。

  • EXCEL不美观,不清晰

    通常情况下,我们做数据分析的时候会采用excel表格记录,而一份美观清晰的表格不仅使我们可以清楚的看到这份数据的重点,方便查到所想要的数据,还能让我们静下心来分析数据,试想一个标满数据、红线的表格怎么会让我们在第一时间找到自己想知道的事情呢?所以从这个角度上讲,站长应该多联系一下excel,多出一份漂亮的数据分析,不仅可以让自己快速找到网站存在的毛病,还能让自己看的舒服点,一举两得。

  • 还是执行力的问题

    这点就算我提一百遍,还是有很多站长不以为然,因为即使我们不分析数据,网站还是会运转,并不会因为我们分析数据而使网站发展更加顺利,同样不去分析数据也不会给网站带来直接的弊端,更重要的是站长每天都有很多其他工作需要做,数据分析说实话很费时间,所以基于数据分析没有即时利益,很多站长放弃了,对于这个我不想多说什么,我只打一个比喻,你处于一个高污染的环境,你觉得是一天做一个检查安全呢,还是一年做一次检查安全呢?有些“毛病”还是及早发现比较好,你觉得呢?!


小太阳的杨杨杨
7楼 · 2021-08-02 09:52

我的思路是这样的:1、比如你的原始数据存放在DB2.DBD0里面,每个周期累加这个原始数据,并保存到DB2.DBD4里面;2、同时对累加次数计数,计数结果存放在DB2.DBD8里面;3、等1s循环时间中断OB3x事件到来时,在这个OB3x里面,用DB2.DBD4除以DB2.DBD8,这个平均值放入DB2.DBD12里面(这就是你需要的1s后数据采集的平均值);4、然后在OB3x里面清空累计数据、累计次数。呵呵......周而复始如此这般执行,应该能满足楼主的要求!按照上面的思路写了点代码给楼主参考

具体看采集什么数据吧;

比如说采集部门员工的体温数据,可以生成线上文档进行采集,或者线下采集;

表头可以设计为“时间(最好精确到分)-部门-姓名-体温”

寂静的枫林
9楼 · 2021-08-06 20:10

数据汇聚就是使得各种异构网络、异构数据源的数据,方便统一采集到数据中台进行集中存储,为后续的加工建模做准备。

相关问题推荐

  • 什么是大数据时代?2021-01-13 21:23
    回答 100

    大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,而这个海量数据的时代则被称为大数据时代。随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结...

  • 回答 84

    Java和大数据的关系:Java是计算机的一门编程语言;可以用来做很多工作,大数据开发属于其中一种;大数据属于互联网方向,就像现在建立在大数据基础上的AI方向一样,他两不是一个同类,但是属于包含和被包含的关系;Java可以用来做大数据工作,大数据开发或者...

  • 回答 52
    已采纳

    学完大数据可以从事很多工作,比如说:hadoop 研发工程师、大数据研发工程师、大数据分析工程师、数据库工程师、hadoop运维工程师、大数据运维工程师、java大数据工程师、spark工程师等等都是我们可以从事的工作岗位!不同的岗位,所具备的技术知识也是不一样...

  • 回答 29

    简言之,大数据是指大数据集,这些数据集经过计算分析可以用于揭示某个方面相关的模式和趋势。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。大数据的特点:数据量大、数据种类多、 要求实时性强、数据所蕴藏的...

  • 回答 14

    tail -f的时候,发现一个奇怪的现象,首先 我在一个窗口中 tail -f test.txt 然后在另一个窗口中用vim编辑这个文件,增加了几行字符,并保存,这个时候发现第一个窗口中并没有变化,没有将最新的内容显示出来。tail -F,重复上面的实验过程, 发现这次有变化了...

  • 回答 18

    您好针对您的问题,做出以下回答,希望有所帮助!1、大数据行业还是有非常大的人才需求的,对于就业也有不同的岗位可选,比如大数据工程师,大数据运维,大数据架构师,大数据分析师等等,就业难就难在能否找到适合的工作,能否与你的能力和就业预期匹配。2、...

  • 回答 17

    最小的基本单位是Byte应该没多少人不知道吧,下面先按顺序给出所有单位:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,按照进率1024(2的十次方)计算:1Byte = 8 Bit1 KB = 1,024 Bytes 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576...

  • 回答 33

    大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新...

  • 回答 5

    MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL的版本:针对不同的用户,MySQL分为两种不同的版本:MySQL Community Server社区版本,免费,但是Mysql不提供...

  • mysql安装步骤mysql 2022-05-07 18:01
    回答 2

    mysql安装需要先使用yum安装mysql数据库的软件包 ;然后启动数据库服务并运行mysql_secure_installation去除安全隐患,最后登录数据库,便可完成安装

  • 回答 5

    1.查看所有数据库showdatabases;2.查看当前使用的数据库selectdatabase();3.查看数据库使用端口showvariableslike'port';4.查看数据库编码showvariableslike‘%char%’;character_set_client 为客户端编码方式; character_set_connection 为建立连接...

  • 回答 5

    CREATE TABLE IF NOT EXISTS `runoob_tbl`(    `runoob_id` INT UNSIGNED AUTO_INCREMENT,    `runoob_title` VARCHAR(100) NOT NULL,    `runoob_author` VARCHAR(40) NOT NULL,    `submission_date` DATE,    PRI...

  • 回答 9

    学习多久,我觉得看你基础情况。1、如果原来什么语言也没有学过,也没有基础,那我觉得最基础的要先选择一种语言来学习,是VB,C..,pascal,看个人的喜好,一般情况下,选择C语言来学习。2、如果是有过语言的学习,我看应该一个星期差不多,因为语言的理念互通...

  • 回答 7

    添加语句 INSERT插入语句:INSERT INTO 表名 VALUES (‘xx’,‘xx’)不指定插入的列INSERT INTO table_name VALUES (值1, 值2,…)指定插入的列INSERT INTO table_name (列1, 列2,…) VALUES (值1, 值2,…)查询插入语句: INSERT INTO 插入表 SELECT * FROM 查...

  • 回答 5

    看你什么岗位吧。如果是后端,只会CRUD。应该是可以找到实习的,不过公司应该不会太好。如果是数据库开发岗位,那这应该是不会找到的。

  • 回答 7

    查找数据列 SELECT column1, column2, … FROM table_name; SELECT column_name(s) FROM table_name 

没有解决我的问题,去提问