快速入门网络爬虫系列 Chapter10 | 数据结构化存储

2020-10-30 14:46发布生成海报

站内文章 / 网络爬虫

662 0

一、结构化过程

1、非结构化数据

“《互联网大数据处理技术与应用》一书是由曾剑平编著，并由清华大学出版社于2017年出版。”
“ 清华大学出版社成立于1980年6月，是由教育部主管、清华大学主办的综合出版单位。”

2、半结构化数据

(书名：互联网大数据处理技术与应用；作者：曾剑平；出版社：清华大学出版社；出版日期：2017)
(出版社：清华大学出版社；成立时间：198006；主管单位：教育部；主办单位：清华大学)

3、结构化数据

二、怎样数据结构化

1、明确数据需求

需要抽取什么数据
存放成什么格式
怎么存

2、选择数据结构

半结构化：XML、JSON
结构化：数据库

3、怎么存

文件：单独还是一起存放，如何发展数据关系
数据库：数据库设计

三、半数据化结构

3.1、JSON

API常用格式
数据结构简单
有Python Json库支持
可以和Python字典结构相互转化

3.2、XML(可广泛应用)

可扩展标记语言，标记通用标记语言的子集，是一种用于标记电子文件使其具有结构化的标记语言

1、XML的特性

可扩展标记语言可以对文档和数据进行结构化处理，从而能够在部门、客户和供应商之间进行交换，实现动态内容生成，企业集成和应用开发

准确的搜索
方便的传送软件组件
更好的描述一些事物
设计宗旨是传输数据，而不是显示数据
标签没有背被预定义，需要自行定义标签
具有自我描述性

1、一个简单的XML例子

2、使用xml.etree生成xml

在这里主要使用xml.etree这个子包

import xmlfrom xml import etreefrom xml.etree.ElementTree import ElementTree
root = etree.ElementTree.Element("root")root.append(etree.ElementTree.Element("child1"))child2 = etree.ElementTree.SubElement(root,"child2")child3 = etree.ElementTree.SubElement(root,"child3")print(xml.etree.ElementTree.tostring(root))12345678

爬虫场景中可以使用

json+xml迭代完成xml与json的相互转化
使用xmltodict包

转载自：CSDN 作者：不温卜火

快速入门网络爬虫系列 Chapter10 | 数据结构化存储

一、结构化过程

1、非结构化数据

2、半结构化数据

3、结构化数据

二、怎样数据结构化

1、明确数据需求

2、选择数据结构

3、怎么存

三、半数据化结构

3.1、JSON

3.2、XML(可广泛应用)

1、XML的特性

1、一个简单的XML例子

2、使用xml.etree生成xml

原文链接：https://blog.csdn.net/qq_16146103/article/details/105264905

Ta的文章更多 >>

热门文章

快速入门网络爬虫系列 Chapter10 | 数据结构化存储

一、结构化过程

1、非结构化数据

2、半结构化数据

3、结构化数据

二、怎样数据结构化

1、明确数据需求

2、选择数据结构

3、怎么存

三、半数据化结构

3.1、JSON

3.2、XML(可广泛应用)

1、XML的特性

1、一个简单的XML例子

2、使用xml.etree生成xml

原文链接：https://blog.csdn.net/qq_16146103/article/details/105264905

Ta的文章 更多 >>

热门文章

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

Ta的文章更多 >>