快速入门网络爬虫系列 Chapter10 | 数据结构化存储

2020-10-30 14:46发布

一、结构化过程

1、非结构化数据

  • “《互联网大数据处理技术与应用》一书是由曾剑平编著,并由清华大学出版社于2017年出版。”

  • “ 清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。”

2、半结构化数据

  • (书名:互联网大数据处理技术与应用;作者:曾剑平;出版社:清华大学出版社;出版日期:2017)

  • (出版社:清华大学出版社;成立时间:198006;主管单位:教育部;主办单位:清华大学)

3、结构化数据

2

二、怎样数据结构化

1、明确数据需求

  • 需要抽取什么数据

  • 存放成什么格式

  • 怎么存

2、选择数据结构

  • 半结构化:XML、JSON

  • 结构化:数据库

3、怎么存

  • 文件:单独还是一起存放,如何发展数据关系

  • 数据库:数据库设计

三、半数据化结构

3.1、JSON

  • API常用格式

  • 数据结构简单

  • 有Python Json库支持

  • 可以和Python字典结构相互转化

3.2、XML(可广泛应用)

  • 可扩展标记语言,标记通用标记语言的子集,是一种用于标记电子文件使其具有结构化的标记语言

1、XML的特性

可扩展标记语言可以对文档和数据进行结构化处理,从而能够在部门、客户和供应商之间进行交换,实现动态内容生成,企业集成和应用开发

  • 准确的搜索

  • 方便的传送软件组件

  • 更好的描述一些事物

  • 设计宗旨是传输数据,而不是显示数据

  • 标签没有背被预定义,需要自行定义标签

  • 具有自我描述性

1、一个简单的XML例子

3

2、使用xml.etree生成xml

在这里主要使用xml.etree这个子包

import xmlfrom xml import etreefrom xml.etree.ElementTree import ElementTree
root = etree.ElementTree.Element("root")root.append(etree.ElementTree.Element("child1"))child2 = etree.ElementTree.SubElement(root,"child2")child3 = etree.ElementTree.SubElement(root,"child3")print(xml.etree.ElementTree.tostring(root))12345678

爬虫场景中可以使用

  • json+xml迭代完成xml与json的相互转化

  • 使用xmltodict包


转载自:CSDN   作者:不温卜火

原文链接:https://blog.csdn.net/qq_16146103/article/details/105264905