用 Python 进行数据分析,不懂 Python,求合适的 Python 书籍或资料推荐?

2020-03-26 20:03发布



2条回答
曾为
2楼 · 2020-05-19 10:16

《流畅的Python》,《Python数据分析实战》

Naughty
3楼 · 2020-11-04 09:02


Python新书上市,强烈推荐!

《Python网络数据爬取及分析从入门到精通(爬取篇)》导读

 


 

 

内容简介

本书主要包括上下两册:  《Python网络数据爬取及分析从入门到精通(爬取篇)》  《Python网络数据爬取及分析从入门到精通(分析篇)》

数据爬取篇: 详细讲解了正则表达式、BeautifulSoup、Selenium、Scrapy、数据库存储相关的爬虫知识,并通过实例让读者真正学会如何分析网站,抓取自己所需的数据。

数据分析篇: 详细讲解了Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘、文本预处理、词云分析及主题模型、复杂网络和基于数据库的分析。

上册突出爬取,下册侧重分析,强烈推荐读者两本书结合起来学习。

 

PS:最近参加CSDN2018年博客评选,希望您能投出宝贵的一票。我是59号,Eastmount,杨秀璋。投票地址:https://bss.csdn.net/m/topic/blog_star2018/index

 


五年来写了314篇博客,12个专栏,是真的热爱分享,热爱CSDN这个平台,也想帮助更多的人,专栏包括Python、数据挖掘、网络爬虫、图像处理、C#、Android等。现在也当了两年老师,更是觉得有义务教好每一个学生,让贵州学子好好写点代码,学点技术,"师者,传到授业解惑也",提前祝大家新年快乐。2019我们携手共进,为爱而生。 

 

购买地址

新书将于6月18日前与大家见面,请读者耐心等待,也推荐大家购买学习。大家可以在购物网站搜索"Python网络数据爬取及分析"关键字进行购买,如下图所示: 


购买地址请点击下面的链接: 

京东购买地址

淘宝购买地址

当当购买地址

天猫购买地址

 

 

 

前言花絮

合上电脑,闭上双眼,这已是一年之后,《Python网络数据爬取及分析从入门到精通》终于完稿。起初很多出版社找我写书,我是拒绝的,一方面实在太忙,这一年自己被借调到省里学习,又有学校的课程和项目,身兼双职,无暇顾及;另一方面始终觉得自己只懂个皮毛,只是个初出茅庐的“青椒”,还有太多的知识需要去学习和消化,写书,哪有资格。

"相识满天下,知心能几人",是北航出版社的编辑董哥说服了我,让我决定写一本关于Python数据爬取及分析实例的书籍。结合着五年来在CSDN写过的280多篇博客、敲打的无数Python爬虫代码以及网络数据分析实例,我用心撰写着这部著作,同时它也是我和她爱情的见证,开始下一步Python人工智能学习的阶段性总结。

本书主要分为上下两册——“数据爬取篇”和“数据分析篇”,强烈推荐读者两本书结合起来使用。

在上册“数据爬取篇”中,作者首先引入了网络爬虫概念,然后讲解了Python基础知识,最后结合正则表达式、BeautifulSoup、Selenium、Scrapy、数据库等技术,详细分析了在线百科、个人博客、豆瓣电影、招聘信息、图集网站、新浪微博等爬虫案例,让读者真正掌握网络爬虫的分析方法,从而爬取所需数据集,并为后续数据分析提供保障。当您读完上册书籍之后,作者推荐您购买下册“数据分析篇”,它将更好地为您的数据挖掘研究和数据分析项目开发提供帮助。

多少次深夜无眠,年青的秀璋加班回家后又打开了电脑,开始撰写他心爱的书籍。那一刻,所有的烦恼与疲惫都早已忘却,留下的只是幸福和享受,仿佛整个世界都静止了,所有人都站在了秀璋的身旁,静静地看着他,塔塔地敲打着键盘,有时他又停了下来,右手撑着脸颊片刻思考,有时他又抄起钢笔,刷刷画着什么。

就这样,数不清经历了多少个午间休息、多少夜凌晨灯火、多少次来回上班的路途,我构思着、敲打着,终于撰写完成了这本书籍。书是写完了,但这期间的艰辛、酸甜又有多少人知道?无人可以述衷肠,但那又何妨?留一段剪影,于心中回放。不论您读这本书的时候,是否有所收获,秀璋都很用心地在撰写,不为别的,只为给自己一个交代,给女神一个惊喜,让初学Python爬虫和数据分析的新手品尝下代码的美味,感受下IT技术的变革,足矣。更何况这本书确实普及了很多有用的实例,从方法到代码,从基础讲解到深入剖析,采用图文结合、实战为主的方式讲解,也为后续的人工智能、数据科学、大数据等领域研究打下基础。整本书上下两册就像秀璋的两个孩子,“数据爬取篇”是他的儿子,“数据分析篇”是他的女儿,让他爱不释手,哺育着他们一天天成长。 


 

 

 

新书亮点

  1. 新颖系统。由于市场上缺少一本以实例为驱动,全面详细地介绍Python网络爬虫及数据分析的书籍,本书很好的填补了这一空白,它通过Python语言来教读者编写网络爬虫并教大家针对不同的数据集做算法分析。

  2. 2.实例覆盖。本书涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例详细讲解。

  3. 3.通俗易懂。本书结合作者多年来的Python开发经验以及在CSDN分享的三个Python系列文章,在互联网上享誉良好。

  4. Python基础知识系列:Pythonj基础知识学习与提升Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJSPython数据分析系列:知识图谱、web数据挖掘及NLP

4.Python优势。由于Python具有语法清晰、代码友好、易读易学等特点,同时拥有强大的第三方库支持,包括网络爬取、数据分析、绘图可视化、机器学习等;从来没有一种编程语言可以像Python这样同时扎根在这么多领域,所以本书选择了Python作为数据爬取和数据分析的编程语言。

 

5.读者建议。本书适合于计算机科学、软件工程、信息技术、统计数学、数据科学、数据挖掘、大数据、人工智能等专业的学生学习,也适合对网络数据爬取、数据分析、文本挖掘、统计分析等领域感兴趣的读者阅读,同时推荐教师选择该书作为数据挖掘、数据分析、数据爬取、机器学习、大数据等技术相关课程的教材或实验指南。 

 

"爬取篇"章节详解

"爬取篇"主要讲解Python网络数据爬取知识,如下图所示,表示爬取的基本流程及核心内容。 


具体章节如下:第1章网络数据爬取概述  1.1网络数据爬虫 1.2相关技术 1.3本章小结第2章Python知识初学  2.1Python简介 2.2基础语法 2.3数据类型 2.4条件语句 2.5循环语句   2.6函数 2.7字符串操作 2.8文件操作 2.9面向对象 2.10本章小结第3章正则表达式爬虫之牛刀小试  3.1正则表达式 3.2Python网络数据爬取的常用模块 3.3正则表达式抓取网络数据的常见方法  3.4个人博客爬取实例 3.5本章小结第4章BeautifulSoup技术  4.1安装BeautifulSoup 4.2快速开始BeautifulSoup解析 4.3深入了解BeautifulSoup爬虫  4.4BeautifulSoup简单爬取个人博客网站 4.5本章小结第5章BeautifulSoup爬取电影信息  5.1分析网页DOM树结构 5.2爬取豆瓣电影信息 5.3链接跳转分析及详情页面爬取 5.4本章小结第6章Python数据库知识  6.1MySQL数据库 6.2Python操作MySQL数据库 6.3Python操作Sqlite3数据库 6.4本章小结第7章基于数据库存储的BeautifulSoup招聘爬虫  7.1知识图谱和智联招聘 7.2BeautifulSoup爬取招聘信息 7.3NavicatforMySQL工具操作数据库  7.4MySQL数据库存储招聘信息 7.5本章小结第8章Selenium技术  8.1初识Selenium 8.2快速开始Selenium解析 8.3定位元素  8.4常用方法和属性  8.5键盘和鼠标自动化操作 8.6导航控制 8.7本章小结第9章Selenium技术爬取在线百科知识  9.1三大在线百科 9.2Selenium爬取维基百科  9.3Selenium爬取百度百科  9.4Selenium爬取互动百科 9.5本章小结第10章基于数据库存储的Selenium博客爬虫  10.1博客网站 10.2Selenium爬取博客信息 10.3MySQL数据库存储博客信息 10.4本章小结第11章基于登录分析的Selenium微博爬虫  11.1登录验证 11.2初识微博爬虫 11.3爬取微博热门信息 11.4本章小结第12章基于图片抓取的Selenium爬虫  12.1图片爬虫框架 12.2图片网站分析 12.3代码实现 12.4本章小结第13章Scrapy技术爬取网络数据  13.1安装Scrapy  13.2快速了解Scrapy 13.3Scrapy爬取贵州农产品数据集 13.4本章小结

 

原书试读

封面:感谢董哥他们的精心设计与付出。


 


爬虫篇: 


 


 


 

分析篇:


 


 


 


 

 

再"序"前缘

下面让我带领大家看看别人眼中的《Python网络数据爬取及分析从入门到精通》。

 杨老师是我认识的人里,最能忠于自己内心的人。在青春年少时他便能抱定自己的理想,多年来一直不忘初心、心无旁骛地朝着目标踽踽前行,既仰望星空,又脚踏实地,直到达成所愿。相较于大多数与梦想渐行渐远的人们而言,他是幸运的,这幸运离不开他多年的努力与坚持。年少时,他可能从未想过自己会成为一名“程序猿”,误打误撞进入编程领域,从此在代码的世界里乐此不疲,越走越远。对于他而言,重要的是学有所成,继承父亲遗志,做一名传道授业解惑的教师。为此,他勤奋学习,纵然辛劳却乐在其中;他乐于助人,以帮助、辅导他人学习技术为傲,从不求回报;他常有危机感,担心自己学得还不够,不足以为人传道授业解惑;他也常常感叹,为自己能在普及编程知识上做一点贡献感到自豪。这些,构成了他五年来坚持在CSDN更新博客的坚强动力,也是他在出版社多番邀请下,终于下定决心要倾自己所学写一本书的初衷。                                                        ——娜·序一

 

杨老师是一个善良、纯粹而又执著的人,日常交往中人们很容易在他身上建立起信任感,他对得失的毫不计较,对教育事业的虔诚,对他人的真挚友善,对知识的尊重与渴求,无不深深打动着身边的人。程序员有很多种,他可能并不是技术最厉害的,但他选择了一条更为艰难的路,学习积累,潜心创作,教书育人,用一篇篇文章,一个个精彩的案例去帮助更多人。作为长期陪伴左右的人,我敬他、恋他,同时从心底深深感激他为我倾注的一切。抱歉的是,在写作这本书的过程中,于创作于生活我并未给他带来多少帮助,甚至在他疲惫不堪还坚持熬夜写书时多有抱怨。善良的他往往还我以宽容,默默承受误解。直到后来我才知道,他如此执着原来是想早日成书,将这宝贵的“孩子”署上我的名字,送予我。作为全书的第一个读者,我深深地知道他对整套书所倾注的炽热情感与心血,我们一起查阅资料、一起校稿、一起默默付出,书中的每一段文字、每一行代码都闪现着我们生活和工作中的点点滴滴,希望您在阅读过程中,也能体会到我们满满的诚意。谢谢来自程序员的浪漫,此生幸事莫过得一知己共白首!也希望所有的读者能包容本书的不足之处,如果此书能激发您对数据挖掘与分析的兴趣,给您的学习和工作带来些灵感和帮助,我们将怡然自得、不胜欢喜。编程路漫漫,期待与各位读者的交流学习,共同进步。                                                       ——娜·序二

 

 当我被秀璋邀请为这本书写序时,我首先感到的是惊讶和荣幸。这本书的作者是我最好的朋友之一,在大学期间,每个人都知道他当老师的梦想,之后他也确实回到了家乡贵州,做着他喜欢的事情。我希望他能在教育领域保持着那份激情和初心,即使这是一个漫长而艰难的过程,但我相信他会用他的热情和爱意克服一切困难,教书育人。这是一本关于Python技术的网络爬虫书籍,包括很多有用的实例,比如抓取在线百科、爬取技术博客或新浪微博数据、挖掘招聘网站或豆瓣网电影信息等。现在我们都知道了一些计算机科学相关的热门术语,如机器学习、大数据、人工智能等。我们可以每天在新闻中听到这些技术,许多像我们SAP这样的公司也关注这些新兴的技术,以便将来为客户提供更好的软件解决方案和服务,从海量信息中挖掘出有价值的知识,更好地为客户提供帮助,为公司决策提供支撑。但我们从哪里开始学习这些新知识呢?我想你可能会在这里找到答案。在本书中,秀璋介绍了一种可用于数据挖掘等应用的基本技能——网络爬虫技术。一个网络爬虫通常是从互联网上提取有用的信息,它可以用来抓取结构化/非结构化文本、图片或各类数据。借助这些数据,我们可以构建自己的应用,例如Google知识图谱、舆情分析系统、智能家具应用等。对于初学者来说,学习这本书中内容并不难,即使是那些不了解Python的读者,也可以从这本书中快速入门。它就是一步步的教程,包括基本的Python语法、BeautifulSoup技术、Selenium技术、Scrapy框架等等。书中许多生动而有趣的案例让你永远不会觉得无聊,还有详细的图形指南和代码注释。本书真的是学习Python数据爬取和数据分析的不二选择,同时推荐你上下两册(上册“爬取篇”,下册“分析篇”)一起购买,结合起来学习。如果你真的是Python、网络爬虫、数据分析或大数据的忠实粉丝,请不要犹豫,从本书开始吧!                                                       ——perry·序三 

 

作为与秀璋同窗同寝的10年老友,有幸见证秀璋与娜娜相识相知相爱。此书可以说是他们爱的结晶。秀璋是深受朋友信任的好兄弟,亦是深受学生爱戴的好老师,似乎永远有用不完的热情,这种热情,带给我们这个社会一丝丝的温暖,在人与人之间传递着。当初在博客上不断写文章,并耐心解答网友们的各种问题,还帮助许多网友学习编程,指导作业甚至毕业论文,所以,当教师这颗种子早已种下。毕业后的秀璋,拿着同学们羡慕的Offer,却毅然决然踏上返乡的路,这一走,走进了大山里的贵州,成了一名受人尊敬的人民教师。生活平淡而辛苦,而乐观的秀璋在此时收获了爱情,时也命也。拒绝了无数聚会邀请,见证了无数贵阳的凌晨灯火,秀璋孜孜不倦写下这本好书。作为见证这本书从下笔到问世的读者,作为一个Python爱好及有一定数据分析功底的学生,读这本书真是如晤老友——大量的网络数据爬取实例。本书配以专业但不生涩的语言,将原本枯燥的学术知识娓娓道来,此时的秀璋不是老师,是一个熟悉的老友,用大家听得懂的话,解释着您需要了解的一切。总之,再多赞美的语言,都比不上滴滴汗水凝结的成功带来的满足与喜悦。愿你合上书时,亦能感受到秀璋的真诚。                                                       ——文·序四

 

后记与致谢

"贵州纵美路迢迢,未付劳心此一遭。搜得破书三四本,也堪将去教尔曹。"这首诗是我选择离开北京,回到家乡贵州任教那天写的。每当看到那一张张笑脸、一双双求知的双眼,我都觉得回家很值,也觉得有义务教好身边的每一个学生;每当帮好友或陌生博友解决一个程序问题,得到了他们的一个祝福、一句感谢,总感觉有一股暖流从脚底板窜到天灵盖,让我浮动嘴角,温馨一笑。而当我写完这本书籍之时,又能帮助多少人?它究竟能促进数据分析学科的发展吗?或是为贵州家乡大数据发展做出点贡献?我不知道,但就觉得挺好。希望书能帮助更多的初学者或Python爱好者,如果这本书对您有所帮助,也恳请您推广给周围的朋友,谢谢。

有人说秀璋选择回家教书是情怀,有人觉得是逃避北上广,也有人认为是作秀或是初心。但这些都不重要,重要的是经历,是争朝夕,人是为自己而活,而不关乎其他人的看法。我们赤条条的来,赤条条的去,片片经历都将化为点点诗意,享受其中,何乐而不为呢?但同样,我们需要学会感恩,能完成这本书少不了很多人的帮助。

感谢北航出版社的董伯乐的相知与相识,没有董哥这样的知心人,这本书就不会面世;感谢北航孙老师默默的校稿,已经记不得修订了多少版,但每一版、每一段都透露出她的认真与严谨,也是她的心血;感谢身边朋友同学、老师和同事的帮助和支持,尤其是替我作序的几个知己;感谢娜女神对我的赏识与关心,出书之时就是我求婚之时,书里的每一段文字、每一行代码都藏着对她的思恋,对她的爱意,否则又有什么力量能支撑着我把书写完呢?感谢亲人、我的学生以及很多素未谋面的网友,谢谢您们的建议与支持;最后感谢一下自己,书写完的那天,不知道眼角怎么就浸湿了,真的好想大哭一场,但突然又笑了,这或许就是付出的滋味,一年的收成吧!未忘初心,岁月静好。

 

由于本书是结合读者Python实际抓取网络数据和分析数据的研究,以及多年撰写博客经历而编写的,作者才疏学浅,书籍中会存在很多不足或讲得不够透彻的地方,还请广大的读者原谅,同时如果发现书籍中的错误,还请联系作者或出版社,可以发邮件或打电话等形式联系,再次感激所有人。

作者博客:https://blog.csdn.net/Eastmount作者邮箱:1455136241@qq.com

 

最后以作者离开北京选择回贵州财经大学信息学院任教的一首诗结尾吧!  贵州纵美路迢迢,未付劳心此一遭。  收得破书三四本,也堪将去教尔曹。  但行好事,莫问前程。  待随满天桃李,再追学友趣事。作者书已出版,开始默默记录勘误,书中不足或错误之处,也请广大读者海涵,作者不会断分享知识、补充能量、教书育人。同时,也开始征集全国每个省一个祝福视频,最终制作求婚的视频,称之为“点亮中国”,望她喜欢。现在还差河北、天津、山西、新疆、宁夏好友的视频,还请大家帮忙,再次感谢!


 


 


 

(By:Eastmount2018-06-15上午9点  http://blog.csdn.net/eastmount/ )


相关问题推荐

  • 回答 3

    换行。比如,print hello\nworld效果就是helloworld\n就是一个换行符。\是转义的意思,'\n'是换行,'\t'是tab,'\\'是,\ 是在编写程序中句子太长百,人为换行后加上\但print出来是一整行。...

  • 回答 42

    十种常见排序算法一般分为以下几种:(1)非线性时间比较类排序:a. 交换类排序(快速排序、冒泡排序)b. 插入类排序(简单插入排序、希尔排序)c. 选择类排序(简单选择排序、堆排序)d. 归并排序(二路归并排序、多路归并排序)(2)线性时间非比较类排序:...

  • 回答 70
    已采纳

    前景很好,中国正在产业升级,工业机器人和人工智能方面都会是强烈的热点,而且正好是在3~5年以后的时间。难度,肯定高,要求你有创新的思维能力,高数中的微积分、数列等等必须得非常好,软件编程(基础的应用最广泛的语言:C/C++)必须得很好,微电子(数字电...

  • 回答 28

    迭代器与生成器的区别:(1)生成器:生成器本质上就是一个函数,它记住了上一次返回时在函数体中的位置。对生成器函数的第二次(或第n次)调用,跳转到函数上一次挂起的位置。而且记录了程序执行的上下文。生成器不仅记住了它的数据状态,生成器还记住了程序...

  • 回答 9

    python中title( )属于python中字符串函数,返回’标题化‘的字符串,就是单词的开头为大写,其余为小写

  • 回答 6

    第一种解释:代码中的cnt是count的简称,一种电脑计算机内部的数学函数的名字,在Excel办公软件中计算参数列表中的数字项的个数;在数据库( sq| server或者access )中可以用来统计符合条件的数据条数。函数COUNT在计数时,将把数值型的数字计算进去;但是...

  • 回答 1

    head是方法,所以需要取小括号,即dataset.head()显示的则是前5行。data[:, :-1]和data[:, -1]。另外,如果想通过位置取数据,请使用iloc,即dataset.iloc[:, :-1]和dataset.iloc[:, -1],前者表示的是取所有行,但不包括最后一列的数据,结果是个DataFrame。...

  • Python入门简单吗2021-09-23 13:21
    回答 45

    挺简单的,其实课程内容没有我们想象的那么难、像我之前同学,完全零基础,培训了半年,直接出来就工作了,人家还在北京大公司上班,一个月15k,实力老厉害了

  • 回答 4

    Python针对众多的类型,提供了众多的内建函数来处理(内建是相对于导入import来说的,后面学习到包package时,将会介绍),这些内建函数功用在于其往往可对多种类型对象进行类似的操作,即多种类型对象的共有的操作;如果某种操作只对特殊的某一类对象可行,Pyt...

  • 回答 8

     相当于 ... 这里不是注释

  • 回答 4

    还有FIXME

  • 回答 3

    python的两个库:xlrd和xlutils。 xlrd打开excel,但是打开的excel并不能直接写入数据,需要用xlutils主要是复制一份出来,实现后续的写入功能。

  • 回答 8

    单行注释:Python中的单行注释一般是以#开头的,#右边的文字都会被当做解释说明的内容,不会被当做执行的程序。为了保证代码的可读性,一般会在#后面加一两个空格然后在编写解释内容。示例:#  单行注释print(hello world)注释可以放在代码上面也可以放在代...

  • 回答 2

    主要是按行读取,然后就是写出判断逻辑来勘测行是否为注视行,空行,编码行其他的:import linecachefile=open('3_2.txt','r')linecount=len(file.readlines())linecache.getline('3_2.txt',linecount)这样做的过程中发现一个问题,...

  • 回答 4

    或许是里面有没被注释的代码

  • 回答 26

    自学的话要看个人情况,可以先在B站找一下视频看一下

没有解决我的问题,去提问