吉林又学深度学习的地方么？_Python

吉林又学深度学习的地方么？

2020-07-01 17:37发布

1条回答

2楼 · 2020-07-16 09:19

https://mp.weixin.qq.com/s/qR-d9Zay-7NJZgmYYlwn0A?utm_source=tuicool&utm_medium=referral

我们在浏览新闻的时候，通常会看到新闻网站对每个新闻都进行了分类：

新闻分类的应用相当广泛。对于网站来说，可以根据你看得较多的新闻类别给你推荐新闻；对于用户来说，则是可以忽略掉不感兴趣的分类，提高了浏览体验。

比如我抓取了近一个月，网易新闻APP向我推荐的13.7万条新闻，以下的新闻类别图彻底地暴露了本人是个喜欢看体育和花边娱乐新闻的俗人：

那么各大新闻网站的新闻分类是如何对新闻进行分类的呢？据了解，有可能是网站编辑人工进行分类，但目前更有可能是通过各种高级的算法和AI来进行自动分类。

本文使用Python和Keras，展示了如何从收集数据开始，到数据分析、预处理，再到使用深度学习/神经网络创建一个准确率达到人类水准的新闻分类器。

虽然这是个比较啰里吧嗦的教程，但是这里的“从零开始”，是假设你已熟悉了Python基础语法的基础上的。

选择要爬取的数据源

我们知道，在监督学习中，数据的预处理往往花费的时间要比真正训练模型的时候还要多。所以找到一个规整易于爬取的数据源是相当重要的。

来看下我们的需求，即“给出一个新闻标题，返回该新闻的分类”，那么我们收集的每一条数据中都必须有新闻标题和分类。

在各个提供了历史新闻的新闻网站中，中国新闻网(http://www.chinanews.com)的滚动新闻页面应该是最容易爬取的了：

网页链接，如：http://www.chinanews.com/scroll-news/2017/1224/news.shtml 可以直接指定某天的新闻，并且该页面直接包含了当天所有的新闻标题和对应的分类。

编写数据爬虫

还是以上面的链接 http://www.chinanews.com/scroll-news/2017/1224/news.shtml 为例，在页面上右键点击“显示网页源代码”，很容易可以找到我们所需要爬取的新闻标题和分类：

天津交响乐团为尼泊尔带来新年音乐会

12-2423:53

">http://www.chinanews.com/world.shtml>国际]

天津交响乐团为尼泊尔带来新年音乐会

12-2423:53

[文化]

漫画“吾皇”系列作者白茶：走了心的作品才能走红

12-2423:50

">http://www.chinanews.com/wenhua.shtml>文化]

漫画“吾皇”系列作者白茶：走了心的作品才能走红

吉林又学深度学习的地方么？