2020-04-27 21:28发布
我见过一个大佬,用python给他媳妇找研究生论文,爬了一大堆。
原文来自Python实用宝典:你不得不知道的python超级文献搜索工具
文献搜索对于广大学子来说真的是个麻烦事,如果你的学校购买的论文下载权限不够多,或者不在校园内,那就很头痛了。幸好,我们有Python制作的这个论文搜索工具,简化了我们学习的复杂性。
Scihub
首先给大家介绍一下sci-hub这个线上数据库,这个数据库提供了81,600,000篇科学学术论文和文章下载。起初由一名叫亚历珊卓·艾尔巴金的研究生建立,她过去在哈佛大学从事研究时发现支付所需要的数百篇论文的费用实在是太高了,因此就萌生了创建这个网站,让更多人获得知识的想法。
后来,这个网站越来越出名,逐渐地在更多地国家如印度、印度尼西亚、中国、俄罗斯等国家盛行,并成功地和一些组织合作,共同维护和运营这个网站。到了2017年的时候,网站上已有81600000篇学术论文,占到了所有学术论文的69%,基本满足大部分论文的需求,而剩下的31%是研究者不想获取的论文。
为什么我们需要用Python工具下载
在起初,这个网站是所有人都能够访问的,但是随着其知名度的提升,越来越多的出版社盯上了他们,在2015年时被美国法院封禁后其在美国的服务器便无法被继续访问,因此从那个时候开始,他们就跟出版社们打起了游击战。
游击战的缺点就是导致scihub的地址需要经常更换,所以我们没办法准确地一直使用某一个地址访问这个数据库。当然也有一些别的方法可让我们长时间访问这个网站,比如说修改DNS,修改hosts文件,不过这些方法不仅麻烦,而且也不是长久之计,还是存在失效的可能的。
新姿势:用Python写好的API工具超方便下载论文
这是一个来自github的开源非官方API工具,下载地址为:
https://github.com/zaytoun/scihub.py
首先我们需要下载这个工具,将github上的项目clone下来:
gitclonehttps://github.com/zaytoun/scihub.py.git
或者在Cloneordownload按钮里下载ZIP并解压。
解压后的文件夹名称可能为scihub.py,记得改成scihub,解压后使用CMD进入这个文件夹,输入以下命令(默认你已经安装好了Python)安装依赖:
pipinstall-rrequirements.txt
然后我们就可以准备开始使用啦!
这个工具使用起来非常简单,你可以先在Google学术(搜索到论文的网址即可)或ieee上找到你需要的论文,复制论文网址如:
http://img3.imgtn.bdimg.com/it/u=664814095,2334584570&fm=11&gp=0.jpg
然后在scihub文件夹的scihub里新建一个文件叫download.py,输入以下代码:
fromscihubimportSciHub
sh=SciHub()
#第一个参数输入论文的网站地址
#path:文件保存路径
result=sh.download('http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=1648853',path='paper.pdf')
进入该文件夹后在cmd/terminal中运行:
pythondownload.py
你就会发现文件成功下载到你的当前目录啦,名字为paper.pdf,如果不行,多试几次就可以啦,还是不行的话,可以在下方留言区询问哦。
当然了,这个api工具还有许多功能,比如批量下载利用google学术关键词搜索到的论文,这些功能都有待大家去慢慢发掘哦:
#获取在谷歌学术上'bittorrent'关键词的5篇文章
results=sh.search('bittorrent',5)
#下载论文,有需要的话会调用scihub
forpaperinresults['papers']:
sh.download(paper['url'])
工作原理
这个API的源代码其实非常好读懂。
一、找到sci-hub目前可用的域名
首先它会在这个网址里找到sci-hub当前可用的域名,用于下载论文:
https://whereisscihub.now.sh/
二、对用户输入的论文地址进行解析,找到相应论文
如果用户输入的链接不是直接能下载的,则使用sci-hub进行下载如果scihub的网址无法使用则切换另一个网址使用,除非所有网址都无法使用。
三、下载
拿到论文后,它保存到data变量中然后将data变量存储为文件即可
值得注意的是代码用到了一个retry装饰器,这个装饰器可以用来进行错误重试,作者设定了重试次数为10次,每次重试最大等待时间不超过1秒。
我们的文章到此就结束啦,如果你希望我们今天的文章,请持续关注我们,如果对你有帮助,麻烦在下面点一个赞/在看哦有任何问题都可以在下方留言区留言,我们都会耐心解答的!
Python实用宝典(pythondict.com)不只是一个宝典欢迎关注公众号:Python实用宝典阅读更多的Python实战教程
针对你自己的方向,找相近的论文来读,从中理解文章中回答什么问题,通过哪些技术手段来证明,有哪些结论从这些文章中了解研究思路、逻辑推论、学习技术方法。
1.关键词、主题词检索:
关键词、主题词一定要选好,这样,才能保证你所要的内容的全面。因为,
换个主题词,可以有新的内容出现。
2.检索某个学者:
查SCI,知道了某个在这个领域有建树的学者,找他近期发表的文章。
3.参考综述检索:
如果有与自己课题相关或有切入点的综述,可以根据相应的参考文献找到那些原始的研究论文。
4.
注意文章的参考价值:刊物的影响因子、文章的被引次数能反映文章的参考价值。但要注意引用这篇文章的其它文章是如何评价这篇文章的。
换行。比如,print hello\nworld效果就是helloworld\n就是一个换行符。\是转义的意思,'\n'是换行,'\t'是tab,'\\'是,\ 是在编写程序中句子太长百,人为换行后加上\但print出来是一整行。...
十种常见排序算法一般分为以下几种:(1)非线性时间比较类排序:a. 交换类排序(快速排序、冒泡排序)b. 插入类排序(简单插入排序、希尔排序)c. 选择类排序(简单选择排序、堆排序)d. 归并排序(二路归并排序、多路归并排序)(2)线性时间非比较类排序:...
前景很好,中国正在产业升级,工业机器人和人工智能方面都会是强烈的热点,而且正好是在3~5年以后的时间。难度,肯定高,要求你有创新的思维能力,高数中的微积分、数列等等必须得非常好,软件编程(基础的应用最广泛的语言:C/C++)必须得很好,微电子(数字电...
迭代器与生成器的区别:(1)生成器:生成器本质上就是一个函数,它记住了上一次返回时在函数体中的位置。对生成器函数的第二次(或第n次)调用,跳转到函数上一次挂起的位置。而且记录了程序执行的上下文。生成器不仅记住了它的数据状态,生成器还记住了程序...
python中title( )属于python中字符串函数,返回’标题化‘的字符串,就是单词的开头为大写,其余为小写
第一种解释:代码中的cnt是count的简称,一种电脑计算机内部的数学函数的名字,在Excel办公软件中计算参数列表中的数字项的个数;在数据库( sq| server或者access )中可以用来统计符合条件的数据条数。函数COUNT在计数时,将把数值型的数字计算进去;但是...
head是方法,所以需要取小括号,即dataset.head()显示的则是前5行。data[:, :-1]和data[:, -1]。另外,如果想通过位置取数据,请使用iloc,即dataset.iloc[:, :-1]和dataset.iloc[:, -1],前者表示的是取所有行,但不包括最后一列的数据,结果是个DataFrame。...
挺简单的,其实课程内容没有我们想象的那么难、像我之前同学,完全零基础,培训了半年,直接出来就工作了,人家还在北京大公司上班,一个月15k,实力老厉害了
Python针对众多的类型,提供了众多的内建函数来处理(内建是相对于导入import来说的,后面学习到包package时,将会介绍),这些内建函数功用在于其往往可对多种类型对象进行类似的操作,即多种类型对象的共有的操作;如果某种操作只对特殊的某一类对象可行,Pyt...
相当于 ... 这里不是注释
还有FIXME
python的两个库:xlrd和xlutils。 xlrd打开excel,但是打开的excel并不能直接写入数据,需要用xlutils主要是复制一份出来,实现后续的写入功能。
单行注释:Python中的单行注释一般是以#开头的,#右边的文字都会被当做解释说明的内容,不会被当做执行的程序。为了保证代码的可读性,一般会在#后面加一两个空格然后在编写解释内容。示例:# 单行注释print(hello world)注释可以放在代码上面也可以放在代...
主要是按行读取,然后就是写出判断逻辑来勘测行是否为注视行,空行,编码行其他的:import linecachefile=open('3_2.txt','r')linecount=len(file.readlines())linecache.getline('3_2.txt',linecount)这样做的过程中发现一个问题,...
或许是里面有没被注释的代码
自学的话要看个人情况,可以先在B站找一下视频看一下
最多设置5个标签!
我见过一个大佬,用python给他媳妇找研究生论文,爬了一大堆。
原文来自Python实用宝典:你不得不知道的python超级文献搜索工具
文献搜索对于广大学子来说真的是个麻烦事,如果你的学校购买的论文下载权限不够多,或者不在校园内,那就很头痛了。幸好,我们有Python制作的这个论文搜索工具,简化了我们学习的复杂性。
Scihub
首先给大家介绍一下sci-hub这个线上数据库,这个数据库提供了81,600,000篇科学学术论文和文章下载。起初由一名叫亚历珊卓·艾尔巴金的研究生建立,她过去在哈佛大学从事研究时发现支付所需要的数百篇论文的费用实在是太高了,因此就萌生了创建这个网站,让更多人获得知识的想法。
后来,这个网站越来越出名,逐渐地在更多地国家如印度、印度尼西亚、中国、俄罗斯等国家盛行,并成功地和一些组织合作,共同维护和运营这个网站。到了2017年的时候,网站上已有81600000篇学术论文,占到了所有学术论文的69%,基本满足大部分论文的需求,而剩下的31%是研究者不想获取的论文。
为什么我们需要用Python工具下载
在起初,这个网站是所有人都能够访问的,但是随着其知名度的提升,越来越多的出版社盯上了他们,在2015年时被美国法院封禁后其在美国的服务器便无法被继续访问,因此从那个时候开始,他们就跟出版社们打起了游击战。
游击战的缺点就是导致scihub的地址需要经常更换,所以我们没办法准确地一直使用某一个地址访问这个数据库。当然也有一些别的方法可让我们长时间访问这个网站,比如说修改DNS,修改hosts文件,不过这些方法不仅麻烦,而且也不是长久之计,还是存在失效的可能的。
新姿势:用Python写好的API工具超方便下载论文
这是一个来自github的开源非官方API工具,下载地址为:
https://github.com/zaytoun/scihub.py
首先我们需要下载这个工具,将github上的项目clone下来:
gitclonehttps://github.com/zaytoun/scihub.py.git
或者在Cloneordownload按钮里下载ZIP并解压。
解压后的文件夹名称可能为scihub.py,记得改成scihub,解压后使用CMD进入这个文件夹,输入以下命令(默认你已经安装好了Python)安装依赖:
pipinstall-rrequirements.txt
然后我们就可以准备开始使用啦!
这个工具使用起来非常简单,你可以先在Google学术(搜索到论文的网址即可)或ieee上找到你需要的论文,复制论文网址如:
http://img3.imgtn.bdimg.com/it/u=664814095,2334584570&fm=11&gp=0.jpg
然后在scihub文件夹的scihub里新建一个文件叫download.py,输入以下代码:
fromscihubimportSciHub
sh=SciHub()
#第一个参数输入论文的网站地址
#path:文件保存路径
result=sh.download('http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=1648853',path='paper.pdf')
进入该文件夹后在cmd/terminal中运行:
pythondownload.py
你就会发现文件成功下载到你的当前目录啦,名字为paper.pdf,如果不行,多试几次就可以啦,还是不行的话,可以在下方留言区询问哦。
当然了,这个api工具还有许多功能,比如批量下载利用google学术关键词搜索到的论文,这些功能都有待大家去慢慢发掘哦:
fromscihubimportSciHub
sh=SciHub()
#获取在谷歌学术上'bittorrent'关键词的5篇文章
results=sh.search('bittorrent',5)
#下载论文,有需要的话会调用scihub
forpaperinresults['papers']:
sh.download(paper['url'])
工作原理
这个API的源代码其实非常好读懂。
一、找到sci-hub目前可用的域名
首先它会在这个网址里找到sci-hub当前可用的域名,用于下载论文:
https://whereisscihub.now.sh/
二、对用户输入的论文地址进行解析,找到相应论文
如果用户输入的链接不是直接能下载的,则使用sci-hub进行下载如果scihub的网址无法使用则切换另一个网址使用,除非所有网址都无法使用。
三、下载
拿到论文后,它保存到data变量中然后将data变量存储为文件即可
值得注意的是代码用到了一个retry装饰器,这个装饰器可以用来进行错误重试,作者设定了重试次数为10次,每次重试最大等待时间不超过1秒。
我们的文章到此就结束啦,如果你希望我们今天的文章,请持续关注我们,如果对你有帮助,麻烦在下面点一个赞/在看哦有任何问题都可以在下方留言区留言,我们都会耐心解答的!
Python实用宝典(pythondict.com)不只是一个宝典欢迎关注公众号:Python实用宝典阅读更多的Python实战教程
针对你自己的方向,找相近的论文来读,从中理解文章中回答什么问题,通过哪些技术手段来证明,有哪些结论从这些文章中了解研究思路、逻辑推论、学习技术方法。
1.关键词、主题词检索:
关键词、主题词一定要选好,这样,才能保证你所要的内容的全面。因为,
换个主题词,可以有新的内容出现。
2.检索某个学者:
查SCI,知道了某个在这个领域有建树的学者,找他近期发表的文章。
3.参考综述检索:
如果有与自己课题相关或有切入点的综述,可以根据相应的参考文献找到那些原始的研究论文。
4.
注意文章的参考价值:刊物的影响因子、文章的被引次数能反映文章的参考价值。但要注意引用这篇文章的其它文章是如何评价这篇文章的。
相关问题推荐
换行。比如,print hello\nworld效果就是helloworld\n就是一个换行符。\是转义的意思,'\n'是换行,'\t'是tab,'\\'是,\ 是在编写程序中句子太长百,人为换行后加上\但print出来是一整行。...
十种常见排序算法一般分为以下几种:(1)非线性时间比较类排序:a. 交换类排序(快速排序、冒泡排序)b. 插入类排序(简单插入排序、希尔排序)c. 选择类排序(简单选择排序、堆排序)d. 归并排序(二路归并排序、多路归并排序)(2)线性时间非比较类排序:...
前景很好,中国正在产业升级,工业机器人和人工智能方面都会是强烈的热点,而且正好是在3~5年以后的时间。难度,肯定高,要求你有创新的思维能力,高数中的微积分、数列等等必须得非常好,软件编程(基础的应用最广泛的语言:C/C++)必须得很好,微电子(数字电...
迭代器与生成器的区别:(1)生成器:生成器本质上就是一个函数,它记住了上一次返回时在函数体中的位置。对生成器函数的第二次(或第n次)调用,跳转到函数上一次挂起的位置。而且记录了程序执行的上下文。生成器不仅记住了它的数据状态,生成器还记住了程序...
python中title( )属于python中字符串函数,返回’标题化‘的字符串,就是单词的开头为大写,其余为小写
第一种解释:代码中的cnt是count的简称,一种电脑计算机内部的数学函数的名字,在Excel办公软件中计算参数列表中的数字项的个数;在数据库( sq| server或者access )中可以用来统计符合条件的数据条数。函数COUNT在计数时,将把数值型的数字计算进去;但是...
head是方法,所以需要取小括号,即dataset.head()显示的则是前5行。data[:, :-1]和data[:, -1]。另外,如果想通过位置取数据,请使用iloc,即dataset.iloc[:, :-1]和dataset.iloc[:, -1],前者表示的是取所有行,但不包括最后一列的数据,结果是个DataFrame。...
挺简单的,其实课程内容没有我们想象的那么难、像我之前同学,完全零基础,培训了半年,直接出来就工作了,人家还在北京大公司上班,一个月15k,实力老厉害了
Python针对众多的类型,提供了众多的内建函数来处理(内建是相对于导入import来说的,后面学习到包package时,将会介绍),这些内建函数功用在于其往往可对多种类型对象进行类似的操作,即多种类型对象的共有的操作;如果某种操作只对特殊的某一类对象可行,Pyt...
相当于 ... 这里不是注释
还有FIXME
python的两个库:xlrd和xlutils。 xlrd打开excel,但是打开的excel并不能直接写入数据,需要用xlutils主要是复制一份出来,实现后续的写入功能。
单行注释:Python中的单行注释一般是以#开头的,#右边的文字都会被当做解释说明的内容,不会被当做执行的程序。为了保证代码的可读性,一般会在#后面加一两个空格然后在编写解释内容。示例:# 单行注释print(hello world)注释可以放在代码上面也可以放在代...
主要是按行读取,然后就是写出判断逻辑来勘测行是否为注视行,空行,编码行其他的:import linecachefile=open('3_2.txt','r')linecount=len(file.readlines())linecache.getline('3_2.txt',linecount)这样做的过程中发现一个问题,...
或许是里面有没被注释的代码
自学的话要看个人情况,可以先在B站找一下视频看一下