那简单的除了之前说的那种统计坏的词，然后正则匹配的还有其他的吗？_Python

2条回答

卡卡

2楼 · 2020-08-03 17:23

正则表达式里匹配次数的元字符有：（一） {0,1}、{0,}、{1,}、{3} 逗号前面次数到逗号后面次数（二） ?、?? 0次或1次（三） * 0次以上，即0~n （四） + 1次以上，即1~n

下面深入讲解下这几个元字符的意义：

（一） {0,1}、{0,}、{1,}、{3} 逗号前面次数到逗号后面次数

上面列了几种都是{}用于表示次数时常见的写法。 1. {0,1} 匹配0次或1次 2. {0,} 匹配0次以上，逗号后面为空表示无限次的意思 3. {1,} 匹配1次以上 4. {3} 匹配3次，它是{3,3}的简写形式

需要注意的是，前面数字大于后面数字是会报错的

有时候会看到[0-9]{1}这样的写法，其实这样写也算是多余的，它等价[0-9]，正则里没有添加量词修饰的匹配都是按1次算。

（二） ?、?? 0次或1次

? 匹配0次或1次，可以理解为{0,1}的简写，常见用法有： 1. https? 用于匹配http或https 2. (https?://)? 用于匹配域名前缀https?://可有可无的情况。另外，需要了解的是，?是匹配优先的，这是什么意思呢？所谓匹配优先，就是字面意思，能匹配我就先匹配。下面举例说明一下：源码：www.zjmainstay.cn 正则：^(www\.)?(.+)$ 匹配结果是：分组1得到了www.，分组2得到了zjmainstay.cn 从这里可以看出，对于(www\.)?部分的正则，它先进行了匹配，然后.+部分再匹配。那么，如果我们想要把www.留给后面的.+去匹配怎么办？我们需要找到一个非匹配优先的方法，对于非匹配优先，接触过非贪婪模式的读者可能马上想到非贪婪模式，不错，利用非贪婪模式可以解决这个问题：正则：^(www\.)*?(.+)$ 当然，使用正则：^(www\.){0,1}?(.+)$也是可以的，而且这个更接近原本的意思。另外，很多人可能没见过，其实我们还能用：^(www\.)??(.+)$实现。这里的??是?的非匹配优先版本。

（三） * 0次以上，即0~n

* 0次或任意次，可以理解为{0,}的简写，常见用法有： 1. .* 贪婪模式，匹配优先，匹配除换行外的任意字符0次以上 2. .*? 非贪婪模式，非匹配优先，匹配除换行外的任意字符0次以上 3.

大家可能发现，.*? 这里也有?，但是它已经脱离了前面对?介绍的0次或1次的范围，没错，只是为了让大家不至于混淆，我没有把它归入上面的?当中。我们可以理解为，?只要跟本文所说的几个计次量词结合，就形成非贪婪模式。甚至，连??你都可以认为是结合后的0次或1次的非贪婪模式，反正也能解释通不是？

（四） + 1次以上，即1~n

+ 与 * 除了匹配次数意义上有所差别，常见用法都类似，它强调的是至少匹配1次以上，可以理解为{1,}的简写。 1. .+ 贪婪模式，匹配优先，匹配除换行外的任意字符1次以上 2. .+? 非贪婪模式，非匹配优先，匹配除换行外的任意字符1次以上 3.

总结

量词本身使用时，都是贪婪模式匹配，而量词和?能结合成非贪婪模式匹配。贪婪模式匹配就是尽可能多地匹配，非贪婪模式匹配就是尽可能少地匹配。

转载于:https://www.cnblogs.com/tsql/p/6386210.html

Naughty

3楼 · 2020-10-09 09:49

最近在做基于Nutch网络爬虫爬取数据及一些数据处理的内容，涉及到在网络爬虫爬取到的HTML文件中提取一些用户名，之前想的一直是导入数据库再进行操作，从而忽略了强大的Vim。

问题来源：

根据网络爬虫爬取了一些淘宝BBS的一些数据，dump出一些HTML文件数据，一共120多万行，如下所示:

分析发现，含有用户名的具有统一的class=“ext-ellipasis”,想把如lzxxcom这样的用户全部提取出来。

实现思路：

1：先提取出ext-ellopsis所在的行。

2：根据正则表达式提取所需要的用户信息。

具体实现

1：vim查询pattern出现的个数

命令:--------:%s/pattern/&/g

解释:&代表的意思就是用来表示前面比对的字串，所以做这个指令其实对档案本身并不会有什麽改变。但是由於做的是全域的取代置换，vim会告诉你有从多少行中多少个字串被取代。轻轻松松很漂亮地用一行命令解决这个问题。

可以看出一共找到18057个ext-ellipsis.

2:先提取出ext-ellipsis所在的行

用g命令轻松搞定

:g/pattern/d用于删除带有指定搜索内容的行。 :g!/pattern/d用于删除不带指定搜索内容的行。:g!命令也有一个别名是:v。

使用:g!/ext-ellipsis/d 命令结果如下所示：

3：根据正则表达式提取所需要的用户信息

Vim打开文件后，使用如下正则表达式

:%s/.*="$.*$".*/\1/g

得到如下结果

其中肯定有不少的重复的

进行以下操作

删除重复的用户名:

:g/^$.*$$\1$/d //去除重复行 :g/\%(^\1$\)\@<=$.*$$/d //功能同上，也是去除重复行 :g/\%(^\1\>.*$\)\@<=$\k\+$.*$/d //功能同上，也是去除重复行

再进行排序：

:sort //可以直接排序，这个太好用了

得到如下结果：

4：分行及E488:Trailingcharacters

原因为此特殊符号在替换中有特殊意义

比如-----:%s///\r/g(根据/进行分行)这样会出错，因为/有特殊含义。

必须改为-----:%s/\//\r/g 才可以

参考网站如下所示：

http://www.oschina.net/question/347219_124969-------提取文本指定内容

http://bbs.51cto.com/thread-964013-1.html----------删除重复行

http://edu.21cn.com/linux/g_188_793259-1.htm---------计算多少个搜寻关键词

http://www.cppblog.com/kefeng/archive/2010/10/20/130574.aspx?opt=admin-------正则表达式

那简单的除了之前说的那种统计坏的词，然后正则匹配的还有其他的吗？

相关问题推荐

等你来答

热门问答

相关文章

那简单的除了之前说的那种统计坏的词，然后正则匹配的还有其他的吗？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间