正则表达式-简单入门

Mario洁 发表于 2018-4-20 14:51:34

最近刷算法题，遇到了一个答案里面说到了正则表达式，之前在群里也看到有人说正则表达式怎么用，一直没
有留意，现在正好用到了，在这里总结一下。其实呢，百度一下有很多关于正则表达式的资料，这里我们进行
的不只是复制，还有就是简单的解释和理解。

这个正则表达式还是挺难理解的，但是我们静下心来慢慢的研究一番，还是能够找到一些规律的。

其实我们上了这么多年的学，也明白一个道理：凡事都是有规律可循的。
只要我们能够找到其中的规律，就能够短时间的使用这个知识，就例如我们大学一学期都在玩，考试前背书然
后通过考试一样，再例如我们初高中的数学，其实我们到了初三高三的时候会发现，只要我们找到了规律，一
眼就能看出出题人是什么意思，要考察的是哪个知识点，那么我们就能正确的解题了。

废话不说，来说说正则表达式。

引用网友的一句话：如果你不觉得正则表达式很难读写的话，要么你是一个天才，要么，你不是地球人。正则
表达式的语法很令人头疼，即使对经常使用它的人来说也是如此。
对于一个新的知识我们的认知过程无非就是：查资料了解--寻找规律--学会使用--解决问题--最后熟练精通使用。

在这里我们也用这个方法对正则表达式进行解释。那么我们首先来看看什么是正则表达式。

概念

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于
描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。

很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard)，也就是*和?。如果你想查找某个目录下的
所有的Word文档的话，你会搜索*.doc。在这里，*会被解释成任意的字符串。和通配符类似，正则表达式也
是用来进行文本匹配的工具，只不过比起通配符，它能更精确地描述你的需求——当然，代价就是更复杂——
比如你可以编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后
是7或8位数字的字符串(像010-12345678或0376-7654321)。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，
组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
下边我们说一下正则表达式的目的和特点：

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

1. 给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）；

2. 可以通过正则表达式，从字符串中获取我们想要的特定部分。
正则表达式的特点是：

1. 灵活性、逻辑性和功能性非常的强；

2. 可以迅速地用极简单的方式达到字符串的复杂控制。

3. 对于刚接触的人来说，比较晦涩难懂。
上边特点里面的第2点其实就是我们要学习正则表达式的一个核心目的，也是最主要最重要的目的，我们就是
要在短时间内迅速的利用极简单的方式达到字符串的复杂控制的目的。

首先添加传送门：算法面试题，也就是因为这里面的第一道题，我才有了开始了解正则的原因。

理解

我们这里以题目为媒介，通过具体的题目来学习，在实践中成长。

(^a{2}[^a])    以aa（第三个字母不是a）开头       ------（1）

([^a]a{2}[^a]) 字符串中间的aa（前后都不是a）    ------（2）

([^a]a{2}$)    以aa结尾（倒数第三个字母不是a） ------（3）
因为正则里面好多符号，【为了区分开，我在后边标注了（1）、（2）、（3）】

首先第1条里面我们把代码分开，首先我们看这个a{2}

根据上图，我们可以理解上边的a{2}的意思就是“把a重复2遍”。

再看这个[^a]

根据上图，我们可以理解上边的[^a]的意思就是“不是a”。

再看这个^

根据上图，我们可以理解上边的^的意思就是“开始的位置”。

那么我们就能够看出第一条的(^a{2}[^a])意思就是“字符串是aa开头，并且aa后边的字符不是a”，正好和人
家给的解释是一样的“以aa（第三个字母不是a）开头”。

同理我们就能知道第二条的意思了：([^a]a{2}[^a])意思就是“字符串是aa但是aa的前面一个字符不是a，并
且aa后边的一个字符也不是a”，和人家给的解释是一样的“字符串中间的aa（前后都不是a）”

第三条里面([^a]a{2}$)，我们去看上图的解释$的意思就是字符串结尾。那么第三条的意思就是“字符串aa，
前面的一个字符不是a，并且后边没有字符了”，和人家给的解释是一样的“以aa结尾（倒数第三个字母不是a）”。

这样的排列组合我们就可以判断apaapaaapaa -> apbbpaaapbb这道题里面，把所有连续出现的2个a替换成bb
（2个b），但是对于超过两个连续的a，那么这些字符都不作替换，这里连续的a出现了4次，只有第二段和最
后一段被替换。

当然正则表达式的作用其实就是在一段字符串里面查找特定的字符串，经常会有查找符合某些复杂规则的字符
串的需要，正则表达式就是用于描述这些规则的工具，其实吧，说的简单一些这个正则表达式是怎么回事呢：
其实就是NSString里面的stringByReplacingOccurrencesOfString这个方法，查找替换字符串，而正则表达式就
是对需要查找的复杂的字符串进行了封装。

下边我们来看看正则里面给封装好的一些字符串格式：

（1）、匹配中文字符的正则表达式：

用法：regex = new Regex("^[\\u4e00-\\u9fa5]+$");
这里就是说匹配所有中文，即：如果输入框里必须要求是中文，那么出现别的类似数字、字母、符号等就不
对了，这时就能用这个的非，就可以判断了。

（2）、匹配空白行的正则表达式：ns*r

可以用来删除空白行，一般情况我们不会用到这个，因为如果接口没有bug，不会给我们返回空白行。而我们
自己也不会写一个空白行。。。

（3）、匹配首尾空白字符的正则表达式：^s*|s*$

从上边的图我们可以看出小写的s匹配任何空白字符。之前我们了解到^表示开始的位置，*表示重复0次或
者更多次，那么^s*的意思就是“开始的位置是空白字符”，同理我们可以知道这个s*$的意思是“结尾的位置
是空白字符”。

可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式。

（4）、匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

表单验证时很实用。（这个有点复杂，，，不在咱们《入门》的范围内）

（5）、匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^{4,15}$

表单验证时很实用

（6）、匹配国内电话号码：d{3}-d{8}|d{4}-d{7}

匹配形式如 0311-4405222 或 010-87888822

（7）、匹配腾讯QQ号：{4,}

腾讯QQ号从10000开始

（8）、匹配身份证：d{15}|d{18}

中国的身份证为15位或18位

（9） ^+$　　匹配由数字和26个英文字母组成的字符串

（10） ^w+$　　                匹配由数字、26个英文字母或者下划线组成的字符串

（11）

说了这么多，我们应该大概的知道正则表达式是什么了：可以迅速地用极简单的方式达到字符串的复杂控制。

字符串可以由很多字符构成，各种字符的排列组合又生出各种规则的字符串，而一些特定的字符串是有自己
的规则的：例如手机号码最起码的要求是11位数字，这里面自然不能有字母、空格、汉字等。又例如某密码
设置只能是大小写字母，不能是汉字、特殊字符、空格等。那么我们就可以用正则表达式，比较简单的方式
，达到字符串复杂的筛选和判断的效果。

使用

那么我们在iOS中怎么使用这个正则表达式呢？

大概有三种方式使用：一种是和NSPredicate使用，一种是NSString的方法里面有一个可以使用，最后一个是
正则表达式类NSRegularExpression，这个应该才是最正规的。而我们command＋点击，进入这个正则表达
式的类里面进行查看的时候，发现里面并没有很多篇幅，对最一开始的正则表达式类的描述进行翻译：NSR
egularExpression is a class used to represent and apply regular expressions.An instance of this class is an im
mutable representation of a compiled regular expression pattern and various option flags.（NSRegularExpres
sion是一个类用来表示和应用正则表达式。这个类的实例是不可变的编译正则表达式模式和各种选项的旗帜）。

其实我们在自己的工程里面可以搜索一下“NSRegularExpression”，可以看到大多的是三方库里面进行了使用，
而我们自己使用的情况并不多，一是有的三方库为我们做好了处理，我们直接拿来用即可；另外也是由于这
个正则表达式虽然表达起来比较简单，但是学习和理解起来并不是那么容易，所以我们更多的选择是自己运
用自己会的知识对需求里面某些字符串限定要求作处理。

梦想家 发表于 2018-5-9 16:23:03

:victory:

页: [1]

51Testing软件测试论坛 's Archiver

正则表达式-简单入门