0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于正则表达式(regex)的插图指南

m3Fp_almosthuma 来源:机器之心 2020-01-27 11:02 次阅读

这篇博客是关于正则表达式(regex)的插图指南,旨在为那些从来没有使用过正则表达式,想尝试但又望而生畏的新手提供一个简单介绍。

所以,欢迎使用正则表达式…

对于大多数没有接受过正式 CS 教育的人来说,正则表达式似乎只有最核心的 Unix 程序员才敢碰。

一个好的正则表达式看起来像魔法,但请记住:任何足够先进的技术都无法与魔法区分开来。

所以,就让我们揭开正则表达式的神秘面纱!

如果你理解正则表达式,它会突然变成一个超快速和强大的工具……但你首先需要理解它,老实说,我觉得新手可能会对它望而生畏!

让我们从基础开始。正则表达式(regex)是什么?它们的用途是什么?

Regex 新手上路

本质上来看,正则表达式是定义一种搜索模式的字符序列。

正则表达式通常用于 grep 等工具中,以在较长文本字符串中查找模式。

考虑以下一个 cat.txt 文件:

catcat2dog

如果我们使用正则表达式 cat 来搜索匹配项,我们会找到以下匹配项:

catcat2

高级用户需要注意的是,本文存在一个技术上的错误,即正则表达式和使用正则表达式的工具(如 grep)混为了一谈。

正则表达式适用于字符,而不是单词

需要反复强调的一个重要问题是:正则表达式适用于字符,而不是单词。隐含串联。

如果我们使用正则表达式搜索模式 cat,则不会查找单词「cat」,而会查找字符 c、a 和 t。

点和星号

最基本的字符是单个字符,如 a、b、c 等。现在让我们介绍以下两种特殊的字符。

.(点)字符可以匹配*任何单个字符*。例如,如果我们搜索 c.t,则将匹配从 cat 到 c0t 或 cAt 的任何内容,并将匹配任何单个字符 c +任何字符+单个字符 t。

*(星号)字符有点困难。它修改它前面的字符,然后匹配该字符的*零个或多个字符*。的确如此。例如,cat*可以匹配 cat、catt、cattttt 以及 ca。

示例分析:The cat ate my homework

假设我们逐行读取一个文件,则第一行如下所示:

The cat ate my homework.

让我们看看如何匹配该行中的模式 cat。

我们首先将该模式的首字符与句子中的首字符匹配。

如果找不到匹配项,则跳转至该行中的下一个字符,然后再从模式的首字符开始。

如果我们找到一个匹配项,则将跳转至模式和该行中的下一个字符,然后重复这个过程。当我们找到整个模式的匹配时,返回找到匹配项的行。

这就是正则表达式最基本、最常用的功能,即在较大的字符串中查找较小的搜索模式。

讲到这里,我想大家已经大致了解了什么是正则表达式以及它的两个特殊字符: .(点)和 *(星号)。接下来,我会为大家介绍更多其他内容。

正则表达式三叉戟

正则表达式的各个部分可以由三个不同的组件组成:

锚点

字符集

修饰符

这三部分构成了正则表达式的三叉戟!

让我们从三叉戟的第一个部分开始:锚点!

锚点

锚点指定个各行的模式位置。下面是两个最重要的锚点:

^(插入符号)将模式固定到行首。例如,模式^1 匹配以 1 开头的任意行。

$(美元符)将模式固定到句尾。例如,9$匹配以 9 结尾的任意行。

注意,在以上两种情况下,锚点必须分别位于模式的开头和结尾。^1 匹配行首的 1,但 1^匹配后跟^的 1。类似地,1$匹配以 1 结尾的行,但$1 匹配一个该行任意位置后跟 1 的美元符号。

字符集

三叉戟的第二部分:字符集。字符集是正则表达式的基础。单个字符,比如 a,是最基本的字符集(一组元素)。但是 [0-9] 等正则表达式可以匹配任何一个数字,或者如果你能回想到 *的含义,则可以制作模式 [0-9][0-9](这个模式匹配的内容留给读者作为练习)。

其他一些重要的字符集:

[0-9] 匹配 0…9 中的任何一个数字

[a-z] 匹配任何小写字母

[A-Z] 匹配任何大写字母

我们还可以对多个字符集进行组合:

[A-ZA-Z0-9] 匹配任何大小写字母和单个数字。

修饰符

此部分内容没有深入展开,以前面遇到的一个修饰符 *(星号)为例。修饰符改变它前面字符的含义。还有很多其他的修饰符,但以* 为例进行讨论是一个很好的开始。

如下所示:让我们快速将文本转储到文件中。

$ echo "The cat jumps long time Then we also have the fact that these are words. 1234 this is a test post please ignore." >> grep.txt

这是现在文件中的内容。

$ cat grep.txtThe cat jumps long timeThen we also have the fact that these are words.1234thisisatestpostpleaseignore.

寻找 cat。

$ grep "cat" grep.txtThe cat jumps long time

寻找任何以数字^[0-9] 开始的任意行。

$ grep "^[0-9]" grep.txt1234 this is a test post please ignore.

就是这样!你刚刚使用了正则表达式。太棒了。

总结

回顾一下这篇博客的内容:

正则表达式的基本功能;

正则表达式的三个主要组件:锚点、字符集和修饰符。

.(点)、*(星号)、^(插入符)和$(美元符号)。

一些字符集 [0-9]、[a-z]、[A-Z] 和它们的组合。

这篇博客的目的是通过带插图的介绍使用户更轻松地了解正则表达式。

如果能够克服技术上的困难,则最终可以掌握这种相对简单但功能却很强大的正则表达式工具,从而为任何数据科学家带来宝贵的价值。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 字符
    +关注

    关注

    0

    文章

    229

    浏览量

    24885
  • 正则表达式
    +关注

    关注

    0

    文章

    25

    浏览量

    3432

原文标题:新手上路:图文解读助你理解和使用正则表达式

文章出处:【微信号:almosthuman2014,微信公众号:机器之心】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    你还不会gvim正则表达式?一文搞懂!

    gvim正则表达式常在命令行模式下使用,一般用于文本文件字符串的替换、删除等操作。
    的头像 发表于 01-19 16:47 308次阅读

    GVIM正则表达式介绍和使用示例

    的Ken Thompson借用这个概念并将它应用到了文本编辑器中。后面正则表达式的说法进入到了大家常用的vi、vim、gvim当中。
    的头像 发表于 12-18 15:09 380次阅读
    GVIM<b class='flag-5'>正则表达式</b>介绍和使用示例

    linux正则表达式匹配字符串

    在Linux操作系统中,正则表达式是一种强大的模式匹配工具,它可以用于在文本中查找、替换和筛选特定的字符串。准确掌握正则表达式的语法和常见应用,对于Linux系统的管理员和开发人员来说
    的头像 发表于 11-23 10:26 323次阅读

    什么是正则表达式正则表达式如何工作?哪些语法规则适用正则表达式

    正则表达式又称规则表达式(Regular Expression,在代码中常简写为 regex、regexp 或 RE),是一种用于匹配、查找、替换文本的强大工具。它能够以特定的模式匹配字符串,从而
    的头像 发表于 11-03 14:41 549次阅读
    什么是<b class='flag-5'>正则表达式</b>?<b class='flag-5'>正则表达式</b>如何工作?哪些语法规则适用<b class='flag-5'>正则表达式</b>?

    Java Lambda表达式的新特性

    Java Lambda表达式是Java 8中最重要的新特性之一。 它们是一种可传递的匿名函数,可以作为参数传递给方法或存储在变量中,因此可以在需要的时候调用它们。 基础 1. 简介 Lambda
    的头像 发表于 09-30 10:29 2287次阅读

    怎么去选择使用gm的三种表达式呢?

    我们在写跨导gm的表达式时,知道gm有三种表达式表达式含有的变量其实只有三个,一个W/L,一个Vgs-Vth,还有一个Id。
    的头像 发表于 09-17 15:31 3023次阅读
    怎么去选择使用gm的三种<b class='flag-5'>表达式</b>呢?

    C#模式匹配完全指南

    要使用模式匹配,首先要了解什么是模式。在使用正则表达式匹配字符串时,正则表达式自己就是一个模式,而对字符串使用这段正则表达式进行匹配的过程就是模式匹配。而在代码中也是同样的,我们对对象采用某种模式进行匹配的过程就是模式匹配。
    的头像 发表于 09-13 17:33 272次阅读

    zabbix触发器表达式 基本RS触发器表达式 rs触发器的逻辑表达式

    zabbix触发器表达式 基本RS触发器表达式 rs触发器的逻辑表达式  Zabbix是一款开源的监控软件,它能通过监控指标来实时监测服务器和网络的运行状态,同时还能提供警报和报告等功能来帮助管理员
    的头像 发表于 08-24 15:50 1202次阅读

    如何使用lambda表达式提升开发效率?

    Java8 的一个大亮点是引入 Lambda 表达式,使用它设计的代码会更加简洁。当开发者在编写 Lambda 表达式时,也会随之被编译成一个函数式接口。
    发表于 08-24 10:25 170次阅读

    Python中的正则表达式

    哈喽大家好,我是了不起,今天给大家讲Python中的正则表达式 在Python中,正则表达式是一种强大的文本处理工具,它可以用来匹配、搜索、替换文本。正则表达式是一个特殊的字符序列,它可以描述一类
    的头像 发表于 06-21 16:52 708次阅读

    OpenHarmony中使用正则表达式

    本文主要介绍笔者在做开源鸿蒙应用开发时,ArkTs 中使用正则表达式处理像 string 等字符串对象。
    的头像 发表于 06-06 09:24 651次阅读

    一文详解Verilog表达式

    表达式由操作符和操作数构成,其目的是根据操作符的意义得到一个计算结果。表达式可以在出现数值的任何地方使用。
    的头像 发表于 05-29 16:23 1920次阅读
    一文详解Verilog<b class='flag-5'>表达式</b>

    shell脚本基础:正则表达式grep

    在Linux上有许多命令可以使用正则表达式,其中最常见的是grep命令和sed命令。正则表达式有多种类型,每种类型中可以使用的元字符类型不同。最常见的是基本正则表达式和扩展正则表达式
    的头像 发表于 05-29 09:29 766次阅读
    shell脚本基础:<b class='flag-5'>正则表达式</b>grep

    KiCad 7中添加网络类(一):通配符与正则表达式

    : 但到7.0版本后,很多小伙伴发现添加网络类没办法手动选择了,只能通过正则表达式来“匹配”需要选择的网络,显得很不方便。 开发者给出的解释是这样可以排除掉大部分自动生成的“匿名”网络,同时让
    发表于 05-24 14:41

    Linux入门之正则表达式

    正则表达式是用来表达字符串匹配模式的方法,利用正则表达式,可以让我们轻易地实现对目标字符串的**查找**、**删除**、**替换**等操作。 正则表达式并不复杂,它并不包含难以理
    的头像 发表于 05-12 15:31 564次阅读
    Linux入门之<b class='flag-5'>正则表达式</b>