ITPub博客

首页 > 大数据 > 数据挖掘 > MongoDB中regex用法

MongoDB中regex用法

原创 数据挖掘 作者:好程序员 时间:2020-12-02 16:09:38 0 删除 编辑

   好程序员大数据培训分享MongoDB regex 用法 Part1: 写在最前

   使用MySQL 或其他关系型数据库的朋友们都知道,使用模糊查询的用法类似于:

   SELECT*FROMproductsWHEREskulike"%789";

   本文中介绍的MongoDB 中的 regex 就是实现类似功能的, regex 为能使你在查询中使用正则表达式。本文会用简单的实例带您了解 MongoDB regex 的用法 ~

 

Part2: 用法

 

使用$regex 时,有以下几种用法:

 

{<field>:{$regex:/pattern/,$options:'<options>'}}

 

{<field>:{$regex:'pattern',$options:'<options>'}}

 

{<field>:{$regex:/pattern/<options>}}

 

option 参数的含义:

 

选项含义使用要求

 

i 大小写不敏感

 

m

 

查询匹配中使用了锚,例如^ (代表开头)和 $ (代表结尾),以及匹配 \n 后的字符串

 

x

 

忽视所有空白字符

 

要求$regex $option 合用

 

s 允许点字符( . )匹配所有的字符,包括换行符。要求 $regex $option 合用

 

实战

 

Part1:$in 中的用法

 

要在$in 查询中包含正则表达式,只能使用 JavaScript 正则表达式对象(即 /pattern/ )。例如:

 

{name:{$in:[/^acme/i,/^ack/]}}

 

Warning: 警告 $in 中不能使用 $regex 运算符表达式。

 

Part2: 隐式 and 用法

 

要在逗号分隔的查询条件中包含正则表达式,请使用$regex 运算符。例如:

 

{name:{$regex:/acme.*corp/i,$nin:['acmeblahcorp']}}

 

{name:{$regex:/acme.*corp/,$options:'i',$nin:['acmeblahcorp']}}

 

{name:{$regex:'acme.*corp',$options:'i',$nin:['acmeblahcorp']}}

 

Part3:x s 选项

 

要使用x 选项或 s 选项,要求 $regex $option 合用。例如,要指定 i s 选项,必须使用 $options 来执行以下操作:

 

{name:{$regex:/acme.*corp/,$options:"si"}}

 

{name:{$regex:'acme.*corp',$options:"si"}}

 

Part4: 索引的使用

 

对于区分大小写的正则表达式查询,如果字段存在索引,则MongoDB 将正则表达式与索引中的值进行匹配,这比全表扫描更快。如果正则表达式是“前缀表达式”,那么可以优化查询速度,且查询结果都会以相同的字符串开头。

 

正则表达式也要符合“最左前缀原则”,例如,正则表达式 /^abc.*/ 将通过仅匹配以 abc 开头的索引值来进行优化。

 

Warning: 警告

 

1. 虽然 /^a/ /^a.*/ /^a.*$/ 匹配等效字符串,但它们的性能是不一样的。如果有对应的索引,所有这些表达式就都使用索引 ; 不过, /^a.*/ /^a.*$/ 较慢。这是因为 /^a/ 可以在匹配前缀后停止扫描。

 

2. 不区分大小写的正则表达式查询通常不能使用索引, $regex 无法使用不区分大小写的索引。

 

Part5: 实例

 

一个商品的集合中,存了以下内容

 

{"_id":100,"sku":"abc123","description":"Singlelinedescription."}

 

{"_id":101,"sku":"abc789","description":"Firstline\nSecondline"}

 

{"_id":102,"sku":"xyz456","description":"Manyspacesbeforeline"}

 

{"_id":103,"sku":"xyz789","description":"Multiple\nlinedescription"}

 

如果想对该商品products 集合执行一个查询,范围是 sku 列中的内容是 789 结尾的:

 

db.products.find({sku:{$regex:/789$/}})

 

结合MySQL 理解的话,上述查询在 MySQL 中是这样的 SQL:

 

SELECT*FROMproductsWHEREskulike"%789";

 

如果想查询sku abc ABC 开头的,且匹配时忽略大小写,可以使用 i 选项:

 

db.products.find({sku:{$regex:/^ABC/i}})

 

查询结果为:

 

{"_id":100,"sku":"abc123","description":"Singlelinedescription."}

 

{"_id":101,"sku":"abc789","description":"Firstline\nSecondline"}

 

Part6:m 的使用

 

想查询描述中是包含S 开头的,且要匹配 /n 后的 S 开头的,则需要加 m 选项

 

db.products.find({description:{$regex:/^S/,$options:'m'}})

 

返回的结果是:

 

{"_id":100,"sku":"abc123","description":"Singlelinedescription."}

 

{"_id":101,"sku":"abc789","description":"Firstline\nSecondline"}

 

如果不加m 选项的话,返回的结果是这样的:

 

{"_id":100,"sku":"abc123","description":"Singlelinedescription."}

 

如果不使用^ 这类锚的话,那么会返回全部结果:

 

db.products.find({description:{$regex:/S/}})

 

{"_id":100,"sku":"abc123","description":"Singlelinedescription."}

 

{"_id":101,"sku":"abc789","description":"Firstline\nSecondline"}

 

Part7:s 的使用

 

使用s 选项来执行查询,则会让逗号 . 匹配所有字符,包括换行符,下文查询了 description 列中 m 开头,且后面包含 line 字符串的结果:

 

db.products.find({description:{$regex:/m.*line/,$options:'si'}})

 

{"_id":102,"sku":"xyz456","description":"Manyspacesbeforeline"}

 

{"_id":103,"sku":"xyz789","description":"Multiple\nlinedescription"}

 

如果不包含s ,则会返回:

 

{"_id":102,"sku":"xyz456","description":"Manyspacesbeforeline"}

 

Part8:x 的使用

 

以下示例使用x 选项忽略空格和注释,用#表示注释,并以匹配模式中的 \n 结尾:

 

varpattern="abc#categorycode\n123#itemnumber"

 

db.products.find({sku:{$regex:pattern,$options:"x"}})

 

查询的结果是:

 

{"_id":100,"sku":"abc123","description":"Singlelinedescription."}

 

可以看出,其忽略了abc #category 的空格以及 #category code 的空格,实际执行的查询是 sku abc123 的结果。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69913864/viewspace-2738860/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2019-03-20

  • 博文量
    342
  • 访问量
    155234