作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。
如果需要使用R语言进行文本挖掘和自然语言处理,那么字符串的操作时必不可少的,而其中一个重要内容就是使用正则表达式来匹配字符串中相应的内容,从而进行提取。在R语言中,能够完成这项工作的有基本包中的grep,stringr的str_extract等。这里首推stringr包,因为它具有更加直观的语法结构。下面给出两个较为好的资料的链接:
https://github.com/rstudio/cheatsheets/blob/master/regex.pdfgithub.com
https://github.com/rstudio/cheatsheets/blob/master/strings.pdfgithub.com
这两份资料基本涵盖了大部分的应用,不过很多时候如果不够熟练,还是要经常查表才能够知道怎么做。这里就提一个实际例子:如何提取文本中括号中的字符串信息呢?
例子:字符串为"hello world (lalala)",现在想要得到里面的“lalala”。
传统思维(注意括号是保留字符,因此需要双反斜杠,即“(”和“)”。此外,因为要临近括号的内容,因此不能贪婪,要懒惰,所以要用“.+?”,之所以用了加号“+”(而非乘号“*”),是因为如果里面没有东西就不要提取其中的空字符“”了):
library(stringr)
string1 = "hello world (lalala)"
str_extract(string1,"(.+?)")
[1] "(lalala)"
但是我并不想要括号,以前对正则表达式不熟悉的我,一般只能再次使用定位的方法去掉括号,也就是说:
library(tidyverse)
string1 = "hello world (lalala)"
string1 %>%
str_extract("(.+?)") %>%
str_sub(2,-2)
[1] "lalala"
嗯,这个方法用了很久了已经。感觉问题也不大,即从所得结果中再提取第二个字符到倒数第二个字符的内容,就把括号去掉了。
但事实上,本来是可以一步到位的,即:
str_extract(string1,"(?<=().+?(?=))")
[1] "lalala"
尽管一步到位了,但是要理解它,需要有基本功底。即,需要知道(?<=)和(?=)这两个分别代表什么意思。这个东西叫做零宽度断言(前后预查),具体内容可以参考下面这份资料:
ziishaned/learn-regexgithub.com
用语言来解释,就是在“(”之后而且在“)”之前的最短非空内容。所以要清楚这里面哪些括号有对应关系,才能够理解这个正则表达式("(?<=().+?(?=))")的真正意思。
以上内容参考了Extract info inside all parenthesis in R,特别致谢~