使用UltraEdit(简称UE)的替换功能,可以解决很多文本问题。

 

1. 删除所有空行

用UE打开需要处理的文本文件;

按Ctrl+R;

查找:^r^n^r^n

替换为:^r^n

点击“全部替换”;

单击”取消“关闭窗口;

Ctrl+S保存处理结果。

 

2. 在UltraEdit中使用正则表达式

正则表达式 (UltraEdit Syntax):

% 匹配行首 - 表明要搜索的字符串一定在行首.

$ 匹配行尾 - 表明要搜索的字符串一定在行尾

? 匹配除换行符外的任一单个字符.

* 匹配任意个数的字符出现任意次数(不包括换行符)

+ 匹配前导字符或者表达式出现一次或者更多次(不包括换行符)

++ 匹配前导字符或者表达式不出现或者出现一次以上(不包括换行符)

^b 匹配页中断符

^p 匹配DOS文件的换行符

^r 匹配MAC文件的换行符(CR Only)

^n 匹配UNIX文件的换行符 (LF Only)

^t 匹配一个制表符

[ ] 匹配方括号中的单个的字符

删除空行: 替换 %[ ^t]++^p 为 空串

删除行尾空格: 替换 [ ^t]+$ 为 空串

删除行首空格: 替换 %[ ^t]+ 为 空串

每行设置为固定的4个空格开头: 替换 %[ ^t]++^([~ ^t^p]^) 为 " ^1"

每段设置为固定的4个空格开头: 替换 %[ ^t]+ 为 " "

(如果一行是以空格开始的,则视之为一段的开始行)

将一段合并为一行: 替换 [ ^t]++^p^([~ ^t^p]^) 为 ^1

(注意: 此处假定文本是以DOS方式回车换行 - CR/LF)

去掉HTML TAG: 替换 ^{<*>^}^{<*^p*>^} 为 空串

删除HTML中的所有<A>: 替换 <[ ]++a *[ ]++href[ ]++=*> 为 空串

删除文本中指定的前2列字符: 替换 %?? 为 空串

在第4列后插入2列空白字符: 替换 %^(????^)^(?^) 为 "^1 ^2"

查找所有的数字: [0-9]+[.]++[0-9]+

查找所有的单词: [a-z]+

查找所有的网址: http://[a-z0-9^~`_./^-^?=&]+

注意: 替换的时候需要勾选使用正则表达式选项