前阶段工作时遇到一个截取字符串的问题,由于字符串比较长,大概得几万字符吧(XML形式),要提取中间两个节点之间的内容,在网上费了好大功夫才找到能用的正则。工作当用的时候碰到这样的事最蛋疼了,网上的资源虽多,但是要筛选,既费时又费心,还烦躁。

      现在得闲了,就为大家总结一下.NET截取字符串的方法,为了直观起见,我把每个方法用控制台演示一下,不足请补充,不好请见谅哈。

①string.Substring

      这个方法地球人都知道了,但是为了刚入门的小弟小妹看的直观,我写个超简单的代码运行一下:

string str = "abcdefghijk";
            string subStr = str.Substring(0, 5);
            Console.Write(subStr);
            Console.ReadKey();

      结果:abcde,见下图:

    

提取字符串种的 emjo 字符串信息提取_正则表达式

记住以0开始),第二个参数是截取的字符串长度。

      特殊的,比如说截取最后三个字符:

string str = "abcdefghijk";
            string subStr = str.Substring(str.Length - 3, 3);
            Console.Write(subStr);
            Console.ReadKey();

      结果:ijk,见下图:

    

提取字符串种的 emjo 字符串信息提取_bc_02

     实际就是变化一下思维。

     Substring经常和indexof函数配合使用,活学活用,没事可以搜搜相关的资料,最好能实践一下,加深印象。

②string.Split

     Split函数可以来截取带有特殊字符的字符串,比如说有个时间格式是这样的时间:2014-2-8,我要把它的年月日分别拿出来,你可以使用常规方法,也可以用Split函数:

string str = "2014-2-8";
            string[] stArray = str.Split(new char[1] { '-' });
            string subStrYear = stArray[0];
            string subStrMonth = stArray[1];
            string subStrDay = stArray[2];
            Console.Write(subStrYear);
            Console.Write("\n");
            Console.Write(subStrMonth);
            Console.Write("\n");
            Console.Write(subStrDay);
            Console.ReadKey();

     结果:

    

提取字符串种的 emjo 字符串信息提取_bc_03

     如果有多个特殊字符,比如:aa-bb-cc|dd|ee|ff,把Split参数换成new char[2] { ‘-’,’|’ }即可。

     Split函数还可以和正则表达式一起使用截取字符串:

string str = "韦---德--你------真-棒";
            string[] strArray = System.Text.RegularExpressions.Regex.Split(str1, @"\-+");
            foreach (string i in strArray)
            Console.Write(i.ToString());
            Console.ReadKey();

     结果:

    

提取字符串种的 emjo 字符串信息提取_字符串_04

③正则表达式:

     首先提醒下,使用正则表达式需引用命名空间:System.Text.RegularExpressions;

     正则表达式用处广泛,截取个字符串什么的当然不在话下,在网上随便一搜,眼花缭乱的,但是到底能不能用,还得自己亲力亲为一下,自己试过能用才是真的能用。下面是我找了几个能用的正则演示一下:

1."(?<=(‘截取开始位置’))[.\\s\\S]*?(?=(‘截取结束位置’))"

string str = "aabbccdd<Msg>This is I want</Msg>eeffgghh";
            string subStart = "<Msg>";
            string subEnd = "</Msg>";
            Regex MsgRegex = new Regex("(?<=(" + subStart + "))[.\\s\\S]*?(?=(" + subEnd + "))", RegexOptions.Multiline | RegexOptions.Singleline);
            Match MsgMc = MsgRegex.Match(str);
            string subString = MsgMc.Groups[0].Value;
            Console.Write(subString);
            Console.ReadKey();

     结果:

   

提取字符串种的 emjo 字符串信息提取_提取字符串种的 emjo_05

2."(?i)(?<=截取开始位置)[^\"]*(?=截取结束位置)"

string str = "aabbccdd<Msg>This is I want again</Msg>eeffgghh";
            Match MsgMc = Regex.Match(str, "(?i)(?<=<Msg>)[^\"]*(?=</Msg>)");
            string subString = MsgMc.Groups[0].Value;
            Console.Write(subString);
            Console.ReadKey();

    结果:

   

提取字符串种的 emjo 字符串信息提取_提取字符串种的 emjo_06

    就举这两个例子吧,我不会写,也不好找。不会写得学啊,我在CSDN碰到了一个正则的大神推荐给大家,大家可以到他的空间学习:

    过客:

    在这些方法的基础上再拓展和举一反三,应付截取字符串的工作应该问题不大了。好了,不早了,洗洗睡了。

提取字符串种的 emjo 字符串信息提取_字符串_07