五一电子阅读：《编程技巧》

1 正则表达式 <script>
strS="apple pear";
alert(strS.replace(/(\r\n)+/g,"\r\n"));

strS="apple\r\n\r\n\r\npear";
alert(strS);
alert(strS.replace(/(\r\n)+/g,"\r\n"));

</script>
如何删除空行作者: 61.142.212.* 2006-2-2 13:12 　回复此发言

2 正则表达式高级学习技巧前言
　　Regular Expressions(正则表达式,以下用RE称呼)对小弟来说一直都是神密的地带,看到一些网络上的大大,简单用RE就决解了某些文字的问题,小弟便兴起了学一学RE的想法,但小弟天生就比较懒一些,总希望看有没有些快速学习的方式,于是小弟又请出Google大神,藉由他的神力,小弟在网络上找到了Jim Hollenhorst先生的文章,经过了阅读,小弟觉得真是不错,所以就做个小心得报告,跟Move-to.Net的朋友分享,希望能为各位大大带来一丁点在学习RE时的帮助。Jim Hollenhorst大大文章之网址如下,有需要的大大可直接连结。

　　The 30 Minute Regex Tutorial By Jim Hollenhorst

　　http://www.codeproject.com/useritems/RegexTutorial.asp

　　什么是RE?
　　想必各位大大在做文件查找的时侯都有使用过万用字符”*”,比如说想查找在Windows目录下所有的Word文件时,你可能就会用”*.doc”这样的方式来做查找,因为”*”所代表的是任意的字符。RE所做的就是类似这样的功能,但其功能更为强大。

　　写程序时,常需要比对字符串是否符合特定样式,RE最主要的功能就是来描述这特定的样式,因此可以将RE视为特定样式的描述式,举个例子来说,”\w+”所代表的就是任何字母与数字所组成的非空字符串(non-null string)。在.NET framework中提供了非常强大的类别库,藉此可以很轻易的使用RE来做文字的查找与取代、对复杂标头的译码及验证文字等工作。

　　学习RE最好的方式就是藉由例子亲自来做做看。Jim Hollenhorst大大也提供了一个工具程序Expresso(来杯咖啡吧),来帮助我们学习RE,下载的网址是http://www.codeproject.com/useritems/RegexTutorial/ExpressoSetup2_1C.zip。

　　接下来,就让我们来体验一些例子吧。

　　一些简单的例子
　　假设要查找文章中Elvis后接有alive的文字符串的话,使用RE可能会经过下列的过程,括号是所下RE的意思:

　　1. elvis (查找elvis)

　　上述代表所要查找的字符顺序为elvis。在.NET中可以设定乎略字符的大小写,所以”Elvis”、”ELVIS”或者是”eLvIs”都是符合1所下的RE。但因为这只管字符出现的顺序为elvis,所以pelvis也是符合1所下的RE。可以用2的RE来改进。

　　2. \belvis\b (将elvis视为一整体的字查找,如elvis、Elvis乎略字符大小写时)
“\b”在RE中有特别的意思,在上述的例子中所指的就是字的边界,所以\belvis\b用\b把elvis的前后边界界定出来,也就是要elvis这个字。

　　假设要将同一行里elvis后接有alive的文字符串找出来,此时就会用到另外二个特别意义的字符”.”及”*”。”.”所代表就是除了换行字符的任意字符,而”*”所代表的是重复*之前项目直到找到符合RE的字符串。所以”.*”所指的就是除了换行字符外的任意数目的字符数。所以查找同一行里elvis后接有alive的文字符串找出来,则可下如3之RE。

　　3. \belvis\b.*\balive\b (查找elvis后面接有alive的文字符串,如elvis is alive)

　　用简单之特别字符就可以组成功能强大的RE,但也发现当使用越来越多的特别字符时,RE就会越来越难看得懂了。

再看看另外的例子
　　组成有效的电话号码

　　假使要从网页上收集顾客格式为xxx-xxxx的7位数字的电话号码,其中x是数字,RE可能会这样写。

　　4. \b\d\d\d-\d\d\d\d (查找七位数字之电话号码,如123-1234)
　　每一个\d代表一个数字。”-”则是一般的连字符号,为避免太多重复的\d,RE可以改写成如5的方式。

　　5. \b\d{3}-\d{4} (查找七位数字电话号码较好的方法,如123-1234)
　　在\d后的{3},代表重复前一个项目三次,也就是相等于\d\d\d。

　　RE的学习及测试工具 Expresso

　　因为RE不易阅读及使用者容易会下错RE的特性,Jim大大开发了一个工具软件Expresso,用来帮助使用者学习及测试RE,除了上面所述的网址之外,也可以上Ultrapico网站(http://www.Ultrapico.com)。安装完Expresso后,在Expression Library中,Jim大大把文章的例子都建立在其中,可以边看文章边测试,也可以试着修改范例所下的RE,马上可以看到结果,小弟觉得非常好用。各位大大可以试试。
作者: 61.142.212.* 2006-6-4 10:16 　回复此发言

3 正则表达式高级学习技巧
　　.NET中RE的基础概念
　　特殊字符

　　有些字符有特别的意义,比如之前所看到的”\b”、”.”、”*”、”\d”等。”\s”所代表的是任意空格符,比如说spaces、tabs、newlines等.。”\w”代表是任意字母或数字字符。

　　再看一些例子吧
　　6. \ba\w*\b (查找a开头的字,如able)
　　这RE描述要查找一个字的开始边界(\b),再来是字母”a”,再加任意数目的字母数字(\w*),再接结束这个字的结束边界(\b)。

　　7. \d+ (查找数字字符串)
　　“+”和”*”非常相似,除了+至少要重复前面的项目一次。也就是说至少有一个数字。

　　8. \b\w{6}\b (查找六个字母数字的字,如ab123c)

　　下表为RE常用的特殊字符

　　. 除了换行字符的任意字符
　　\w 任意字母数字字符
　　\s 任意空格符
　　\d 任意数字字符
　　\b 界定字的边界
　　^ 文章的开头,如”^The'' 用以表示出现于文章开头的字符串为”The”
　　$ 文章的结尾,如”End$”用以表示出现在文章的结尾为”End”
　　特殊字符”^”及”$”是用来查找某些字必需是文章的开头或结尾,这在验证输入是否符合某一样式时特别用有,比如说要验证七位数字的电话号码,可能会输入如下9的RE。

　　9. ^\d{3}-\d{4}$ (验证七位数字之电话号码)

　　这和第5个RE相同,但其前后都无其它的字符,也就是整串字符串只有这七个数字的电话号码。在.NET中如果设定Multiline这个选项,则”^”和”$”会每行进行比较,只要某行的开头结尾符合RE即可,而不是整个文章字符串做一次比较。

　　转意字符(Escaped characters)

　　有时可能会需要”^”、”$”单纯的字面意义(literal meaning)而不要将它们当成特殊字符,此时”\”字符就是用来移除特殊字符特别意义的字符,因此”\^”、”\.”、”\\”所代表的就是”^”、”.”、”\”的字面意义。

　　重复前述项目

　　在前面看过”{3}”及”*”可以用来重复前述字符,之后我们会看到如何用同样的语法重复整个次描述(subexpressions)。下表是使用重复前述项目的一些方式。

　　* 重复任意次数
　　+ 重复至少一次
　　? 重复零次或一次
　　{n} 重复n次
　　{n,m} 重复至少n次,但不超过m次
　　{n,} 重复至少n次

　　再来试一些例子吧

　　10. \b\w{5,6}\b (查找五个或六个字母数字字符的字,如as25d、d58sdf等)
　　11. \b\d{3}\s\d{3}-\d{4} (查找十个数字的电话号码,如800 123-1234)
　　12. \d{3}-\d{2}-\d{4} (查找社会保险号码,如 123-45-6789)
　　13. ^\w* (每行或整篇文章的第一个字)
　　在Espresso可试试有Multiline和没Multiline的不同。

　　匹配某范围的字符

　　有时需要查找某些特定的字符时怎么辨?这时中括号”[]”就派上了用场。因此[aeiou]所要查找的是”a”、”e”、”i”、”o”、”u”这些元音,[.?!]所要查找的是”.”、”?”、”!”这些符号,在中括号中的特殊字符的特别意义都会被移除,也就是解译成单纯的字面意义。也可以指定某些范围的字符,如”[a-z0-9]”,所指的就是任意小写字母或任意数字。

　　接下来再看一个比较初复杂查找电话号码的RE例子

　　14. \(?\d{3}[( ] \s?\d{3}[- ]\d{4} (查找十位数字之电话号码,如(080) 333-1234 )

　　这样的RE可查找出较多种格式的电话号码,如(080) 123-4567、511 254 6654等。”\(?”代表一个或零个左小括号”(“,而”[( ]”代表查找一个右小括号”)”或空格符,”\s?”指一个或零个空格符组。但这样的RE会将类似”800) 45-3321”这样的电话找出来,也就是括号没有对称平衡的问题,之后会学到择一(alternatives)来决解这样的问题。

　　不包含在某特定字符组里(Negation)

　　有时需要查找在包含在某特定字符组里的字符,下表说明如何做类似这样的描述。
作者: 61.142.212.* 2006-6-4 10:16 　回复此发言

4 正则表达式高级学习技巧
　　\W 不是字母数字的任意字符
　　\S 不是空格符的任意字符
　　\D 不是数字字符的任意字符
　　\B 不在字边界的位置
　　[^x] 不是x的任意字符
　　[^aeiou] 不是a、e、i、o、u的任意字符

　　15. \S+ (不包含空格符的字符串)

　　择一(Alternatives)

　　有时会需要查找几个特定的选择,此时”|”这个特殊字符就派上用场了,举例来说,要查找五个数字及九个数字(有”-”号)的邮政编码。

　　16. \b\d{5}-\d{4}\b|\b\d{5}\b (查找五个数字及九个数字(有”-”号)的邮政编码)

　　在使用Alternatives时需要注意的是前后的次序,因为RE在Alternatives中会优先选择符合最左边的项目,16中,如果把查找五个数字的项目放在前面,则这RE只会找到五个数字的邮政编码。了解了择一,可将14做更好的修正。

　　17. ($\d{3}$|\d{3})\s?\d{3}[- ]\d{4} (十个数字的电话号码)

　　群组(Grouping)

　　括号可以用来介定一个次描述,经由次描述的介定,可以针对次描述做重复或及他的处理。

　　18. (\d{1,3}\.){3}\d{1,3} (寻找网络地址的简单RE)

　　此RE的意思第一个部分(\d{1,3}\.){3},所指的是,数字最小一位最多三位,并且后面接有”.”符号,此类型的共有三个,之后再接一到三位的数字,也就是如192.72.28.1这样的数字。

　　但这样会有个缺点,因为网络地址数字最多只到255,但上述的RE只要是一到三位的数字都是符合的,所以这需要让比较的数字小于256才行,但只单独使用RE并无法做这样的比较。在19中使用择一来将地址的限制在所需要的范围内,也就是0到255。

　　19. ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?) (寻找网络地址)

　　有没有发觉RE越来越像外星人说的话了?就以简单的寻找网络地址,直接看RE都满难理解的哩。

　　Expresso Analyzer View

　　Expresso提供了一个功能,它可以将所下的RE变成树状的说明,一组组的分开说明,提供了一个好的除错环境。其它的功能,如部分符合(Partial Match只查找反白RE的部分)及除外符合(Exclude Match只不查找反白RE的部分)就留给各位大大试试啰。

　　当次描述用括号群组起来时,符合次描述的文字可用在之后的程序处理或RE本身。在预设的情型下,所符合的群组是由数字命名,由1开始,由顺序是由左至右,这自动群组命名,可在Expresso中的skeleton view或result view中看到。

　　Backreference是用来查找群组中抓取的符合文字所相同的文字。举例来说”\1”所指符合群组1所抓取的文字。

　　20. \b(\w+)\b\s*\1\b (寻找重复字,此处说的重复是指同样的字,中间有空白隔开如dog dog这样的字)
(\w+)会抓取至少一个字符的字母或数字的字,并将它命名为群组1,之后是查找任意空格符,再接和群组1相同的文字。

　　如果不喜欢群组自动命名的1,也可以自行命名,以上述例子为例,(\w+)改写为(?<Word>\w+),这就是将所抓取的群组命名为Word,Backreference就要改写成为\k<Word>
21. \b(?<Word>\w+)\b\s*\k<Word>\b (使用自行命名群组抓取重复字)

　　使用括号还有许多特别的语法元素,比较通用的列表如下:

　　抓取(Captures)
　　(exp) 符合exp并抓取它进自动命名的群组
　　(?<name>exp) 符合exp并抓取它进命名的群组name
　　(?:exp) 符合exp,不抓取它
　　Lookarounds
　　(?=exp) 符合字尾为exp的文字
　　(?<=exp) 符合前缀为exp的文字
　　(?!exp) 符合后面没接exp字尾的文字
　　(?<!exp) 符合前面没接exp前缀的文字
　　批注Comment
　　(?#comment) 批注

　　Positive Lookaround

　　接下来要谈的是lookahead及lookbehind assertions。它们所查找的是目前符合之前或之后的文字,并不包含目前符合本身。这些就如同”^”及”\b”特殊字符,本身并不会对应任何文字(用来界定位置),也因此称做是zero-width assertions,看些例子也许会清楚些。
作者: 61.142.212.* 2006-6-4 10:16 　回复此发言

5 正则表达式高级学习技巧
　　(?=exp)是一个”zero-width positive lookahead assertion”。它指的就是符合字尾为exp的文字,但不包含exp本身。

　　22. \b\w+(?=ing\b) (字尾为ing的字,比如说filling所符合的就是fill)
(?<=exp)是一个”zero-width positive lookbehind assertion”。它指的就是符合前缀为exp的文字,但不包含exp本身。

　　23. (?<=\bre)\w+\b (前缀为re的字,比如说repeated所符合的就是peated)
　　24. (?<=\d)\d{3}\b (在字尾的三位数字,且之前接一位数字)
　　25. (?<=\s)\w+(?=\s) (由空格符分隔开的字母数字字符串)

　　Negative Lookaround

　　之前有提到,如何查找一个非特定或非在特定群组的字符。但如果只是要验证某字符不存在而不要对应这些字符进来呢?举个例子来说,假设要查找一个字,它的字母里有q但接下来的字母不是u,可以用下列的RE来做。

　　26. \b\w*q[^u]\w*\b (一个字,其字母里有q但接下来的字母不是u)

　　这样的RE会有一个问题,因为[^u]要对应一个字符,所以若q是字的最后一个字母,[^u]这样的下法就会将空格符对应下去,结果就有可能会符合二个字,比如说”Iraq haha”这样的文字。使用Negative Lookaround就能解决这样的问题。

　　27. \b\w*q(?!u)\w*\b (一个字,其字母里有q但接下来的字母不是u)
　　这是”zero-width negative lookahead assertion”。

　　28. \d{3}(?!\d) (三个位的数字,其后不接一个位数字)

　　同样的,可以使用(?<!exp),”zero-width negative lookbehind assertion”,来符合前面没接exp前缀的文字符串。

　　29. (?<![a-z ])\w{7} (七个字母数字的字符串,其前面没接字母或空格)

　　30. (?<=<(\w+)>).*(?=<\/\1>) (HTML卷标间的文字)
　　这使用lookahead及lookbehind assertion来取出HTML间的文字,不包括HTML卷标。

　　请批注(Comments Please)
　　括号还有个特殊的用途就是用来包住批注,语法为”(?#comment)”,若设定”Ignore Pattern Whitespace”选项,则RE中的空格符当RE使用时会乎略。此选项设定时,”#”之后的文字会乎略。

　　31. HTML卷标间的文字,加上批注

　　(?<= 　#查找前缀,但不包含它
　　<(\w+)> #HTML标签
　　) #结束查找前缀
　　.* #符合任何文字
　　(?= #查找字尾,但不包含它
　　<\/\1> #符合所抓取群组1之字符串,也就是前面小括号的HTML标签
　　) #结束查找字尾

　　寻找最多字符的字及最少字符的字(Greedy and Lazy)
　　当RE下要查找一个范围的重复时(如”.*”),它通常会寻找最多字符的符合字,也就是Greedy matching。举例来说。

　　32. a.*b (开始为a结束为b的最多字符的符合字)

　　若有一字符串是”aabab”,使用上述RE所得到的符合字符串就是”aabab”,因为这是寻找最多字符的字。有时希望是符合最少字符的字也就是lazy matching。只要将重复前述项目的表加上问号(?)就可以把它们全部变成lazy matching。因此”*?”代表的就是重复任意次数,但是使用最少重复的次数来符合。举个例子来说:

　　33. a.*?b (开始为a结束为b的最少字符的符合字)

　　若有一字符串是”aabab”,使用上述RE第一个所得到的符合字符串就是”aab”再来是”ab”,因为这是寻找最少字符的字。

　　*? 重复任意次数,最少重复次数为原则
　　+? 重复至少一次,最少重复次数为原则
　　?? 重复零次或一次,最少重复次数为原则
　　{n,m}? 重复至少n次,但不超过m次,最少重复次数为原则
　　{n,}? 重复至少n次,最少重复次数为原则

还有什么没提到呢?

　　到目前为止,已经提到了许多建立RE的元素,当然还有许多元素没有提到,下表整理了一些没提到的元素,在最左边的字段的数字是说明在Expresso中的例子。

　　# 语法说明

　　\a Bell 字符
　　\b 通常是指字的边界,在字符组里所代表的就是backspace
　　\t Tab

　　34 \r Carriage return

　　\v Vertical Tab
　　\f From feed

　　35 \n New line
　　\e Escape

　　36 \nnn ASCII八位码为nnn的字符

　　37 \xnn 十六位码为nn的字符

　　38 \unnnn Unicode为nnnn的字符

　　39 \cN Control N字符,举例来说Ctrl-M是\cM

　　40 \A 字符串的开始(和^相似,但不需籍由multiline选项)

　　41 \Z 字符串的结尾
　　\z 字符串的结尾

　　42 \G 目前查找的开始

　　43 \p{name} Unicode 字符组名称为name的字符,比如说\p{Lowercase_Letter} 所指的就是小写字
　　(?>exp) Greedy次描述,又称之为non-backtracking次描述。这只符合一次且不采backtracking。

　　44 (?<x>-<y>exp)

　　or (?-<y>exp) 平衡群组。虽复杂但好用。它让已命名的抓取群组可以在堆栈中操作使用。(小弟对这个也是不太懂哩)

　　45 (?im-nsx:exp) 为次描述exp更改RE选项,比如(?-i:Elvis)就是把Elvis大乎略大小写的选项关掉

　　46 (?im-nsx) 为之后的群组更改RE选项。
　　(?(exp)yes|no) 次描述exp视为zero-width positive lookahead。若此时有符合,则yes次描述为下一个符合标的,若否,则no 次描述为下一个符合标的。
　　(?(exp)yes) 和上述相同但无no次描述
　　(?(name)yes|no) 若name群组为有效群组名称,则yes次描述为下一个符合标的,若否,则no 次描述为下一个符合标的。

　　47 (?(name)yes) 和上述相同但无no次描述

　　结论
　　经过了一连串的例子,及Expresso的帮忙,相信各位大大对RE有个基本的了解,网络上当然有许多有关于RE的文章,如果各位大大有兴趣http://www.codeproject.com 还有许多关于RE的相关文章。若大大对书有兴趣的话,Jeffrey Friedl的Mastering Regular Expressions很多大大都有推(小弟还没拜读)。希望籍由这样的心得报告,能让对RE有兴趣的大大能缩短学习曲线,当然这是小弟第一次接触RE,若文章中有什么错误或说明的不好的地方,可要请各位大大体谅,并请各位大大将需要修正的地方mail给小弟,小弟会非常感谢各位大大。作者: 61.142.212.* 2006-6-4 10:16 　回复此发言

6 回复:正则表达式字符串中的正则表达式特殊符号
双面提供　时时整理

问题:
String s1="111+222+333";
System.out.println(s1.split("+").length);
//输出时提示错误:
java.util.regex.PatternSyntaxException: Dangling meta character '+' near index
问题出现在加号附近,查询相关的资料显示,+、*、|、\等符号在正则表达示中有相应的不同意义。

正则表达式的基本用法 zt
1、“.”为通配符,表示任何一个字符,例如:“a.c”可以匹配“anc”、“abc”、“acc”;
2、“[]”,在[]内可以指定要求匹配的字符,例如:“a[nbc]c”可以匹配“anc”、“abc”、“acc;
但不可以匹配“ancc”,a到z可以写成[a-z],0到9可以写成[0-9];

3、数量限定符号,表示匹配次数(或者叫做长度)的符号:

包括:“*”——0次或者多次
“+”——1次或者多次
“?”——0次或者1次
“{n}”——匹配n次,n为整数
“{n,m}”——匹配从n到m之间的某个数的次数;n和m都是整数;
“{n,}”——匹配n到无穷次之间任意次数;
“{,m}”——匹配0到m之间任意次数;
他们放到匹配格式的后面:
例如:
电话号码:024-84820482,02484820482(假设前面3或者4位,后面7或者8位,并且中间的减号可有可无)

都是符合规定的,那么可以用如下格式来匹配:[0-9]{3,4} \-? [0-9]{7,8};
注意:“\”为转义字符,因为“-”在正则表达式用有代表一个范围的意义,例如:前面所说的[0-9],
所以它需要转义字符“\”进行转义才可使用;

4、“^”为否符号,表示不想匹配的符号,例如:[^z][a-z]+可以匹配所有除“z”开头的以外的所有字

符串(长度大于2,因为“+”表示大于等于1的次数,从第二位开始都是小写英文字符);
如果^放到[]的外边则表示以[]开头的字符串;^[az][a-z]+表示a或者z开头的长度大于等于2的英文字符串;

5、“|”或运算符,例如:a[n|bc|cb]c可以匹配“abcc”,“anc”,“acbc”;
6、“$”以它前面的字符结尾的;例如:ab+$就可以被“abb”,“ab”匹配;

7、一些简单表示方法:
\d表示[0-9];\D表示[^0-9];\w表示[A-Z0-9];\W表示[^A-Z0-9];\s表示[\t\n\r\f],就是空格字符包括tab,空格等等;\S表示[^\t\n\r\f],就是非空格字符;

明白了这些以后,我们再返回头看看它们如何被运用呢？一般来讲只需要加[]、或是\\即可。

举例来讲:
String s1="111+222+333";
System.out.println(s1.split("[+]").length);
或是
String s1="111+222+333";
System.out.println(s1.split("\\+").length);

其他用法类同。作者: 202.105.20.* 2006-9-23 13:09 　回复此发言

7 括号在正则表达式中作用(javascript) 括号在正则表达式中作用。

1:把不同的item分为一组,这样这些item可以被|,*,+,?等看作一个整体而使用,列如:

/java(script)?/与后面跟了可选的”script”的”java”相匹配。/(ab|cd)+|ef)或者跟一个或多个

“ab”或者”cd”相匹配或者与”ef”相匹配。

2:在完整的模式中定义子模式。当一个正则表达式成功地和目标字符串相匹配时,可以从目标串中抽出和括号中的子模式相匹配的部分.例如,假定我们正在检索的模式是一个或多个字母后面跟随一位或多位数字,那么我们可以使用模式 / [a-z] + \ d+/.但是由于假定我们真正关心的是每个匹配尾部的数字,那么如果我们将模式的数字部分放在括号中 (/ [a-z] + (\d+)/) ,我们就可以从所检索到的任何匹配中抽取数字了

3:代括号的子表达式的另一个用途是,允许我们在同一正则表达式的后面引用前面的子表达式.这是通过在字符串 \ 后加一位或多位数字来实现的.数字指的是代括号的子表达式在正则表达式中的位置.例如: \1 引用的是第一个代括号的子表达式. \3 引用的是第三个代括号的子表达式.注意:因为字表达式可能嵌套在其他表达式中。这个位置是被计数的左括号的位置。在下面的正则表达式中。\2是指向([Ss]cript)这个子表达式的。

/([Jj]ava([Ss]cript)?)\sis\s(fun\w*)/

一个指向前面所说的字表达式的引用并不是指子表达式这个模式本身,而是指这个表达式所代表的模式所表示的内容。因此,引用可以被用来施加一个规则。即,你所引用的那部分必须和前面他所表示的内容一致。下面的正则表达式匹配的就是位于单引号或双引号之内的所有字符.然而,它不要求开始和结束的引号匹配(例如两个都是双引号或者都是单引号):

/[' "] [^ ' "]*[' "]/

要开始和结束的引号相匹配的话,我们可以用一个引用:

/(['"])[^'"]*\1/

\1和第一个被括号括起来的子表达式相匹配。在这个列子里他强制开始和结束的引号必须是一样的。或者都是单引号或者都是双引号。

但/(['"])[^\1]* \1/是不合法的,原文这样说的It is not legal to use a reference within a character class, so we cannot write:(这里的a character class现在我不知道指什么)

Javascript1.5,可以把items分为一组,但不进行引用的计数。方式是用

(?: )而不是().如:/([Jj]ava(?:[Ss]cript)?)sis\s(fun\w*)/

这里子表达式(?:[Ss]cript)不会被\数字所表示的引用计数。也是是说(?:[Ss]cript)不创建一个引用。\2 指向(fun\w*)而不是(?:[Ss]cript) 作者: 61.142.182.* 2006-10-11 13:24 　回复此发言

8 常用正则表达式 "^\d+$"　　//非负整数(正整数 + 0)
"^[0-9]*[1-9][0-9]*$"　　//正整数
"^((-\d+)|(0+))$"　　//非正整数(负整数 + 0)
"^-[0-9]*[1-9][0-9]*$"　　//负整数
"^-?\d+$"　　　　//整数
"^\d+(\.\d+)?$"　　//非负浮点数(正浮点数 + 0)
"^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"　　//正浮点数
"^((-\d+(\.\d+)?)|(0+(\.0+)?))$"　　//非正浮点数(负浮点数 + 0)
"^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"　　//负浮点数
"^(-?\d+)(\.\d+)?$"　　//浮点数
"^[A-Za-z]+$"　　//由26个英文字母组成的字符串
"^[A-Z]+$"　　//由26个英文字母的大写组成的字符串
"^[a-z]+$"　　//由26个英文字母的小写组成的字符串
"^[A-Za-z0-9]+$"　　//由数字和26个英文字母组成的字符串
"^\w+$"　　//由数字、26个英文字母或者下划线组成的字符串
"^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"　　　　//email地址
"^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"　　//url
/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日
/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年
"^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$" //Emil
"(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?" //电话号码
"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$" //IP地址

匹配中文字符的正则表达式: [\u4e00-\u9fa5]
匹配双字节字符(包括汉字在内):[^\x00-\xff]
匹配空行的正则表达式:\n[\s| ]*\r
匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/
匹配首尾空格的正则表达式:(^\s*)|(\s*$)
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配网址URL的正则表达式:^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
匹配国内电话号码:(\d{3}-|\d{4}-)?(\d{8}|\d{7})?
匹配腾讯QQ号:^[1-9]*[1-9][0-9]*$

元字符及其在正则表达式上下文中的行为:

\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。

^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的Multiline 属性,^ 也匹配 ’\n’ 或 ’\r’ 之后的位置。

$ 匹配输入字符串的结束位置。如果设置了 RegExp 对象的Multiline 属性,$ 也匹配 ’\n’ 或 ’\r’ 之前的位置。

* 匹配前面的子表达式零次或多次。

+ 匹配前面的子表达式一次或多次。+ 等价于 {1,}。

? 匹配前面的子表达式零次或一次。? 等价于 {0,1}。

{n} n 是一个非负整数,匹配确定的n 次。

{n,} n 是一个非负整数,至少匹配n 次。

{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。在逗号和两个数之间不能有空格。

? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。

. 匹配除 "\n" 之外的任何单个字符。要匹配包括 ’\n’ 在内的任何字符,请使用象 ’[.\n]’ 的模式。
(pattern) 匹配pattern 并获取这一匹配。

(?:pattern) 匹配pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。

(?=pattern) 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
作者: 218.13.64.* 2006-11-1 19:53 　回复此发言

9 常用正则表达式
(?!pattern) 负向预查,与(?=pattern)作用相反

x|y 匹配 x 或 y。

[xyz] 字符集合。

[^xyz] 负值字符集合。

[a-z] 字符范围,匹配指定范围内的任意字符。

[^a-z] 负值字符范围,匹配任何不在指定范围内的任意字符。

\b 匹配一个单词边界,也就是指单词和空格间的位置。

\B 匹配非单词边界。

\cx 匹配由x指明的控制字符。

\d 匹配一个数字字符。等价于 [0-9]。

\D 匹配一个非数字字符。等价于 [^0-9]。

\f 匹配一个换页符。等价于 \x0c 和 \cL。

\n 匹配一个换行符。等价于 \x0a 和 \cJ。

\r 匹配一个回车符。等价于 \x0d 和 \cM。

\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。

\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

\t 匹配一个制表符。等价于 \x09 和 \cI。

\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。

\W 匹配任何非单词字符。等价于 ’[^A-Za-z0-9_]’。

\xn 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。

\num 匹配 num,其中num是一个正整数。对所获取的匹配的引用。

\n 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为后向引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。

\nm 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式,则 nm 为后向引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。

\nml 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。

\un 匹配 n,其中 n 是一个用四个十六进制数字表示的Unicode字符。

匹配中文字符的正则表达式: [u4e00-u9fa5]

匹配双字节字符(包括汉字在内):[^x00-xff]

匹配空行的正则表达式:n[s| ]*r

匹配HTML标记的正则表达式:/<(.*)>.*</1>|<(.*) />/

匹配首尾空格的正则表达式:(^s*)|(s*$)

匹配Email地址的正则表达式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

匹配网址URL的正则表达式:http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?

利用正则表达式限制网页表单里的文本框输入内容:

用正则表达式限制只能输入中文:onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^u4E00-u9FA5]/g,''))"

用正则表达式限制只能输入全角字符: onkeyup="value=value.replace(/[^uFF00-uFFFF]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^uFF00-uFFFF]/g,''))"

用正则表达式限制只能输入数字:onkeyup="value=value.replace(/[^d]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^d]/g,''))"

用正则表达式限制只能输入数字和英文:onkeyup="value=value.replace(/[W]/g,'') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^d]/g,''))" 作者: 218.13.64.* 2006-11-1 19:53 　回复此发言

10 回复:正则表达式贴一些我收集的关于正则表达式的文章,资源以及相关链接我会修改本帖补充。

正则表达式库 http://regexlib.com/default.aspx
正则表达式在线验证(荐) http://osteele.com/tools/rework/#
正则表达式在线演示 http://osteele.com/tools/reanimator/
正则表达式在线验证(中文) http://www.regexlab.com/zh/workshop.asp
RegexBuddy最好的正则表达式学习验证工具 http://www.regexbuddy.com/

先贴这些,想到后再补充。作者: 61.142.177.* 2006-11-19 00:19 　回复此发言

11 http://www.cn-dos.net/forum/viewthread.php?tid=24206 9. 单词边界

元字符>也是一种对位置进行匹配的“锚”。这种匹配是0长度匹配。
有4种位置被认为是“单词边界”:
1) 在字符串的第一个字符前的位置(如果字符串的第一个字符是一个“单词字符”)
2) 在字符串的最后一个字符后的位置(如果字符串的最后一个字符是一个“单词字符”)
3) 在一个“单词字符”和“非单词字符”之间,其中“非单词字符”紧跟在“单词字符”之后
4) 在一个“非单词字符”和“单词字符”之间,其中“单词字符”紧跟在“非单词字符”后面
“单词字符”是可以用“\w”匹配的字符,“非单词字符”是可以用“\W”匹配的字符。在大多数的正则表达式实现中,“单词字符”通常包括>。
例如:>能够匹配单个的4而不是一个更大数的一部分。这个正则表达式不会匹配“44”中的4。
换种说法,几乎可以说>匹配一个“字母数字序列”的开始和结束的位置。
“单词边界”的取反集为>,他要匹配的位置是两个“单词字符”之间或者两个“非单词字符”之间的位置。
. 深入正则表达式引擎内部
让我们看看把正则表达式>应用到字符串“This island is beautiful”。引擎先处理符号>。因为\b是0长度 ,所以第一个字符T前面的位置会被考察。因为T是一个“单词字符”,而它前面的字符是一个空字符(void),所以\b匹配了单词边界。接着>和第一个字符“T”匹配失败。匹配过程继续进行,直到第五个空格符,和第四个字符“s”之间又匹配了>。然而空格符和>不匹配。继续向后,到了第六个字符“i”,和第五个空格字符之间匹配了>,然后>和第六、第七个字符都匹配了。然而第八个字符和第二个“单词边界”不匹配,所以匹配又失败了。到了第13个字符i,因为和前面一个空格符形成“单词边界”,同时>和“is”匹配。引擎接着尝试匹配第二个>。因为第15个空格符和“s”形成单词边界,所以匹配成功。引擎“急着”返回成功匹配的结果。作者: 61.142.177.* 2006-11-19 00:37 　回复此发言

12 回复:正则表达式 Asp正则表达式在UBB论坛中的应用
发表日期:2005-09-17作者:[转贴] 出处:

一、读者指引
　　读者指引帮助你掌握本文的梗概。以免你看了大半才明白这编文章不适合你,给你造成视觉污染。
　　如果你正在用ASP写程序,或者你正在写一些诸如BBS、留言溥或表单数据检查之类的东东那就值得一看。

　　如果你对正则表达式已经了如指掌,那么你不必一行行的看,只要看看我写的模板,再比较一下,取其精华就行了。
　　如果你还是第一次接触正则表达式,那么你最好一行行的看,并逐条试验

　　当你熟练的掌握了正则表达式的用法,你就会发现其乐无穷。

二、正则表达式的概念

　　什么是UBB代码？什么是正则表达式？

　　UBB代码是HTML的一个变种。一般情况下,UBB论坛不允许你使用HTML代码,而只能用UBB代码替代HTML代码。
　　UBB代码是一套由流行的UBB标签组成了固定代码,代码有统一的格式。用户只要遵循代码规则就可以实现用户想要的功能。如:
　　想要显示粗体的how are you 字样,就应该输入 how are you而不是输入how are you

　　你也许会问:ASP是怎样把 how are you转换为how are you的呢？
　　回答这个问题就是:用正则表达式。

三、正则表达式的用途

有时我们在制作网站表单数据处理的时候(尤其是UBB论坛),都需要进行数据验证和字符串替代,特别是UBB论坛要进行大量的数据安全性和字符串替代

邮于一般的论坛不支持HTML语法这就使得用户不能修改字体,不能贴图等等一些功能。这样使得论坛失去了吸引用户的一个强有力的途径。可能说一个强大的论坛在吸引用户数量上还是很重要的。这样就出现了一个UBB解决方案,即在论坛不支持HTML语法的情况下用户仍然可以定制自已贴子的样式,贴图,增加链接,转贴网页等等诸多的功能,可能达到支持HTML语法同样的效果,而且这样可以使得论坛相对于HTML的论坛安全性大大提高。用户基本不能对论坛过行任何恶意攻击。

四、正则表达式的语法规则和标记

　　现在我们正式进入则表达式的学习,我会根据实例结合讲解正则表达式的用法,看完后你就会觉得写UBB代码如此简单了,只要你一步一步的跟着我学看完本文章后你就成为UBB高手了。激动人心的就是你能写出自已的UBB标签来了,再也不用到别人那里去拷贝现成的代码和模板了。还好VBScritp5.0给我们提供了“正则表达式”对象,只要你的服务器安装了IE5.x,就可以运行了.

　　字符描述:

　　^符号匹配字符串的开头。例如:
　　　　^abc　与“abc xyz”匹配,而不与“xyz abc”匹配

　　$符号匹配字符串的结尾。例如:
　　　　abc$　与“xyz abc”匹配,而不与“abc xyz”匹配。
　　　　注意:如果同时使用^符号和$符号,将进行精确匹配。例如:
　　　　　　　^abc$　只与“abc”匹配　　　

　　*符号匹配0个或多个前面的字符。例如:
　　　　ab*　可以匹配“ab”、“abb”、“abbb”等

　　+符号匹配至少一个前面的字符。例如:
　　　　ab+　可以匹配“abb”、“abbb”等,但不匹配“ab”。

　　?符号匹配0个或1个前面的字符。例如:
　　　　ab?c?　可以且只能匹配“abc”、“abbc”、“abcc”和“abbcc”

　　.符号匹配除换行符以外的任何字符。例如:
　　　　(.)+　匹配除换行符以外的所有字符串

　　x|y匹配“x”或“y”。例如:
　　　　abc|xyz　可匹配 “abc”或 “xyz”,而“ab(c|x)yz”匹配 “abcyz”和“abxyz”

　　{n}匹配恰好n次(n为非负整数)前面的字符。例如:
　　　　a{2}　可以匹配“aa“,但不匹配“a”

　　{n,}匹配至少n次(n为非负整数)前面的字符。例如:
　　　　a{3,}　匹配“aaa”、“aaaa”等,但不匹配“a”和“aa”。
作者: 61.142.212.* 2006-12-1 17:03 　回复此发言

13 回复:正则表达式　　　　注意:a{1,}等价于a+
　　　　　　　a{0,}等价于a*

　　{m,n}匹配至少m个,至多n个前面的字符。例如:
　　　　a{1,3}　只匹配“a”、“aa”和“aaa”。
　　　　注意:a{0,1}等价于a?

　　[xyz]表示一个字符集,匹配括号中字符的其中之一。例如:
　　　　[abc]　匹配“a”、“b”和“c”

　　[^xyz]表示一个否定的字符集。匹配不在此括号中的任何字符。例如:
　　　　[^abc]　可以匹配除“a”、“b”和“c”之外的任何字符

　　[a-z]表示某个范围内的字符,匹配指定区间内的任何字符。例如:
　　　　[a-z]　匹配从“a”到“z”之间的任何一个小写字母字符

　　[^m-n]表示某个范围之外的字符,匹配不在指定范围内的字符。例如:
　　　　[m-n]　匹配除从“m”到“n”之间的任何字符

　　\符号是转义操作符。例如:
　　　　\n　换行符
　　　　\f　分页符
　　　　\r　回车
　　　　\t　制表符
　　　　\v　垂直制表符

　　　　\\　匹配“\”
　　　　\/　匹配“/”

　　　　\s　任何白字符,包括空格、制表符、分页符等。等价于“[ \f\n\r\t\v]”
　　　　\S　任何非空白的字符。等价于“^\f\n\r\t\v]”
　　　　\w　任何单词字符,包括字母和下划线。等价于“[A-Za-z0-9_]”
　　　　\W　任何非单词字符。等价于“[^A-Za-z0-9_]”

　　　　\b匹配单词的结尾。例如:
　　　　　　ve\b　匹配单词“love”等,但不匹配“very”、“even”等

　　　　\B匹配单词的开头。例如:
　　　　　　ve\B　匹配单词“very”等,但不匹配“love”等

　　　　\d匹配一个数字字符,等价于[0-9]。例如:
　　　　　　abc\dxyz　匹配“abc2xyz”、“abc4xyz”等,但不匹配“abcaxyz”、“abc-xyz”等

　　　　\D匹配一个非数字字符,等价于[^0-9]。例如:
　　　　　　abc\Dxyz　匹配“abcaxyz”、“abc-xyz”等,但不匹配“abc2xyz”、“abc4xyz”等

　　　　\NUM匹配NUM个(其中NUM为一个正整数),引用回到记住的匹配。例如:
　　　　　　(.)\1　匹配两个连续相同的字符。

　　　　\oNUM匹配n(其中n为一个小于256的八进制换码值)。例如:
　　　　　　\o011　匹配制表符

　　　　\xNUM匹配NUM(其中NUM为一个小于256的十六进制换码值)。例如:
　　　　　　\x41　匹配字符“A”

五、实例分析

1)在字符串中精确查找链接地址

((http|https|ftp):(\/\/|\\\\)((\w)+[.]){1,}(net|com|cn|org|cc|tv|[0-9]{1,3})(((\/[\~]*|\\[\~]*)
(\w)+)|[.](\w)+)*(((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*)

我们知道,链接地址一般以http或者https或者ftp等形式出现。初步总结一下就是,链接地址必须符合如下条件:

条件1
　以http://或者https://或者ftp://等开头(当然还有其它形式,这里只列出主要的)

条件2
　http://后面必须跟一个单词字符,紧接着单词字符后面的是"."(这样的组合必须出现一次或多次)。紧跟着“.”后面的是域名后缀(如net或者com或者cn等,如果是以IP地址的形式出现就可以是数字)

条件3
　出现完整的链接地址后,还可以出现下一级或者更多级的目录(还要注意个人主页的地址有可能出现"~"符号)

条件4
　链接地址末尾可以带参数。如典型的页数?PageNo=2&action=display等

现在我们用下面的代码来逐个匹配上面的条件——

1、((http|https|ftp):(\/\/|\\\\) 满足条件1
表示http:// http:\\ https:// https:\\ ftp:// ftp:\\都匹配(在这里考虑了某些用户可能把"//"输成“\\”的易发性错误)
注意:"|"表示“或者”,"\"是转义字符。“\/\/”表示"//",“\\\\”表示"\\"

2、((\w)+[.]){1,}(net|com|cn|org|cc|tv|[0-9]{1,3}) 满足条件2
“((\w)+[.]){1,}”表示一个单词字符加一个点号可以出现1次或者多次(这里考虑了某些用户喜欢省略www而将http://www.w3c.com写成http://w3c.com)
作者: 61.142.212.* 2006-12-1 17:03 　回复此发言

14 回复:正则表达式 “(net|com|cn|org|cc|tv|[0-9]{1,3})”表示必须要以net或者com或者cn或者org或者cc或者tv或者三位以下的数字结束
[0-9]{1,3}表示三位以下的数字,因为ip地址的任何段不能超过255

3、(((\/[\~]*|\\[\~]*)(\w)+)|[.](\w)+)* 满足条件3
“(\/[\~]*|\\[\~]*)”表示可以出现"/~"或者是"\~",(其中“[\~]*”表示 ~ 可以出现也可以不出现),因为不是每个链接地址都有下一级目录
“(\w)+)|[.](\w)+)”表示必须出现一个单词字符(即目录或者是一个带有扩展名的文件)
注意:最后还有一个“*”表示上面括号内的可以出现也可以不出现,否则就只能匹配有下一级目录的链接地址了。

4、(((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*)满足条件4
“((([?](\w)+){1}[=]*))*((\w)+){1}”表示形如"?PageNo=2"的字符串可以出现也可以不出现,如果出现则只能出现一次(因为不可能有两个“？”号出现)。

“([\&](\w)+[\=](\w)+)*)”表示形如“&action=display”的字符串可以出现也可以不出现(因为并不是每个网页都带有两个以上的参数。

整个“((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*”表示形如“?PageNo=2&action=display”的字符串可以出现也可以不出现(即链接地址可以有参数也可以没有参数)

把上面的组合起来,我们就可以匹配一个比较全面的链接地址了。比用简单的“(http:\/\/\S+)”来匹配一个链接地址要好,读者可以自行行测试比较。当然,这段代码还有很多不足之处,希望大家能够继续改进。

2)替代典型的UBB标签:
我们的目的就是要把成对的替换成下面来看我们实现它的模板
　　(\[b\])(.+)(\[\/b\])
这里用了"(.+)"来配匹到之间的整个字符串,在替代的时候我们要写成这样
　　str=checkexp(re,str,"$2")
(注意:checkexp是我自定义的函数,将在后面给出。这个函数将把按照我们提供的模板进行替代。)

也许你会问这里出现一个"$2"是什么东东,呵注意了这个$2可是很重要的,它代表了"(.+)"所配匹的整个字符串。
为什么是$2而不是$1、$3呢？因为$1代表(\[b\])所匹配的""字符串,$3代表(\[\/b\])所匹配的""字符串,显然这里我们需要的是$2而不是$1$3。

六)UBB正则表达模板实例
下面是我写的一个UBB函数,这个函数基本上能使你的论坛成为一个优秀的UBB代码论坛了。当然,通过改进后,你可以得到一个更强大的UBB论坛。

Function ReThestr(face,str)
　dim re,str

　re="\>"
　str=checkexp(re,str,">")

　re="\<"
　str=checkexp(re,str,"<")

　re="\n\r\n/"
　str=checkexp(re,str,"")

　re=chr(32)
　str=checkexp(re,str," ")

　re="\r"
　str=checkexp(re,str," ")

　re="\[img\]((http:(\/\/|\\\\)){1}((\w)+[.]){1,3}(net|com|cn|org|cc|tv)(((\/[\~]*|\\[\~]*)
(\w)+)|[.](\w)+)*(\w)+[.]{1}(gif|jpg|png))\[\/img\]" ''查找图片地址
　str=checkexp(re,str," <img src=''$1''> ")

　re="\[w\](http:(\/\/|\\\\)((\w)+[.]){1,}(net|com|cn|org|cc|tv)(((\/[\~]*|\\[\~]*)(\w)+)|[.](\w)+)*
(((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*)\[\/w\]" ''查找帧地址
　str=checkexp(re,str,"<iframe width=''300'' height=''300'' src=''$1''></iframe>")

　re="([^(''>)])( )*((http|https|ftp):(\/\/|\\\\)((\w)+[.]){1,}(net|com|cn|org|cc|tv|([0-9]{1,3}))(((\/[\~]*|\\[\~]*)(\w)+)|[.](\w)+)*(((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*)" ''查找链接地址
　str=checkexp(re,str,"$1$2 <a href=''$3'' target=_blank>$3</a> ")

　re="([^(http://|http:\\)])((www|cn)[.](\w)+[.]{1,}(net|com|cn|org|cc)(((\/[\~]*|\\[\~]*)(\w)+)|[.](\w)+)*
作者: 61.142.212.* 2006-12-1 17:03 　回复此发言

15 回复:正则表达式 (((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*)" ''查找不以http://开头的地址
　str=checkexp(re,str,"$1 <a href=''http://$2'' target=_blank>$2</a> ")

　re="([^(=)])((\w)+[@]{1}((\w)+[.]){1,3}(\w)+)" ''查找邮件地址
　str=checkexp(re,str," <a href=''mailto:$2''>$2</a> ")

　re="\[0-F])\]((.)+)\[\/color\]" ''替换字体色彩
　str=checkexp(re,str,"$4")

　re="\{1})\]((.)+)\[\/size\]" ''替换字体大小
　str=checkexp(re,str,"$2")

　re="$(.)+)\[\/font\]" ''替换字体
　str=checkexp(re,str,"$3")

　re="(\[b\])(.+)(\[\/b\])" ''加粗字体
　str=checkexp(re,str,"$2")

　re="(\[u\])(.+)(\[\/u\])" ''下画线
　str=checkexp(re,str,"$2")

　re="(\[li\])(.+)(\[\/li\])" ''列表
　str=checkexp(re,str,"<li>$2</li>")

　re="(\[QUOTE\])(.+)(\[\/QUOTE\])" ''引用
　str=checkexp(re,str,"<BLOCKQUOTE>引用:<HR SIZE=1>$2<HR SIZE=1></BLOCKQUOTE>")

　re="${1,3}(\w)+)\](.+)(\[\/email\])" ''邮件
　str=checkexp(re,str,"<a href=mailto:$1>$6</a>")

　re="(\[center\])(.+)(\[\/center\])" ''居中
　str=checkexp(re,str,"<center>$2</center>")

　re="fuck"
　str=checkexp(re,str,"***")

　re="操"
　str=checkexp(re,str,"***")

　re="sex"
　str=checkexp(re,str,"***")

　re="TMD"
　str=checkexp(re,str,"***")

　re="shit"
　str=checkexp(re,str,"***")

　ReThestr=str
end function

UBB代码如下:

[email=]
引用:
--------------------------------------------------------------------------------

--------------------------------------------------------------------------------

[li] [/li]
测试代码如下:

http://cn.yahoo.com
http://aol.com http://192.168.0.1
www.yahoo.com how are you
http://page2000.xiloo.com/~page2000?PageNo=2&action=del
lucaihui@cmmail.com 大家好http:\\page2000.shit
http://test.comhttp://test
全部符合预想结果

七)ASP正则表达式对像函数如下:
Function CheckExp(patrn,strng,tagstr)
　Dim regEx,Matches

　Set regEx=New RegExp''建立一个新对像
　regEx.Pattern=patrn''设置模板
　regEx.IgnoreCase=true''搜索是否区分大小写的 true表是不区分 flase表示区分
　regEx.Global=True''搜索是否应用于整个字符串

　Matches=regEx.replace(strng,tagstr)''匹配并替代字符串

　CheckExp=Matches返回函数结果
end function

把上面的两个函数存为一个页面(如ubbcode.asp),这样就组成一个完整的UBB函数了。
在你的论坛上加上这个函数,就成了支持UBB代码的论坛了。只要在用时调用这个函数就行了。调用形式如
　text=ReThestr(text)