正则表达式匹配中文问题
在正则中匹配中文是匹配的Unicode的编码\u4e00-\u9fa5
假如说出现了生僻字,会不会没有出现在这段编码之中呢???
那这样的话怎么判断是否为中文呢??
求解
[解决办法]
也可以使用 [\p{InCJK Unified Ideographs}&&\P{Cn}] 这个比较有扩展性,比如 Unicode 在 U+9FA6 新加了一个字的话,这也能匹配
发布时间: 2012-04-13 13:50:24 作者: rapoo
正则表达式匹配中文问题
在正则中匹配中文是匹配的Unicode的编码\u4e00-\u9fa5
假如说出现了生僻字,会不会没有出现在这段编码之中呢???
那这样的话怎么判断是否为中文呢??
求解
[解决办法]
也可以使用 [\p{InCJK Unified Ideographs}&&\P{Cn}] 这个比较有扩展性,比如 Unicode 在 U+9FA6 新加了一个字的话,这也能匹配