地址:http://topic.csdn.net/u/20080925/15/41b814bf-fcaf-4b37-be91-10561a102768.html
摘抄:
str = str.replaceAll("[\\pP‘’“”]", "");
Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。
\pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。
大写 P 表示 Unicode 字符集七个字符属性之一:标点字符。
其他六个是
L:字母;
M:标记符号(一般不会单独出现);
Z:分隔符(比如空格、换行等);
S:符号(比如数学符号、货币符号等);
N:数字(比如阿拉伯数字、罗马数字等);
C:其他字符
上面这七个是属性,七个属性下还有若干个子属性,用于更进一步地进行细分。
Java 中用于 Unicode 的正则表达式数据都是由 Unicode 组织提供的。
Unicode 正则表达式标准(可以找到所有的子属性)
http://www.unicode.org/reports/tr18/
各 Unicode 字符属性的定义,可以用一看看某个字符具有什么属性。
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt
这个文本文档一行是一个字符,第一列是 Unicode 编码,第二列是字符名,第三列是 Unicode 属性,
以及其他一些字符信息。
分享到:
相关推荐
主要介绍了PHP实现将标点符号正则替换为空格的方法,结合实例形式分析了php针对符号的正则匹配相关操作技巧,需要的朋友可以参考下
主要介绍了JS使用replace()方法和正则表达式进行字符串的搜索与替换实例,需要的朋友可以参考下
JavaScript的RegExp对象和String对象定义了使用正则表达式来执行强大的模式匹配和文本检索与替换函数的方法. 在JavaScript中,正则表达式是由一个RegExp对象表示的.当然,可以使用一个RegExp()构造函数来创建RegExp...
这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。 <br>3.2 非打印字符 字符 含义 \cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之...
一个点号可以代替除了换行符(\n)以外的任何一个字符,包括但不限于英文字母、数字、汉字、英文标点符号和中文标点符号。 2.星号“*” 一个星号可以表示它前面的一个子表达式(普通字符、另一个或几个正则...
主要介绍了PHP把空格、换行符、中文逗号等替换成英文逗号的正则表达式,需要的朋友可以参考下
(1)设计正则表达式,生成长度为500的字符串,其中包括AB组合、大写字母、小写字母、数字及标点符号;(10分) (2)将其按照标点符号进行分隔,并以空格进行连接; (3)将字符串中的‘AB'替换为“**”,返回替换后的结果...
比较时自动忽略回车和半角空格,还有“忽略全角标点符号”和“忽略半角符号”的选项。 如果在比较中失去正确的位置对应,请分别在两个文件中重新设定往下比较的起始位置。 6.批处理 除了第5项功能之外,TextPro可以...
以下是解决的方法: ^(0│[1-9][0-9]*)$ "只有0和不以0开头的数字与之匹配",我们也可以允许一个负号再数字之前: ^(0│-?[1-9][0-9]*)$ 这就是: "0 或者 一个以0开头可能有一个负号在前面的数字." 好了, 好...
第四次作业 文本分类 姓名:李书铮 ...除了中文和英文字符,文本中可能包含各种特殊符号、标点符号或其他语言的字符,它们对文本分类任务也没有太大的意义。因此,我们可以使用正则表达式去除非中英
比较时自动忽略回车和半角空格,还有“忽略全角标点符号”和“忽略半角符号”的选项。 如果在比较中失去正确的位置对应,请分别在两个文件中重新设定往下比较的起始位置。 6.批处理 除了第5项功能之外,TextPro可以...
注意:需要设置cookie,并且替换网址(自己要爬...预处理文本:preprocess_text函数用于清理短评文本,移除标点符号和其他无关字符。 保存词频结果:save_word_counts_to_csv函数将词频分析的结果保存到另一个CSV文件中。
#使用正则表达式去除text文件内标点符号和换行符,替换为空格, text = re.sub(r'[^\W]',' ',text) #转换为小写 text = text.lower() #生成所有单词的列表。split将输入的字符串分割后为列表 word_lis
去掉标点符号,可以使用正则表达式,全角转半角等 长度过小的词,某些单字 全部转换为小写字母 去掉终止词 简单的名词替换 词性标注 分词的同时可以进行词性标注的工作,某些场景下可能只需要保留动词或者名词,形容...
它不能有任何标点符号,重音符号或空格字符; 另外,密码长度可以为6到32个字符。 输入: 该条目包含几个测试用例,并以文件结尾结尾。 每行都有一个S字符串,对应于用户在注册时输入的密码。 出口: 输出包含一...