文本去重工具

当前位置 : 主页 > 房产 >
文本去重工具
* 来源 :http://www.pusatherbal-indonesia.com * 作者 : * 发表时间 : 2017-09-23 16:33 * 浏览 :

  在一些文本数据处理中,我们希望去掉重复的字或者是重复的行,这个工具可以派上用场。

  文字去重:对文本单个段落中每个字进行检查,发现重复的字仅保留首次出现的字。如果文本有多个段落,段落之间不进行检查。

  分隔符去重:按照指定字符对文本进行分段检查,发现重复段则删除。这个功能在词组重复项检查中非常有用,例如“中国 美国 美国 法国”这段文本,指定空格为分隔符,则第二个“美国”被删除。分隔符可以指定为任何字符,甚至是多个字符并用。