nodejs 如何刷选出文本中的所有中文

2020-09-24 社会 100阅读

通常使用JavaScript正则表达式进行匹配提取。基本处理步骤为:

  1. 处理编码类型(可能需要转码处理)。node.js不能很好处理字符编码问题(默认UTF8),而在Windows中文区,一般文件内容编码大部分为GBK、GB2312之类的,你要转码为UTF8。(如果不存在编码问题,自然不必处理)

  2. 读取文本内容。

  3. 进行正则匹配中文部分。

  4. 最后进行处理(获取中文、或者替换为其他之类的)。

// 举个例子
let reg = /[\u4e00-\u9fa5]/g;
let str = "中文123Abc";
let regResult = str.match(reg);
console.log(regResult)
声明:你问我答网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系fangmu6661024@163.com