通常使用JavaScript正则表达式进行匹配提取。基本处理步骤为:
处理编码类型(可能需要转码处理)。node.js不能很好处理字符编码问题(默认UTF8),而在Windows中文区,一般文件内容编码大部分为GBK、GB2312之类的,你要转码为UTF8。(如果不存在编码问题,自然不必处理)
读取文本内容。
进行正则匹配中文部分。
最后进行处理(获取中文、或者替换为其他之类的)。
// 举个例子
let reg = /[\u4e00-\u9fa5]/g;
let str = "中文123Abc";
let regResult = str.match(reg);
console.log(regResult)