How Tokenizer Works

—

由

日语自然语言处理（Japanese NLP）前的重要步骤是对文本进行标记处理：也即是把文本段落基于Lattice-based方式通过遍历递归的方式拆分成独立的词组。采集所有可能的子字串（日语单词辞书包含的），然后通过Viterbi算法来找出最合适的链接路径。

概念1：所有的词都有一组数据表示属性，最重要的是前面四种：表现（即词本身的书写）、左文本ID、右文本ID、链接成本

概念2：在词语前后链接的时候拼接相近的左右ID，通过算法查询其链接成本

概念3：无法识别的词语处理也可以在一个集合中进行查询，以识别并跳过这些无效的组合单词的形式

概念4：计算组成句子的链接成本，最小的路径就是最合适的组成句子的方式