令牌化

即综合解析,将带公式的句子切分为若干标记的过程。每个标记为一个“令牌”(token)。 我们提供了多种已经封装好的令牌化器供用户便捷调用,下面是一个示例:

Examples

>>> items = ["已知集合$A=\\left\\{x \\mid x^{2}-3 x-4<0\\right\\}, \\quad B=\\{-4,1,3,5\\}, \\quad$ 则 $A \\cap B=$"]
>>> tokenizer = TextTokenizer()
>>> tokens = tokenizer(items)
>>> next(tokens)  
['已知', '集合', 'A', '=', '\\left', '\\{', 'x', '\\mid', 'x', '^', '{', '2', '}', '-', '3', 'x', '-', '4', '<',
'0', '\\right', '\\}', ',', '\\quad', 'B', '=', '\\{', '-', '4', ',', '1', ',', '3', ',', '5', '\\}', ',',
'\\quad', 'A', '\\cap', 'B', '=']

通过查看”./EduNLP/Tokenizer/tokenizer.py”及”./EduNLP/Pretrain/gensim_vec.py”可以查看更多令牌化器,下面是一个完整的令牌化器列表