入门

主要流程

../../_images/%E6%B5%81%E7%A8%8B%E5%9B%BE.png
  • 成分分解 :对符合SIF标准的试题进行分解,识别出题目中不同的成分(如文本、公式、图片等)。

  • 语法解析 :对不同的成分进行个性化解析,包括公式解析、文本解析等,从而服务于后面的令牌化环节。

  • 令牌化:根据成分分解和语法解析的结果,获取试题不同成分的令牌化序列,最终得到试题的多模态令牌序列。

  • 向量化:将令牌序列送入预训练模型,得到试题相应的表征向量。

  • 下游模型:将预训练模型得到的试题表征应用于各种下游任务(如难度预测、知识点预测、相似题检索等)。

示例

为使您快速了解此项目的功能,此部分仅展示常用的函数接口使用方法(如得到令牌化序列、获取向量化表征等),对于其中间函数模块(如parse、segment、tokenize、formula等)以及更细分的接口方法不做展示,如需深入学习,请查看相关部分的文档。