一,文本分类

当开发者需要识别一段文本属于什么类别的时候,Mage平台提供的文本分类功能可以用于解决这个问题。举例来说,开发者现在有若干条昨日的新闻标题,开发者希望可以判断这些新闻属于“财经类”、“健康类”等等新闻类别。此时,开发者就可以使用文本分类工具解决这个问题。

为了使用这个功能,请先了解基本概念、在了解具体的平台操作。

二,关键词分类

当一段文本中出现某些关键词的时候,“文本分类”会将这段文本识别成事先定义的某个分类。举例来说,当一段文本中出现诸如“头疼”、“发热”、“乏力”这样的关键词,这段文本就可以归类为是一段描述“不良反应”的类别。(“不良反应”是开发者事先定义的一个分类)。

Mage的关键词分类有如下特点:

  • 开发者需要预先设定需要辨别的分类。

  • 关键词以“组”为单位进行组织。一个“组”内可以包含若干个关键词。

    • 举例来说,“不良反应”类别下,可以有多组关键词。一组关键词称为“临床表现”。该组内的关键词包含“头疼”、“发热”、“乏力”;其他若干组可能是疾病名称,例如,一组关键词为“过敏性鼻炎”。其包含关键词“过敏性鼻炎”。
  • 每个类别的多个关键词词组之间是或的关系,即当有至少有一组关键词组成功匹配时,则表示可分为该类别。

  • 每个关键词组中的每个关键词之间关系为且的关系,即当该关键词组中所有关键词均可匹配,则表示可分为该类别。

  • 分类结果会将所有被匹配的类别输出,置信度为100。

三,智能分类

关键词分类适用于本文中有显著的词来对文本进行归类。但是,人的表达是多样的,很多时候在表达一个意思的时候,会用的表达方式很不相同。

举例来说,如果一个地产销售向一个人询问是否有买房需求,用户在表达没有需求的时候,并不会明确说“我没有需求”,而是会说“以后再联系”、“谢谢,我不考虑”。这个时候,“智能分类”这一AI功能可以学习用户的这些表达的规律,然后,当用户再用类似的表达时,就能够识别其含义然后归入到正确的分类中。

“智能分类” 的特点是:

  • 需要开发者预先设定类别。

    • 需至少创建两个类别才可进行训练。
  • 需要开发者提供一些训练数据来训练一个语义理解模型。

    • 训练数据是指,每个分类下的文本。这些文本或者自然语言的表达,都属于这个分类。

    • 用户的表达不需要与训练数据完全一样,才能被识别。即使真实的文本与训练数据不同,模型也可以识别并正确归类。

  • 需要开发者提供一些训练数据来训练一个语义理解模型。

    • 训练数据是指,每个分类下的文本。这些文本或者自然语言的表达,都属于这个分类。

    • 用户的表达不需要与训练数据完全一样,才能被识别。即使真实的文本与训练数据不同,模型也可以识别并正确归类。

  • 用户点击“发布模型”时,模型不会立即生效,需等待至训练完成后方可使用。

  • 分类结果会为每一个类别打一个与之对应的分数(这个分数称为置信度)。

    • 置信度是从介于0到100之间的整数。

    • 一个类别的分数越高,代表模型认为当前文本属于该类别的概率越大。

四,学习目标

  • 1, 掌握[文本分类]命令使用

  • 2, 掌握[获取排名结果]命令使用

results matching ""

    No results matching ""