English 中文(简体)
部分Speech(POS)基本原理
  • 时间:2024-12-27

Basics of Part-of-Speech (POS) Tagging


Previous Page Next Page  

What is POS tagging?

一种分类是自动转让对标语的描述。 我们称之为“标签”一词,它代表了发言内容之一(诺恩、比卜、对口、形容词、赞成、结合及其子类)、语义信息等等。

另一方面,如果我们谈论一下Speech(POS)的标签,则可以将其定义为把以言辞清单形式作出的判刑转换为les。 这里的标记为(词、标签)。 我们还可以把发言的一部分分配给特定词的过程称为“立场”。

下表是Penni树库藏书中使用的最频繁的地名录通知。

Sr.No Tag Description
1 NNP Proper noun, singular
2 NNPS Proper noun, plural
3 PDT Pre determiner
4 POS Possessive ending
5 PRP Personal pronoun
6 PRP$ Possessive pronoun
7 RB Adverb
8 RBR Adverb, comparative
9 RBS Adverb, superlative
10 RP Particle
11 SYM Symbol (mathematical or scientific)
12 TO to
13 UH Interjection
14 VB Verb, base form
15 VBD Verb, past tense
16 VBG Verb, gerund/present participle
17 VBN Verb, past
18 WP Wh-pronoun
19 WP$ Possessive wh-pronoun
20 WRB Wh-adverb
21 # Pound sign
22 $ Dollar sign
23 . Sentence-final punctuation
24 , Comma
25 : Colon, semi-colon
26 ( Left bracket character
27 ) Right bracket character
28 " Straight double quote
29 Left open single quote
30 " Left open double quote
31 Right close single quote
32 " Right open double quote

Example

让我们用“灰色”试验理解它。


import nltk
from nltk import word_tokenize
sentence = "I am going to school"
print (nltk.pos_tag(word_tokenize(sentence)))

Output


[( I ,  PRP ), ( am ,  VBP ), ( going ,  VBG ), ( to ,  TO ), ( school ,  NN )]

Why POS tagging?

定位标签是国家定位和定位系统的一个重要部分,因为它作为进一步进行国民工序分析的先决条件——

    Chunking

    Syntax Parsing

    Information extraction

    Machine Translation

    Sentiment Analysis

    Grammar analysis & word-sense disambiguation

TaggerI - Base class

所有挖掘机都居住在NLTK的Nltk.tag包裹中。 这些夸张的基类是TaggerI,是指从这一类别继承的所有夸张。

<>Methods-Tagger 第一类有以下两种方法,必须由所有子类执行:

    标签() 正如名称所暗示的那样,这一方法将一个言词清单作为投入,并将一个标语清单作为产出。

    评价方法 在这种方法的帮助下,我们可以评估夸张的准确性。

TaggerI

The Basepne of POS Tagging

定位装置标的基线或基本步骤是Default Tagging,可以使用NLTK的Default-Tagger类别进行。 过失的标签只是将同一个固定平台的标签分配到每一个被点。 违约对等还提供了衡量准确性改进的基线。

DefaultTagger class

使用DefaultTagging等舱进行违约标记,该类采用单一论点,即我们希望适用的标。

How does it work?

如前所述,所有夸张都从TaggerI继承。 班级。 DefaultTagger 继承SequentialBackoffTagger。 它是TaggerI”类的子类:。 让我们用以下图表来理解这一点:

TaggerI class

作为SeuentialBackoffTagger的一部分,DefaultTagger必须采用三种论点的_tag()方法。

    Token’s pst

    Current token’s index

    Previous token’s pst, i.e., the history

Example


import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger( NN )
exptagger.tag([ Tutorials , Point ])

Output


[( Tutorials ,  NN ), ( Point ,  NN )]

在这个例子中,我们选择了“ no”,因为它是最常见的字体。 此外,DefaultTagger 当我们选择最常用的定位器时,也非常有用。

Accuracy evaluation

DefaultTagger也是评估夸张准确性的基准。 这是我们能够使用这一方法的原因,以及衡量准确性的 评价>方法。 评价()方法将标注标记清单作为评估夸张的黄金标准。

以下是我们利用上述“exptagger/b>号”来评估“特里克斯敦”下层准确性的事例。 定刑——

Example


import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger( NN )
from nltk.corpus import treebank
testsentences = treebank.tagged_sents() [1000:]
exptagger.evaluate (testsentences)

Output


0.13198749536374715

以上产出显示,通过选择每个标签的NN,我们可以在特里克斯/宾特>的1 000个条目上进行约13%的精确测试。

Tagging a pst of sentences

NLTK's TaggerI 班级还为我们提供了tag_sents()方法,我们可以帮助确定判决清单。 以下是我们把两句简单地定下来的例子。

Example


import nltk
from nltk.tag import DefaultTagger
exptagger = DefaultTagger( NN )
exptagger.tag_sents([[ Hi ,  , ], [ How ,  are ,  you ,  ? ]])

Output


[
   [
      ( Hi ,  NN ), 
      ( , ,  NN )
   ], 
   [
      ( How ,  NN ), 
      ( are ,  NN ),
      ( you ,  NN ), 
      ( ? ,  NN )
   ]
]

在上述例子中,我们使用了我们早先制造的称为exptagger的违约夸张。

Un-tagging a sentence

我们还可以不服一句话。 NLTK为此提供了Nltk.tag.untag()方法。 它将服满刑期,作为投入,并提供一份没有标签的言辞清单。 让我们看到一个例子。

Example


import nltk
from nltk.tag import untag
untag([( Tutorials ,  NN ), ( Point ,  NN )])

Output


[ Tutorials ,  Point ]
Advertisements