- Natural Language Toolkit - Discussion
- Natural Language Toolkit - Useful Resources
- Natural Language Toolkit - Quick Guide
- Natural Language Toolkit - Text Classification
- Synonym & Antonym Replacement
- Natural Language Toolkit - Word Replacement
- Stemming & Lemmatization
- Looking up words in Wordnet
- Training Tokenizer & Filtering Stopwords
- Natural Language Toolkit - Tokenizing Text
- Natural Language Toolkit - Getting Started
- Natural Language Toolkit - Introduction
- Natural Language Toolkit - Home
自然语言工具包
- 自然语言工具箱——改造树木
- 自然语言工具箱——改造楚克
- Chunking & Information 排外
- 自然语言工具箱——包装
- 自然语言工具包 - 更多国家 Taggers
- 自然语言工具箱——将Taggers混为一谈
- 自然语言工具箱——Unigram Tagger
- 部分Speech(POS)基本原理
- Corpus Readers and Customs Corpora
Selected Reading
- Who is Who
- Computer Glossary
- HR Interview Questions
- Effective Resume Writing
- Questions and Answers
- UPSC IAS Exams Notes
Basics of Part-of-Speech (POS) Tagging
What is POS tagging?
一种分类是自动转让对标语的描述。 我们称之为“标签”一词,它代表了发言内容之一(诺恩、比卜、对口、形容词、赞成、结合及其子类)、语义信息等等。
另一方面,如果我们谈论一下Speech(POS)的标签,则可以将其定义为把以言辞清单形式作出的判刑转换为les。 这里的标记为(词、标签)。 我们还可以把发言的一部分分配给特定词的过程称为“立场”。
下表是Penni树库藏书中使用的最频繁的地名录通知。
Sr.No | Tag | Description |
---|---|---|
1 | NNP | Proper noun, singular |
2 | NNPS | Proper noun, plural |
3 | PDT | Pre determiner |
4 | POS | Possessive ending |
5 | PRP | Personal pronoun |
6 | PRP$ | Possessive pronoun |
7 | RB | Adverb |
8 | RBR | Adverb, comparative |
9 | RBS | Adverb, superlative |
10 | RP | Particle |
11 | SYM | Symbol (mathematical or scientific) |
12 | TO | to |
13 | UH | Interjection |
14 | VB | Verb, base form |
15 | VBD | Verb, past tense |
16 | VBG | Verb, gerund/present participle |
17 | VBN | Verb, past |
18 | WP | Wh-pronoun |
19 | WP$ | Possessive wh-pronoun |
20 | WRB | Wh-adverb |
21 | # | Pound sign |
22 | $ | Dollar sign |
23 | . | Sentence-final punctuation |
24 | , | Comma |
25 | : | Colon, semi-colon |
26 | ( | Left bracket character |
27 | ) | Right bracket character |
28 | " | Straight double quote |
29 | Left open single quote | |
30 | " | Left open double quote |
31 | Right close single quote | |
32 | " | Right open double quote |
Example
让我们用“灰色”试验理解它。
import nltk from nltk import word_tokenize sentence = "I am going to school" print (nltk.pos_tag(word_tokenize(sentence)))
Output
[( I , PRP ), ( am , VBP ), ( going , VBG ), ( to , TO ), ( school , NN )]
Why POS tagging?
定位标签是国家定位和定位系统的一个重要部分,因为它作为进一步进行国民工序分析的先决条件——
Chunking
Syntax Parsing
Information extraction
Machine Translation
Sentiment Analysis
Grammar analysis & word-sense disambiguation
TaggerI - Base class
所有挖掘机都居住在NLTK的Nltk.tag包裹中。 这些夸张的基类是TaggerI,是指从这一类别继承的所有夸张。
<>Methods-Tagger 第一类有以下两种方法,必须由所有子类执行:
标签() 正如名称所暗示的那样,这一方法将一个言词清单作为投入,并将一个标语清单作为产出。
评价方法 在这种方法的帮助下,我们可以评估夸张的准确性。
The Basepne of POS Tagging
定位装置标的基线或基本步骤是Default Tagging,可以使用NLTK的Default-Tagger类别进行。 过失的标签只是将同一个固定平台的标签分配到每一个被点。 违约对等还提供了衡量准确性改进的基线。
DefaultTagger class
使用DefaultTagging等舱进行违约标记,该类采用单一论点,即我们希望适用的标。
How does it work?
如前所述,所有夸张都从TaggerI继承。 班级。 DefaultTagger 继承SequentialBackoffTagger。 它是TaggerI”类的子类:。 让我们用以下图表来理解这一点:
作为SeuentialBackoffTagger的一部分,DefaultTagger必须采用三种论点的_tag()方法。
Token’s pst
Current token’s index
Previous token’s pst, i.e., the history
Example
import nltk from nltk.tag import DefaultTagger exptagger = DefaultTagger( NN ) exptagger.tag([ Tutorials , Point ])
Output
[( Tutorials , NN ), ( Point , NN )]
在这个例子中,我们选择了“ no”,因为它是最常见的字体。 此外,DefaultTagger 当我们选择最常用的定位器时,也非常有用。
Accuracy evaluation
DefaultTagger也是评估夸张准确性的基准。 这是我们能够使用这一方法的原因,以及衡量准确性的 评价>方法。 评价()方法将标注标记清单作为评估夸张的黄金标准。
以下是我们利用上述“exptagger/b>号”来评估“特里克斯敦”下层准确性的事例。 定刑——
Example
import nltk from nltk.tag import DefaultTagger exptagger = DefaultTagger( NN ) from nltk.corpus import treebank testsentences = treebank.tagged_sents() [1000:] exptagger.evaluate (testsentences)
Output
0.13198749536374715
以上产出显示,通过选择每个标签的NN,我们可以在特里克斯/宾特>的1 000个条目上进行约13%的精确测试。
Tagging a pst of sentences
NLTK's TaggerI 班级还为我们提供了tag_sents()方法,我们可以帮助确定判决清单。 以下是我们把两句简单地定下来的例子。
Example
import nltk from nltk.tag import DefaultTagger exptagger = DefaultTagger( NN ) exptagger.tag_sents([[ Hi , , ], [ How , are , you , ? ]])
Output
[ [ ( Hi , NN ), ( , , NN ) ], [ ( How , NN ), ( are , NN ), ( you , NN ), ( ? , NN ) ] ]
在上述例子中,我们使用了我们早先制造的称为exptagger的违约夸张。
Un-tagging a sentence
我们还可以不服一句话。 NLTK为此提供了Nltk.tag.untag()方法。 它将服满刑期,作为投入,并提供一份没有标签的言辞清单。 让我们看到一个例子。
Example
import nltk from nltk.tag import untag untag([( Tutorials , NN ), ( Point , NN )])
Output
[ Tutorials , Point ]Advertisements