- Natural Language Toolkit - Discussion
- Natural Language Toolkit - Useful Resources
- Natural Language Toolkit - Quick Guide
- Natural Language Toolkit - Text Classification
- Synonym & Antonym Replacement
- Natural Language Toolkit - Word Replacement
- Stemming & Lemmatization
- Looking up words in Wordnet
- Training Tokenizer & Filtering Stopwords
- Natural Language Toolkit - Tokenizing Text
- Natural Language Toolkit - Getting Started
- Natural Language Toolkit - Introduction
- Natural Language Toolkit - Home
自然语言工具包
- 自然语言工具箱——改造树木
- 自然语言工具箱——改造楚克
- Chunking & Information 排外
- 自然语言工具箱——包装
- 自然语言工具包 - 更多国家 Taggers
- 自然语言工具箱——将Taggers混为一谈
- 自然语言工具箱——Unigram Tagger
- 部分Speech(POS)基本原理
- Corpus Readers and Customs Corpora
Selected Reading
- Who is Who
- Computer Glossary
- HR Interview Questions
- Effective Resume Writing
- Questions and Answers
- UPSC IAS Exams Notes
Chunking & Information Extraction
What is Chunking?
摇篮是天然语言处理的重要过程之一,用于确定部分言论和短语。 换言之,用拳打脚踢,我们就可以获得判决的结构。 它还称为partial parsing。
Chunk patterns and chinks
Chunk patterns是部分字标的型号,其中界定了哪类文字。 在经过修改的定期表述的帮助下,我们可以确定草原模式。
此外,我们还可以确定哪些字句不应 in,这些空话被称为chinks。
Implementation example
在下面的例子中,除了解析句子“这本书有很多章节”得到的结果外,还有一个名词短语的语法,它结合了块和碎片模式 -
import nltk sentence = [ ("the", "DT"), ("book", "NN"), ("has","VBZ"), ("many","JJ"), ("chapters","NNS") ] chunker = nltk.RegexpParser( r NP:{<DT><NN.*><.*>*<NN.*>} }<VB.*>{ ) chunker.parse(sentence) Output = chunker.parse(sentence) Output.draw()
Output
如上所示,混凝土的格局是使用以下可治愈的薄膜——
{<DT><NN>}
并且为了具体指明一个幽灵,我们可以pp上下面的镜头:
}<VB>{.
现在,对于特定短语类型而言,这些规则可以合并成图形。
Information Extraction
我们经历了可以用来建设信息提取发动机的夸张和信使。 让我们看到一个基本的信息提取管道。
信息提取有许多应用,包括:
Business intelpgence
Resume harvesting
Media analysis
Sentiment detection
Patent search
Email scanning
Named-entity recognition (NER)
最终认可实际上是一种提取一些最普通实体,如姓名、组织、地点等的方法。 让我们看到一个例子,它采取所有预处理步骤,如判决象征性化、布署标签、king、净等,并遵循上述数字所提供的管道。
Example
Import nltk file = open ( # provide here the absolute path for the file of text for which we want NER ) data_text = file.read() sentences = nltk.sent_tokenize(data_text) tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences] tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences] for sent in tagged_sentences: print nltk.ne_chunk(sent)
部分经修改的终端实体识别(NER)也可用于摘取产品名称、生物医学实体、品牌和更多的实体。
Relation extraction
相关开采是另一个常用的信息提取作业,是不同实体之间不同关系提取过程。 继承、同义、类似等关系可能不同,其定义取决于信息需要。 例如,如果我们想想写一本书,则作者名称与书名之间的关系。
Example
在以下例子中,我们使用了上述图表所示的同一电子电管,即我们一直使用至终端实体关系,并以净标为基础,将其延伸。
import nltk import re IN = re.compile(r .*in(?!.+ing) ) for doc in nltk.corpus.ieer.parsed_docs( NYT_19980315 ): for rel in nltk.sem.extract_rels( ORG , LOC , doc, corpus = ieer , pattern = IN): print(nltk.sem.rtuple(rel))
Output
[ORG: WHYY ] in [LOC: Philadelphia ] [ORG: McGlashan & Sarrail ] firm in [LOC: San Mateo ] [ORG: Freedom Forum ] in [LOC: Arpngton ] [ORG: Brookings Institution ] , the research group in [LOC: Washington ] [ORG: Idealab ] , a self-described business incubator based in [LOC: Los Angeles ] [ORG: Open Text ] , based in [LOC: Waterloo ] [ORG: WGBH ] in [LOC: Boston ] [ORG: Bastille Opera ] in [LOC: Paris ] [ORG: Omnicom ] in [LOC: New York ] [ORG: DDB Needham ] in [LOC: New York ] [ORG: Kaplan Thaler Group ] in [LOC: New York ] [ORG: BBDO South ] in [LOC: Atlanta ] [ORG: Georgia-Pacific ] in [LOC: Atlanta ]
在上述法典中,我们使用了一部名为“信使”的内在工具。 在这项法令中,判决被拖到与否的关系上。 在这里,我们只需要具体说明我们想要的关系模式,以及我们想要界定的关系的良机。 举例来说,我们确定了一个组织与一个地点之间的关系。 我们从这些模式中提取了所有组合。
Advertisements