English 中文(简体)
Chunking & Information 排外
  • 时间:2024-12-27

Chunking & Information Extraction


Previous Page Next Page  

What is Chunking?

摇篮是天然语言处理的重要过程之一,用于确定部分言论和短语。 换言之,用拳打脚踢,我们就可以获得判决的结构。 它还称为partial parsing

Chunk patterns and chinks

Chunk patterns是部分字标的型号,其中界定了哪类文字。 在经过修改的定期表述的帮助下,我们可以确定草原模式。

此外,我们还可以确定哪些字句不应 in,这些空话被称为chinks

Implementation example

在下面的例子中,除了解析句子“这本书有很多章节”得到的结果外,还有一个名词短语的语法,它结合了块和碎片模式 -


import nltk
sentence = [
   ("the", "DT"),
   ("book", "NN"),
   ("has","VBZ"),
   ("many","JJ"),
   ("chapters","NNS")
]
chunker = nltk.RegexpParser(
   r   
   NP:{<DT><NN.*><.*>*<NN.*>}
   }<VB.*>{
      
)
chunker.parse(sentence)
Output = chunker.parse(sentence)
Output.draw()

Output

Chunk Patterns

如上所示,混凝土的格局是使用以下可治愈的薄膜——


{<DT><NN>}

并且为了具体指明一个幽灵,我们可以pp上下面的镜头:


}<VB>{.

现在,对于特定短语类型而言,这些规则可以合并成图形。

Information Extraction

我们经历了可以用来建设信息提取发动机的夸张和信使。 让我们看到一个基本的信息提取管道。

Extraction

信息提取有许多应用,包括:

    Business intelpgence

    Resume harvesting

    Media analysis

    Sentiment detection

    Patent search

    Email scanning

Named-entity recognition (NER)

最终认可实际上是一种提取一些最普通实体,如姓名、组织、地点等的方法。 让我们看到一个例子,它采取所有预处理步骤,如判决象征性化、布署标签、king、净等,并遵循上述数字所提供的管道。

Example


Import nltk
file = open (
   # provide here the absolute path for the file of text for which we want NER
)
data_text = file.read()
sentences = nltk.sent_tokenize(data_text)
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
for sent in tagged_sentences:
print nltk.ne_chunk(sent)

部分经修改的终端实体识别(NER)也可用于摘取产品名称、生物医学实体、品牌和更多的实体。

Relation extraction

相关开采是另一个常用的信息提取作业,是不同实体之间不同关系提取过程。 继承、同义、类似等关系可能不同,其定义取决于信息需要。 例如,如果我们想想写一本书,则作者名称与书名之间的关系。

Example

在以下例子中,我们使用了上述图表所示的同一电子电管,即我们一直使用至终端实体关系,并以净标为基础,将其延伸。


import nltk
import re
IN = re.compile(r .*in(?!.+ing) )
for doc in nltk.corpus.ieer.parsed_docs( NYT_19980315 ):
for rel in nltk.sem.extract_rels( ORG ,  LOC , doc, corpus =  ieer ,
pattern = IN):
print(nltk.sem.rtuple(rel))

Output


[ORG:  WHYY ]  in  [LOC:  Philadelphia ]
[ORG:  McGlashan &AMP; Sarrail ]  firm in  [LOC:  San Mateo ]
[ORG:  Freedom Forum ]  in  [LOC:  Arpngton ]
[ORG:  Brookings Institution ]  , the research group in  [LOC:  Washington ]
[ORG:  Idealab ]  , a self-described business incubator based in  [LOC:  Los Angeles ]
[ORG:  Open Text ]  , based in  [LOC:  Waterloo ]
[ORG:  WGBH ]  in  [LOC:  Boston ]
[ORG:  Bastille Opera ]  in  [LOC:  Paris ]
[ORG:  Omnicom ]  in  [LOC:  New York ]
[ORG:  DDB Needham ]  in  [LOC:  New York ]
[ORG:  Kaplan Thaler Group ]  in  [LOC:  New York ]
[ORG:  BBDO South ]  in  [LOC:  Atlanta ]
[ORG:  Georgia-Pacific ]  in  [LOC:  Atlanta ]

在上述法典中,我们使用了一部名为“信使”的内在工具。 在这项法令中,判决被拖到与否的关系上。 在这里,我们只需要具体说明我们想要的关系模式,以及我们想要界定的关系的良机。 举例来说,我们确定了一个组织与一个地点之间的关系。 我们从这些模式中提取了所有组合。

Advertisements