当前位置：srcmini > 后端 > Python > 正文

Python NLTK的词法化用法示例

2021-05-01 19:10:02 分类：Python / 人工智能阅读(1196) 评论(0)

词法化是将单词的不同变形形式组合在一起的过程, 因此可以将它们作为单个项目进行分析。词法化与词干相似, 但它为单词带来了上下文。因此, 它将具有相似含义的单词链接到一个单词。

文本预处理包括两者抽干以及合法化。很多时候, 人们发现这两个术语令人困惑。有些人将这两个视为相同。实际上, 词干比词干优先使用词干, 因为词干对词进行形态分析。

lemmatization的应用是：

用于搜索引擎等全面的检索系统。
用于紧凑型索引

Examples of lemmatization:

-> rocks : rock
-> corpora : corpus
-> better : good

与词干的主要区别在于, 词形化是语音参数的一部分, 即” pos”。如果未提供, 则默认值为” noun”。

以下是使用NLTK的词形化词的实现：

# import these modules
from nltk.stem import WordNetLemmatizer
  
lemmatizer = WordNetLemmatizer()
  
print ( "rocks :" , lemmatizer.lemmatize( "rocks" ))
print ( "corpora :" , lemmatizer.lemmatize( "corpora" ))
  
# a denotes adjective in "pos"
print ( "better :" , lemmatizer.lemmatize( "better" , pos = "a" ))

输出：

rocks : rock
corpora : corpus
better : good

首先, 你的面试准备可通过以下方式增强你的数据结构概念：Python DS课程。

赞(0)

未经允许不得转载：srcmini » Python NLTK的词法化用法示例

标签：NLTK NLTK词法化 Python NLTK Python词法化词法化

相关推荐

评论抢沙发

评论前必须登录！

立即登录注册

回顶
回顶部