先决条件:词干简介
词干是产生词根/基词形态变异的过程。提取程序通常称为提取算法或提取程序。词干算法将单词”chocolates”, “chocolatey”, “choco”减少到词根词根, “chocolate”和”retrieval”, “retrieved”, “retrieves”减少到词干”retrieve”。
Some more example of stemming for root word "like" include:
-> "likes"
-> "liked"
-> "likely"
-> "liking"
提取错误:
词干分析主要有两个错误-过度提取和提取不足。当两个单词词根不同而词干相同时, 就会发生词干过度错误。当两个词的词根不相同但词干不同时, 就会发生词干不足。
词干的应用是:
- 词干用于诸如搜索引擎之类的信息检索系统中。
- 它用于确定领域分析中的领域词汇。
词干是可取的, 因为它可能会减少冗余, 因为在大多数情况下, 词干和它们的变形/衍生词表示相同的词。
以下是使用NLTK的词干实现:
代码1:
# import these modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
# choose some words to be stemmed
words = [ "program" , "programs" , "programer" , "programing" , "programers" ]
for w in words:
print (w, " : " , ps.stem(w))
输出如下:
program : program
programs : program
programer : program
programing : program
programers : program
代码2:
句子中的词干
# importing modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
sentence = "Programers program with programing languages"
words = word_tokenize(sentence)
for w in words:
print (w, " : " , ps.stem(w))
输出:
Programers : program
program : program
with : with
programing : program
languages : languag
首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。
评论前必须登录!
注册