Stopwords / Mot vide

Les mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. En français, des mots vides évidents pourraient être « le », « la », « de », « du », « ce », « ça », …

Voir le projet snowball: http://snowball.tartarus.org/algorithms/

liste simple http://www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/stop_words

http://snowball.tartarus.org/algorithms/english/stop.txt

http://www.ranks.nl/resources/stopwords.html

# Cette liste est basée sur http://www.ranks.nl/resources/stopwords.html
# Cette liste regroupe des mots ignorés par l'indexeur
# Chaque ligne comporte un mot
# Les fins de ligne de ce fichier doivent être de type UNIX
# Les mots de moins de 3 lettres sont ignorés par défaut.
10
11
12
15
20
2007
2008
30
all
alors
and
après
aucuns
aussi
autre
avant
avec
avoir
base
bien
bin
bon
ça
can
car
cas
cela
ces
cette
ceux
chaque
com
comme
comment
content
create
dans
début
dedans
dehors
depuis
des
deux
devrait
doc
doit
donc
dos
droite
echo
elle
elles
else
encore
essai
est
étaient
état
etc
été
étions
être
faire
fait
faites
faut
fichier
file
fois
font
for
force
fradeff
fred
from
function
get
haut
home
hors
href
ici
ils
index
intranet
juste
là
les
leur
maintenant
mais
même
mes
mine
moins
mon
mot
name
net
new
nom
nommés
non
not
note
notre
nous
nouveaux
org
où
page
par
parce
parole
pas
passe
permet
personnes
peu
peut
pièce
plupart
plus
pour
pourquoi
puis
quand
que
quel
quelle
quelles
quels
qui
radeff
sans
script
serveur
ses
seulement
sien
simple
site
son
sont
source
sous
soyez
sujet
sur
table
tandis
tellement
tels
tes
test
text
that
the
this
ton
tous
tout
toutes
très
trop
txt
type
une
unige
url
use
user
utiliser
valeur
value
version
voie
voient
voir
vont
votre
vous
while
with
you
your
#
  • info/stopwords.txt.txt
  • Dernière modification: 2018/07/18 09:46
  • par radeff