Skip to content

Commit d24aaad

Browse files
authored
Merge pull request #638 from souravsingh/add-stopwords
Add German Stopwords
2 parents c413ffe + 6745eac commit d24aaad

File tree

1 file changed

+72
-1
lines changed

1 file changed

+72
-1
lines changed

spacy/de/language_data.py

Lines changed: 72 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,78 @@
33
import re
44

55

6-
STOP_WORDS = set()
6+
STOP_WORDS = set("""
7+
ab aber ach acht achte achten achter achtes
8+
ag alle allein allem allen aller allerdings alles
9+
allgemeinen als also am an andere anderen
10+
andern anders au auch auf aus ausser außer
11+
ausserdem außerdem bald bei beide beiden
12+
beim beispiel bekannt bereits besonders
13+
besser besten bin bis bisher bist da
14+
dabei dadurch dafür dagegen daher
15+
dahin dahinter damals damit danach
16+
daneben dank dann daran darauf
17+
daraus darf darfst darin darüber
18+
darum darunter das dasein daselbst
19+
dass daß dasselbe davon davor dazu
20+
dazwischen dein deine deinem deiner
21+
dem dementsprechend demgegenüber
22+
demgemäss demgemäß demselben
23+
demzufolge den denen denn denselben
24+
der deren derjenige derjenigen dermassen
25+
dermaßen derselbe derselben des deshalb
26+
desselben dessen deswegen dich die diejenige
27+
diejenigen dies diese dieselbe dieselben diesem
28+
diesen dieser dieses dir doch dort drei drin dritte
29+
dritten dritter drittes du durch durchaus dürfen
30+
dürft durfte durften eben ebenso ehrlich ei eigen
31+
eigene eigenen eigener eigenes ein einander eine
32+
einem einen einer eines einigeeinigen einiger einiges
33+
einmal einmaleins elf en ende endlich entweder
34+
er erst erste ersten erster erstes es etwa etwas euch
35+
früher fünf fünfte fünften fünfter fünftes für gab ganz
36+
ganze ganzen ganzer ganzes gar gedurft gegen
37+
gegenüber gehabt gehen geht gekannt gekonnt gemacht
38+
gemocht gemusst genug gerade gern gesagt geschweige
39+
gewesen gewollt geworden gibt ging gleich gott gross
40+
groß grosse große grossen großen grosser großer
41+
grosses großes gut gute guter gutes habe haben habt
42+
hast hat hatte hätte hatten hätten heisst her heute hier
43+
hin hinter hoch ich ihm ihn ihnen ihr ihre ihrem ihrer
44+
ihres im immer in indem infolgedessen ins irgend ist
45+
ja jahr jahre jahren je jede jedem jeden jeder jedermann
46+
jedermanns jedoch jemand jemandem jemanden jene
47+
jenem jenen jener jenes jetzt kam kann kannst kaum kein
48+
keine keinem keinen keiner kleine kleinen kleiner kleines
49+
kommen kommt können könnt konnte könnte konnten kurz
50+
lang lange leicht leide lieber los machen macht machte mag
51+
magst mahn man manche manchem manchen mancher
52+
manches mann mehr mein meine meinem meinen meiner
53+
meines mensch menschen mich mir mit mittel mochte
54+
möchte mochten mögen möglich mögt morgen muss muß
55+
müssen musst müsst musste mussten na nach nachdem nahm
56+
natürlich neben nein neue neuen neun neunte neunten neunter
57+
neuntes nicht nichts nie niemand niemandem niemanden noch
58+
nun nur ob oben oder offen oft ohne ordnung recht rechte
59+
rechten rechter rechtes richtig rund sa sache sagt sagte sah satt
60+
schlecht Schluss schon sechs sechste sechsten sechster sechstes
61+
sehr sei seid seien sein seine seinem seinen seiner seines seit
62+
seitdem selbst selbst sich sie sieben siebente siebenten siebenter
63+
siebentes sind so solang solche solchem solchen solcher solches
64+
soll sollen sollte sollten sondern sonst sowie später statt tag tage
65+
tagen tat teil tel tritt trotzdem tun über überhaupt übrigens uhr
66+
um und uns unser unsere unserer unter vergangenen viel viele
67+
vielem vielen vielleicht vier vierte vierten vierter viertes vom von
68+
vor wahr während währenddem währenddessen wann war wäre
69+
waren wart warum was wegen weil weit weiter weitere weiteren
70+
weiteres welche welchem welchen welcher welches wem wen
71+
wenig wenige weniger weniges wenigstens wenn wer werde
72+
werden werdet wessen wie wieder will willst wir wird wirklich
73+
wirst wo wohl wollen wollt wollte wollten worden wurde würde
74+
wurden würden zehn zehnte zehnten zehnter zehntes zeit zu
75+
zuerst zugleich zum zunächst zur zurück zusammen zwanzig
76+
zwar zwei zweite zweiten zweiter zweites zwischen
77+
""".split())
778

879

980
TOKENIZER_PREFIXES = map(re.escape, r'''

0 commit comments

Comments
 (0)