Gegen Angriffe kann man sich wehren, gegen Lob ist man machtlos._$ret_-- Sigmund Freud

4 Reguläre Ausdrücke

Nun kommen wir zu drei sehr populären und mächtigen Tools, nämlich zu sed, grep und awk.

Doch um mit selbigen auch umgehen zu können, muss man erst einmal sogenannte reguläre Ausdrücke (engl. regular expressions) verstehen.

Reguläre Ausdrücke – es gibt übrigens ganze Bücher über dieses Thema <... die ziemlich langweilig sind, wenn man nicht gerade selbst reguläre Ausdrücke implementiert (oder auch trotzdem)> – dienen in der Shell zum Filtern von Zeichenketten (Strings) aus einem Input, etwa einer Textdatei. Wie so oft lässt sich dies am besten an einem Beispiel verdeutlichen.

Das Programm grep filtert aus einem Input (Pipe, Datei) Zeilen heraus, in denen ein bestimmtes Muster vorkommt. Gegeben sei eine Datei mit den Namen von Städten, wobei jede Stadt in einer separaten Zeile steht. grep soll nun all jene Zeilen herausfiltern, in denen ein kleines »a« enthalten ist.

$ cat Standorte 
Augsburg 
Bremen 
Friedrichshafen 
Aschersleben 
Bernburg 
Berlin 
Halle 
Essen 
Furtwangen 
Kehlen 
Krumbach 
Osnabrueck 
Kempten 
$ grep a Standorte 
Friedrichshafen 
Halle 
Furtwangen 
Krumbach 
Osnabrueck

Listing 4.1 grep filtert alle Zeilen mit einem »a« heraus

Wie Sie sehen, wurden tatsächlich nur die Zeilen ausgegeben, in denen das Zeichen »a« vorkam. Dies können Sie mit jedem Zeichen und sogar mit ganzen Strings durchführen – hier ein paar Beispiele:

$ grep b Standorte     // filtert nach 'b' 
$ grep B Standorte     // filtert nach 'B' 
$ grep hafen Standorte // filtert nach 'hafen'

Reguläre Ausdrücke sind case-sensitive. Dass bedeutet, es wird zwischen Groß- und Kleinbuchstaben unterschieden.

Nun zurück zur eigentlichen Definition regulärer Ausdrücke: Mit ihnen können Sie Muster für solche Filtervorgänge, wie sie gerade gezeigt wurden, angeben. Allerdings können mithilfe dieser regulären Ausdrücke nicht nur explizit angegebene Strings, etwa »hafen«, gefiltert werden. Nein, dies funktioniert auch dynamisch. So können Sie angeben, dass »hafen« am Zeilenende oder -anfang vorkommen kann, dass das zweite Zeichen ein »a«, aber auch ein »x« sein kann, dass das letzte Zeichen entweder klein- oder großgeschrieben werden darf und so weiter.

Sollen beispielsweise alle Zeilen, die auf »n« oder »g« enden, ausgegeben werden, kann der reguläre Ausdruck »[ng]$ verwendet werden: <Keine Angst, dies ist nur ein Beispiel – gleich lernen Sie, wie solche Ausdrücke zu lesen und zu schreiben sind.>

$ grep "[ng]$" Standorte 
Augsburg 
Bremen 
Friedrichshafen 
Aschersleben 
Bernburg 
Berlin 
Essen 
Furtwangen 
Kehlen 
Kempten

Listing 4.2 Ein erstes Beispiel

4.1 Aufbau von regulären Ausdrücken

Nach dieser kleinen Einleitung werden wir uns nun den regulären Ausdrücken selbst zuwenden. Im Folgenden werden Sie lernen, wie solche Ausdrücke, die übrigens recht oft vorzufinden sind, zu verstehen sind und wie Sie selbst solche Ausdrücke formulieren können. Keine Sorge – so schwer ist das nicht.

Erst exakt

Eben wandten wir den regulären Ausdruck »[ng]$« an. Wie ist dieser zu verstehen? Das Dollarzeichen ($) steht für das Ende einer Zeile. Vor diesem Dollarzeichen sind in eckigen Klammern zwei Zeichen (»ng«) gesetzt. Das bedeutet, dass diese zwei Zeichen (und kein anderes) am Zeilenende stehen können.

Und zwar kann nur genau eines der beiden Zeichen das letzte Zeichen der Zeile ausmachen.

Würden Sie in der Klammer also beispielsweise noch ein »h« hinzufügen, so könnte auch dieses »h« das letzte Zeichen in der Zeile sein.

Jetzt einfach

Kurz lesen würde man es so: Das letzte Zeichen der Zeile ($) kann entweder ein »n« oder ein »g« sein ([ng]). Reguläre Ausdrücke können sich aus mehreren solcher Muster zusammensetzen. Sie können beispielsweise das Zeichen, das vor dem letzten Zeichen einer Zeile steht, auch noch festlegen und so weiter.

Hier ist eine Auflistung der möglichen Filterausdrücke mit Beispielen:

Der String »abc«

[xyz]

Eines der Zeichen in der eckigen Klammer muss (an der jeweiligen Stelle) vorkommen.
- [aA]bc

[a-b]

Mit dem Minus-Operator werden Zeichenbereiche für eine Position festgelegt.
- [a-zA-Z0-9bc]

[^a-b]

Das Dach-Zeichen (^) negiert die Angabe. Dies funktioniert sowohl mit dem als auch ohne den Minus-Operator. Dieser Ausdruck ist also dann erfüllt, wenn an der entsprechenden Stelle ein Zeichen steht, das nicht »a« oder »b« ist.

[xyz]\*

Das Joker-Zeichen (*) steht für eine beliebige Anzahl von Vorkommen eines Zeichens.
- K[a]\*tze

[xyz]\+

Das Plus-Zeichen (+) steht für eine beliebige Anzahl von Vorkommen eines Zeichens. Im Gegensatz zum Joker-Zeichen muss das Zeichen allerdings mindestens einmal vorkommen.
- K[a]\+tze

Dieses Zeichen steht für das Zeilenende.
- hafen$

Dieses Zeichen steht für den Zeilenanfang und ist nicht mit der Negierung (die in eckigen Klammern steht) zu verwechseln.
- ^Friedrichs

Der Punkt steht für ein beliebiges Zeichen.
- Friedr.chshafen

Das Metazeichen »x« wird durch den Backslash nicht als Anweisung im regulären Ausdruck, sondern als bloßes Zeichen interpretiert. Metazeichen sind diese Zeichen:

^{ $ . [ ] *}

Auch sind Kombinationen aus solchen Filterausdrücken möglich. Hier ein Beispiel: Um festzulegen, dass eine Zeile mit einem kleinen oder großen »H« anfangen soll und dass darauf die Zeichen »alle« und das Zeilenende folgen sollen, wäre dieser Ausdruck der richtige: ^[hH]alle$

$ grep "^[hH]alle$" Standorte 
Halle

Vergessen Sie nicht, die regulären Ausdrücke in Anführungszeichen zu stellen. Wenn Sie diese weglassen, wird die Shell diese Zeichen anders interpretieren und der Ausdruck wird verfälscht. Um einen regulären Ausdruck auch ohne Anführungszeichen verwenden zu können, müssen Sie alle sogenannten Metazeichen »escapen«. Das bedeutet, dass den Zeichen \ ^ $ . [ ] * ein Backslash (\) vorangestellt werden muss.

Der obige Ausdruck würde deswegen folgendermaßen aussehen müssen:

 ^[hH\]alle\$

Ihr Kommentar

Wie hat Ihnen das <openbook> gefallen? Wir freuen uns immer über Ihre freundlichen und kritischen Rückmeldungen.