Nach meinem letzten Beitrag über GA-Anfänger fragte WendyW nach dem Regex-Teil des GAIQ-Studienhandbuchs. Das hat mich dazu veranlasst, mir den Leitfaden noch einmal anzuschauen, und ich musste feststellen, dass die Darstellung von Google durchaus noch verbessert werden könnte.
Für diejenigen, die mit Regex nicht vertraut sind: Es handelt sich um ein System zum Abgleichen von Textfolgen, Zahlen, Symbolen usw. Die Befehle werden in der Regex-Sprache geschrieben und dann von einem Regex-Prozessor abgeglichen, der den Text identifiziert, der mit Ihrer Spezifikation übereinstimmt.
Regex ist unglaublich nützlich bei der Arbeit mit, nun ja, fast allem. Google erlaubt (sehr) begrenzte Regex in der Suche, robustere Regex in Analytics, viele Notepad-Anwendungen haben Regex-Prozessoren für ihre Suchen/Ersetzen-Systeme eingebaut, und htaccess macht großen Gebrauch davon.
Heute werde ich Sie alle durch die Grundlagen von Regex führen und Ihnen zeigen, wie Sie es mit Google Analytics verwenden können, um Ihre Berichte, Filter und mehr zu verbessern.
Inhalt
- Die Sprache der Regex
- Was Sie mit Regex und Google Analytics tun können
- Tools zum Testen Ihrer Regex
Teil 1: Die Sprache der Regex
Regex-Befehle können von einfach bis unglaublich umfangreich reichen, je nachdem, wie viel „Sprache“ Sie mit ihnen verwenden. Im Folgenden finden Sie eine umfangreiche (aber nicht vollständige) Auswahl an Regex-Begriffen:
. : Der Punkt ist ein Platzhalter. Er kann für jedes beliebige Zeichen stehen.
+ : Wiederholt das vorhergehende Zeichen 1 oder mehrmals.
* : Wiederholt das vorhergehende Zeichen 0 oder mehrmals.
() : Klammern stehen für eine Reihe von „Token“ oder Regelelementen. Zum Beispiel würde (.+) auf eine beliebige Gruppe von Zeichen passen. So können Sie einen Operator auf eine ganze Gruppe anwenden. Wenn Sie zum Beispiel das Wort „was“ finden wollen, geben Sie „was“ ein, aber wenn Sie wollen, dass auch „waswas“ gefunden wird, können Sie „(was)+“ verwenden.
Parentheses erzeugen auch einen „Rückverweis“, der in vielen Regex-Engines mit einem „quot;“ aufgerufen werden kann.
: Eckige Klammern stellen einen Bereich dar. Sie können auch mehrere Elemente innerhalb einer Klammer haben, wie z.B. einen einzelnen Buchstaben, eine Zahl, ein Leerzeichen, einen Bindestrich, ein Zahlenzeichen, ein Anführungszeichen oder ein Gleichheitszeichen, das auf jeden einzelnen Buchstaben passen würde. (Ja, das wäre besser geschrieben, aber ich wollte auf die Bereiche hinweisen)
{} : Geschwungene Klammern sind seltsam. Sie definieren Wiederholungen. So würde (what){2} nur zwei Wiederholungen von what (whatwhat) entsprechen. Alternativ würde (was){2,7} zwischen zwei und sieben Wiederholungen von was zählen (einschließlich 3 Wiederholungen, 4 Wiederholungen, 5 ,6)
\d :Steht für eine beliebige Ziffer
\s : Steht für ein beliebiges Whitespace-Element (Leerzeichen, Tag, etc.)
\w : Steht für ein beliebiges alphanumerisches Zeichen oder einen Unterstrich
$ : Das Dollarzeichen steht für das Ende einer Zeichenkette. In htaccess kann es auch verwendet werden, um Sätze aufzurufen, die zuvor durch Klammern definiert wurden.
^ : Die Karotte hat zwei Funktionen. Sie kann mit dem Anfang einer Zeichenkette übereinstimmen, aber sie kann auch Zeichen in Zeichensätzen negieren. So passt ^$ nur auf eine Zeichenkette, die mit einem einzelnen Kleinbuchstaben beginnt und endet, (^) passt auf jede Zeichenkette, die keine anderen Zeichen als einen Kleinbuchstaben enthält. So passt aaa nicht, aAa passt, und AAA passt.
– : ein Bindestrich bildet einen Bereich. Zum Beispiel würde a-z auf alle Zeichen von a bis z zutreffen (allerdings nicht auf Großbuchstaben)
| : Der Strich steht für „oder“. So wird a|b mit a oder b übereinstimmen.
\ : Schrägstrich bedeutet „buchstäblich“. Während also „.“ auf jedes Zeichen passt, passt „\.“ nur auf Punkte. Während „?“ auf das Ende eines Satzes passen würde, würde „\?“ auf ein Fragezeichen passen. In bestimmten Implementierungen von Regex (z. B. Notepad ++) kann der Schrägstrich auch mit Zahlen verwendet werden, um Bereiche zu wiederholen, die zuvor durch Klammern definiert wurden (wie $1, $2 usw. in htaccess).
?: Entspricht einer Zeichenkette, die dies enthält oder nicht enthält. So würde zum Beispiel „? Howe st“ auf „1080 Howe st.“ oder „Howe st.“ passen, aber nicht auf „64 Howe st.“, während „64?“ auf „6“ oder „64“ passen würde. Das Fragezeichen hat auch den doppelten Zweck, einen Ausdruck „faul“ zu machen (normalerweise ist regex gierig). Gier und Faulheit bereiten mir Kopfschmerzen (sowohl im wirklichen Leben als auch in der Regex), also überlasse ich das hier einfach LunaMetrics (gute Gier und schlechte Gier)
Haben Sie sich das alles gemerkt? Nein? Keine Sorge.
Teil 2: Was Sie mit Regex und Google Analytics tun können
So, jetzt kennen Sie die Syntax, was können Sie damit tun?
Bildsuche
Ani Lopez hat in seinem Blog ein großartiges Beispiel dafür, wie Sie Regex verwenden können, um einen Filter/ein benutzerdefiniertes Segment zu erstellen, das die Bildsuche verfolgt. Um dies zu testen, öffnen Sie GA, öffnen Sie die Traffic-Quellen, gehen Sie dann zur Registerkarte „Quelle“ und wählen Sie „Verweispfad“ (anstelle von „Quelle“).
Unten in diesem Bericht öffnen Sie Ihre Filter und geben Sie die folgende Zeichenfolge ein:
Erinnern Sie sich an Ihre Regex-Sprache, was bedeutet die obige Zeichenfolge? ^ = Zeile beginnt mit; | = oder; () = eine Menge; also (fett gedruckte Wörter, die mit Symbolen übereinstimmen):
Zeile beginnt mit ‚/imgres‘ oder ‚/images/view‘ oder ‚/images/search‘.
Schlüsselwörter
Dank eines Beitrags von Darcy fragen uns viele Leute, wie sie herausfinden können, wer ihre Facebook-Bilder/Profile ansieht. Vielleicht möchte ich sie herausfiltern, oder noch besser, ich möchte wissen, ob sie konvertieren (oder ob sie nur Müll sind), damit ich sie mit dem folgenden Keyword-Filter sortieren kann:
Wie können wir das lesen?
Finde jede Zeile, die „viewed“ oder „looking“ oder „looked“ oder „looks“ oder „copied“ oder „viewing“ enthält, dann alle alphanumerischen Zeichen, Leerzeichen oder Bindestriche, die beliebig oft wiederholt werden, gefolgt von „face“, einem optionalen Leerzeichen und dann „book“.
IP-Filter
Angenommen, Ihr Netzwerk hat einen IP-Bereich von 123.456.789.1 bis 123.456.789.999, und Sie wollen nicht, dass GA die Besuche und Interaktionen auf Ihrer Website von Ihrem Büro aus zählt. Sie könnten einen Filter schreiben, der
sperrt, oder wenn Sie genauer sein wollen&hellip
In ersterem geben Sie an, dass jeder IP-Bereich von 123.456.789. bis 123.456.789..
Aber machen wir es interessanter. Nehmen wir an, Sie haben den IP-Bereich 64.281.31.1 bis 64.281.31.999. Wie würden Sie eine Regel dafür schreiben?
Wenn Sie sich mein obiges Beispiel ansehen und schreiben
oder
dann liegen Sie falsch.
Warum?
Weil das auch auf 164.281.31. passt. Ja, Zahlen vor der Zeichenkette zählen! Also müssen Sie es so schreiben:
Teil 3: Tools zum Testen Ihrer Regex
Regex kann komplex sein, und bevor Sie sie anwenden, wollen Sie sie testen. Es gibt zwei einfache Lösungen.
- Das erste ist RegexPal, mit dem Sie Text eingeben und Regex-Regeln darauf testen können.
- Das zweite ist RegExr, das eine komplexere Schnittstelle als Regexpal bietet, Ihnen aber auch eine Referenz und die Möglichkeit gibt, Regex-Befehle zu speichern. Es gibt auch eine Version für Adobe AIR, die hier heruntergeladen werden kann.
Ich bin sicher, dass Sie alle Regex in GA fantasievoll einsetzen können, und ich hoffe, Sie posten Ihre eigenen interessanten Regex-Ausdrücke.