Après mon dernier billet sur les débutants en GA, WendyW a posé une question sur la partie regex du guide d’étude GAIQ. Cela m’a incité à y retourner et à le regarder à nouveau, pour constater que la présentation de Google pourrait certainement être embellie.
Pour ceux qui ne sont pas familiers avec Regex, c’est un système pour faire correspondre des chaînes de texte, des chiffres, des symboles, etc. Les commandes sont écrites dans le langage de Regex, puis mises en correspondance par un processeur Regex qui identifie le texte qui correspond à votre spécification.
Regex est incroyablement utile pour travailler avec, eh bien, presque tout. Google permet une Regex (très) limitée dans la recherche, une regex plus robuste dans l’analytique, de nombreuses applications de bloc-notes ont des processeurs de regex intégrés pour leurs systèmes de recherche/remplacement, et htaccess en fait un grand usage.
Aujourd’hui, je vais vous emmener tous à travers les bases de la Regex et vous montrer comment vous pouvez l’utiliser avec Google Analytics pour améliorer vos rapports, vos filtres, et plus encore.
Contenu
- Le langage de la Regex
- Ce que vous pouvez faire avec la Regex et Google Analytics
- Outils pour tester votre Regex
Partie 1 : Le langage de la Regex
Les commandes Regex peuvent aller de simples à incroyablement complètes selon la quantité de » langage » que vous utilisez avec elles. Ce qui suit est une sélection lourde (mais pas complète) de termes regex:
. Le point est un caractère de remplacement. Il peut représenter n’importe quel caractère.
+ : répète le caractère précédent 1 fois ou plus.
* : répète le caractère précédent 0 fois ou plus.
() : Les parenthèses représentent un ensemble de « tokens » ou d’éléments de règle. Par exemple, (.+) correspondrait à n’importe quel ensemble de caractères. Cela vous permet d’appliquer un opérateur à un groupe entier. Ainsi, par exemple, si vous vouliez correspondre au mot « quoi », vous taperiez « what », mais si vous vouliez que cela attrape aussi « whatwhat », alors vous pourriez utiliser « (what)+ ».
Les parenthèses créent également une « référence arrière », qui peut être rappelée avec un « quot ; dans de nombreux moteurs regex.
: Les crochets représentent une plage. Par exemple, correspondrait à toute lettre minuscule entre a et t. Vous pouvez également avoir plusieurs éléments dans une parenthèse, comme qui correspondrait à toute lettre unique, chiffre, espace, trait d’union, signe numérique, citation ou signe égal. (Oui, cela serait mieux écrit , mais je faisais un point sur les plages)
{} : Les parenthèses bouclées sont bizarres. Elles définissent la répétition. Donc (what){2} ne correspondrait qu’à deux répétitions de what (whatwhat). Alternativement (what){2,7} compterait entre deux et sept répétitions de what (y compris 3 répétitions, 4 répétitions, 5 ,6)
\d :Représente tout chiffre
\s : Représente tout élément d’espace blanc (espace, balise, etc.)
\w : Représente tout caractère alphanumérique ou underscore
$ : Le signe dollar correspond à la fin d’une chaîne de caractères. Dans htaccess, il peut également être utilisé pour rappeler des ensembles qui ont été précédemment définis par des parenthèses.
^ : La carotte a deux objectifs. Elle peut correspondre au début d’une chaîne, mais aussi elle peut nier des caractères dans des ensembles de caractères. Ainsi, ^$ ne correspondra qu’à une chaîne qui commence et se termine par un seul caractère alpha minuscule, (^) correspondra à toute chaîne qui ne contient pas de caractères autres qu’une lettre minuscule. Ainsi, aaa ne correspondra pas, aAa correspondra, et AAA correspondra.
– : un trait d’union crée une plage. Par exemple, a-z correspondra à tout caractère de a à z (mais pas aux caractères majuscules)
| : La barre signifie « ou ». Ainsi, a|b correspondra à a ou b.
\ : La barre oblique signifie « littéralement ». Ainsi, alors que « . » correspondrait à n’importe quel caractère, « \. » ne correspondrait qu’aux points. De même, alors que » ? » correspondrait à la fin d’une phrase, » \ ? » correspondrait à un point d’interrogation. Dans certaines implémentations de regex (par exemple Notepad ++), la barre oblique peut également être utilisée avec des nombres pour répéter des zones qui ont été précédemment définies par des crochets (comme $1, $2, etc. dans htaccess).
? : Correspond à une chaîne de caractères qui contient ou non ceci. Ainsi, par exemple, » ? Howe st » correspondrait à « 1080 Howe st. » ou « Howe st. » mais pas à « 64 Howe st. » alors que « 64 ? » correspondrait à « 6 » ou « 64 ». Le point d’interrogation a également pour double objectif de rendre une expression « paresseuse » (normalement, les regex sont gourmandes). L’avidité et la paresse me font mal à la tête (à la fois dans la vie réelle et en regex), je vais donc laisser celle-ci à LunaMetrics (bonne avidité et mauvaise avidité)
Vous avez retenu tout cela ? Non ? Ne vous inquiétez pas.
Partie 2 : Ce que vous pouvez faire avec Regex et Google Analytics
Alors maintenant que vous connaissez la syntaxe, que pouvez-vous faire avec ?
Recherche d’images
Ani Lopez, sur son blog, a un excellent exemple de la façon dont vous pouvez utiliser regex pour créer un filtre / segment personnalisé qui suit la recherche d’images. Pour tester cela, ouvrez GA, ouvrez les sources de trafic, puis allez dans l’onglet source et sélectionnez le chemin de référence (au lieu de la source).
Au bas de ce rapport, ouvrez vos filtres et entrez la chaîne suivante :
Rappelant votre langage regex, que signifie la chaîne ci-dessus ? ^ = la ligne commence par ; | = ou ; () = un ensemble ; ainsi (les mots en gras correspondent aux symboles):
la ligne commence par ‘/imgres’ ou ‘/images/view’ ou ‘/images/search’.
Keywords
Grâce à un post de Darcy, nous recevons beaucoup de personnes qui cherchent comment savoir qui regarde leurs photos/profil Facebook. Peut-être que je veux les filtrer, ou encore mieux, je veux savoir s’ils convertissent (ou si c’est juste du trafic poubelle) donc je peux les trier avec le filtre de mots clés suivant:
Comment lire ceci ?
Match toute ligne qui contient ‘viewed’ ou ‘looking’ ou ‘looked’ ou ‘looks’ ou ‘copied’ ou ‘viewing’, puis a tout caractère alphanumérique, espace ou trait d’union répété un nombre quelconque de fois, suivi de ‘face’, d’un espace facultatif, puis de ‘book’.
Filtres IP
Disons que votre réseau a une plage IP de 123.456.789.1 à 123.456.789.999, et que vous ne voulez pas que GA il compte les visites et les interactions sur votre site depuis l’intérieur de votre bureau. Vous pourriez écrire un filtre bloquant
ou si vous vouliez être plus exact&hellip
Dans le premier, vous déclarez que toute plage d’IP de 123.456.789. à 123.456.789..
Mais rendons les choses plus intéressantes. Disons que vous avez la plage d’ip 64.281.31.1 à 64.281.31.999. Comment écrivez-vous une règle pour cela ?
Si vous regardez mon exemple ci-dessus et que vous écrivez
ou
alors vous avez tort.
Pourquoi ?
Parce que ça correspond aussi à 164.281.31… Oui, les chiffres avant votre chaîne de caractères comptent ! Vous devez donc l’écrire comme:
Partie 3 : Outils pour tester votre Regex
La Regex peut être complexe, et avant de commencer à l’appliquer, vous voudrez la tester. Il existe deux solutions faciles.
- La première est RegexPal, qui vous permet de saisir du texte et de tester les règles de regex sur celui-ci.
- La seconde est RegExr qui fournit une interface plus complexe que Regexpal, mais vous donne également une référence et l’option de sauvegarder les commandes de regex. Il a également une version téléchargeable Adobe AIR située ici.
Je suis sûr que vous pouvez tous faire un usage imaginatif de Regex dans GA, et j’espère vraiment que vous posterez vos propres expressions regex intéressantes.