Após o meu último post GA beginners, WendyW perguntou sobre a parte regex do guia de estudo GAIQ. Isso me levou a voltar atrás e olhar para ele novamente, apenas para descobrir que a apresentação do Google certamente poderia usar algum embelezamento.
Para aqueles que não estão familiarizados com o Regex, é um sistema para combinar cordas de texto, números, símbolos, etc. Os comandos são escritos na linguagem do Regex, depois são combinados através de um processador regex que identifica o texto que corresponde à sua especificação.
Regex é incrivelmente útil quando se trabalha com, bem, quase tudo. O Google permite Regex (muito) limitado na pesquisa, regex mais robusto na análise, muitos aplicativos de bloco de notas incorporaram processadores regex para seus sistemas de localização/substituição, e o htaccess faz grande uso dele.
Hoje vou levar você através do básico do Regex e mostrar-lhe como você pode usá-lo com o Google Analytics para melhorar seus relatórios, filtros e muito mais.
Conteúdo
- A linguagem do Regex
- O que pode fazer com o Regex e o Google Analytics
- Ferramentas para testar o seu Regex
Parte 1: A linguagem do Regex
Os comandos do Regex podem variar entre simples e incrivelmente completos, dependendo da quantidade de “linguagem” que você usa com eles. O seguinte é uma seleção pesada (mas não completa) de termos regex:
. : O período é um wild card. Ele pode representar qualquer caractere o-que-tudo.
+ : repete o caractere anterior 1 ou mais vezes.
* : repete o caractere anterior 0 ou mais vezes.
() : Os parênteses representam um conjunto de “símbolos” ou elementos de regra. Por exemplo, (.+) corresponderia a qualquer conjunto de caracteres. Isto permite que você aplique um operador a todo um grupo. Então, por exemplo, se você quisesse combinar a palavra “o quê” você digitaria “o quê”, mas se você quisesse que ele também pegasse “o quê” então você poderia usar “(o quê)+”.
Parênteses também criam uma “back reference”, que pode ser chamada com um “quot; em muitos motores regex.
: Parênteses rectos representam um intervalo. Por exemplo, você pode ter vários itens dentro de um colchete, como por exemplo, que corresponderia a qualquer letra, número, espaço, hífen, sinal de número, citação ou sinal de igual. (Sim, isto seria melhor escrito , mas eu estava fazendo um ponto sobre intervalos)
{} : Parênteses entre parênteses são estranhos. Eles definem a repetição. Então (o quê){2} só combinaria com duas repetições do quê (o quê). Alternativamente (o quê){2,7} contaria entre duas a sete repetições do quê (incluindo 3 repetições, 4 repetições, 5 ,6)
\d :Representa qualquer dígito
\s : Representa qualquer elemento branco (espaço, etiqueta, etc.)
\w : Representa qualquer caracter alfanumérico ou sublinhado
$ : O sinal de dólar corresponde ao fim de uma string. Em htaccess também pode ser usado para lembrar conjuntos que foram previamente definidos por parênteses.
^^ : A cenoura tem dois propósitos. Ela pode corresponder ao início de uma string, mas também pode negar caracteres em conjuntos de caracteres. Então ^$ só vai corresponder a uma string que começa e termina com um único caractere alfa minúsculo, (^) vai corresponder a qualquer string que não contenha caracteres que não sejam letras minúsculas. Então aaa não irá corresponder, aAa irá corresponder, e AAA irá corresponder.
– : um hífen cria um intervalo. Por exemplo, a-z seria igual a qualquer caractere de a a a z (embora não qualquer caractere em maiúsculas)
| : A barra significa “ou”. Então a|b irá corresponder a ou b.
\ : slash significa “literalmente”. Então enquanto “.” corresponderia a qualquer caractere “\.” corresponderia apenas a períodos. Da mesma forma, enquanto “?” coincidiria com o final de uma frase, “?” coincidiria com um ponto de interrogação. Em certas implementações de regex (ex. Notepad ++) a barra oblíqua também pode ser usada com números para repetir áreas que tenham sido previamente definidas por parênteses (o mesmo que $1, $2, etc. em htaccess).
?: Combina com uma string que faz ou não contém isto. Então, por exemplo “? Howe st” seria igual a “1080 Howe st.” ou “Howe st.” mas não “64 Howe st.” enquanto “64?” seria igual a “6” ou “64”. O ponto de interrogação também tem o duplo propósito de fazer uma expressão “preguiçoso” (normalmente regex é ganancioso). Ganância e preguiça fazem minha cabeça doer (tanto na vida real quanto no regex) então vou deixar esta para LunaMetrics (boa ganância e má ganância)
Tenho tudo isso lembrado? Não? Não se preocupe.
Parte 2: O que você pode fazer com Regex e Google Analytics
Então agora você conhece a sintaxe, o que você pode fazer com ela?
Image Search
Ani Lopez, em seu blog, tem um ótimo exemplo de como você pode usar o regex para criar um segmento de filtro/cliente que rastreia a busca de imagens. Para testar este GA aberto, abra as fontes de tráfego, depois vá até a aba source e selecione o caminho de referência (ao invés da fonte).
No final deste relatório abra seus filtros e digite a seguinte string:
Lembrando sua linguagem regex, o que significa a string acima? ^ = linha começa com; | = ou; () = um conjunto; assim (Palavras arrojadas que combinam com símbolos):
linha começa com ‘/imgres’ ou ‘/images/view’ ou ‘/images/search’.
Keywords
Página de Darcy, temos muitas pessoas procurando como descobrir quem está olhando para as suas fotos/perfil do Facebook. Talvez eu queira filtrá-las, ou melhor ainda quero saber se elas se convertem (ou se são apenas tráfego de lixo) para que eu possa classificá-las com a seguinte palavra-chave filtro:
Como lemos isso?
Contemple qualquer linha que contenha ‘view’ ou ‘looking’ ou ‘look’ ou ‘looks’ ou ‘copied’ ou ‘view’, então tem qualquer caracter alfanumérico, espaços em branco ou hífens repetidos quantas vezes quiser, seguido de ‘face’, um espaço em branco opcional, e depois ‘book’.
IP Filters
Digamos que a sua rede tem um intervalo de IP de 123.456.789.1 a 123.456.789.999, e você não quer que a GA conte visitas e interações ao seu site de dentro do seu escritório. Você poderia escrever um filtro de bloqueio
ou se quiser ser mais exato&hellip
No primeiro você está afirmando que qualquer intervalo de IP de 123.456.789. a 123.456.789..
mas vamos torná-lo mais interessante. Digamos que você tenha a faixa de ip 64.281.31.1 a 64.281.31.999. Como você escreveria uma regra para isso?
Se você olhasse meu exemplo acima e escrevesse
ou
então você está errado.
Por quê?
Porque isso também combina com 164.281.31… Sim, os números antes da sua string vão contar! Então você tem que escrevê-la como:
Parte 3: Ferramentas para testar seu Regex
Regex pode ser complexo, e antes de começar a aplicá-lo você vai querer testá-lo. Existem duas soluções fáceis.
- A primeira é o RegexPal, que lhe permite introduzir texto e testar regras regex nele.
- A segunda é o RegExr que fornece uma interface mais complexa do que o Regexpal, mas também lhe dá uma referência e a opção de guardar comandos regex. Ele também tem uma versão Adobe AIR para download localizada aqui.
Eu tenho certeza que todos vocês podem fazer algum uso imaginativo do Regex em GA, e eu espero que você poste suas próprias expressões regex interessantes.