Blog DP6
Testes

Explorando Análises Causais: Estratégias Ágeis para Resultados de Mídia

Por
Renan Trindade
29/5/2025

Apesar do já conhecido jargão "correlação não é causalidade", nós seguimos fazendo basicamente análises de correlação.

Não que esta seja uma prática condenável, afinal, na maioria das vezes precisamos de respostas rápidas para tomada de ação, e nos basearmos em análises correlativas é melhor do que nada.

Porém existe um senso comum de que análises causais costumam ser muito dispendiosas em relação a tempo e conhecimento, tornando sua aplicação não tão interessante em contextos que exigem agilidade.

Neste post demonstraremos que isso nem sempre é verdade, apresentando caminhos possíveis para análises causais que dispensam a necessidade de design de experimento e que podem ser aplicadas de maneira mais ágil.

Vamos começar com uma breve comparação entre análises causais e correlacionais.

Análises causais x correlacionais

A grande diferença entre os dois tipos de análises se dá no método.

Análises correlacionais focam um evento de interesse (Y) e relacionam a ocorrência deste evento com a de outros eventos (X1, X2, X3… Xn).

No exemplo clássico de uma análise de MTA (Multi-touch attribution), o que é observado é a correlação entre a quantidade de conversões e a presença de canais nas jornadas dos usuários, permitindo atribuir valor a cada ponto de contato que levou à conversão.

Aqui temos uma vantagem essencial deste tipo de análise, já que o foco está no efeito (evento Y), podemos relacionar múltiplas potenciais causas ao mesmo tempo. Seguindo o exemplo do MTA, análises correlacionais permitem a identificação de múltiplos potenciais canais que interferem no resultado final das conversões.

Por outro lado, este tipo de análise não permite uma resposta precisa de uma relação de causa e efeito, exemplo: quantas conversões eu perderia se eu retirasse meu investimento em Social Media?

Já as análises causais, como o próprio nome diz, focam em uma causa para entender qual seu efeito sobre a variável de interesse (Y).

As vantagens e desvantagens deste tipo de análise temos um cenário inverso das análises correlacionais, ou seja, aqui nós não podemos avaliar múltiplas potenciais causas ao mesmo tempo, porém, os resultados são mais precisos e nos oferecem respostas de efeitos incrementais sobre nosso Y, desta forma podemos compreender de forma isolada uma causa, sem que os resultados sejam contaminados por efeitos de outros eventos.

Experimentos e quase-experimentos

Um ponto que afasta as pessoas das análises causais é a necessidade de experimentos.

Estes processos exigem um conhecimento técnico específico, um planejamento e uma operação rígida. Além disso, também precisamos esperar a conclusão do experimento, que pode levar entre 15 e 30 dias. Ou seja muitas vezes a realização de experimentos não oferece a agilidade exigida por análises de negócios.

Outro ponto é o fato de que experimentos podem testar apenas uma hipótese por vez, de forma que, para o teste de múltiplas hipóteses, precisaríamos recorrer a testes simultâneos, o que cria o risco de contaminação entre um teste e outro. Esta necessidade de um teste por hipótese testada pode aumentar muito o tempo médio para chegarmos a conclusões interessantes e que nos ajudem na tomada de decisões. 

Mas existem análises causas que podem inclusive dispensar a necessidade de um experimento. São os quasi-experimentos, que dispensam amostras aleatórias para o teste, adotando critérios pré-definidos para a seleção dos grupos teste e controle. Dessa forma, a depender da técnica adotada, podemos inclusive realizar análises causais por meio de dados observacionais. De certa forma, aqui nós aliamos as maiores vantagens das análises de correlação com as de análises de causalidade.

Aqui vamos apresentar três delas:

Diff in Diff (DiD)

Diff in Diff é uma técnica relativamente simples e, provavelmente por isso, uma das mais utilizadas enquanto quase-experimentos. 

Vamos para um exemplo: uma empresa rodou uma campanha de social media. Após rodar esta campanha por um mês, o gerente de marketing quer entender qual foi o impacto incremental destas campanhas no montante de vendas. 

Apesar de não ter sido realizado um experimento convencional, por meio dos dados coletados, é possível saber quem viu e quem não viu a campanha.

Comparando a linha temporal destes 2 grupos, vemos que elas possuem, no período pré inserção das campanhas, uma correlação forte, de forma que sejam quase paralelas (o que é um requisito para a comparação entre os grupos).

Se assumirmos que o grupo que viu as campanhas teria permanecido paralelo ao grupo que não viu as campanhas nós podemos considerar o seguinte raciocínio:

  1. Podemos identificar a diferença entre os dados pós e pré teste do grupo que viu a campanha
  2. Podemos identificar a diferença entre os dados pós e pré teste do grupo que não viu a campanha
  3. A diferença entre os resultados das duas diferenças acima, portanto, nos retornaria apenas o que foi incremental, visto que ela cancelaria o ganho (ou perda) “natural” de conversões

Seguindo a figura e o raciocínio descrito, teríamos:

C - A = diferença pré e pós tratamento para quem viu a campanha

D - B = diferença pré e pós tratamento para quem não viu a campanha

(C-A) - (D-B) = ganho incremental da campanha

Vemos, portanto, que o dif in dif trabalha um raciocínio simples, baseado na premissa de que o grupo sujeito ao efeito estudado teria permanecido paralelo ao grupo não sujeito ao efeito.

Mas existe uma forma um pouco mais complexa e confiável de realizarmos esta análise, e que acaba testando justamente a validade desta premissa.

Nesta forma nós utilizamos machine learning para identificação da diferença incremental entre os grupos teste e controle.

Esta técnica é semelhante a uma regressão linear, porém, utilizamos variáveis booleanas que indicam se o grupo é teste ou controle, e se o tempo é pré ou pós intervenção. Na fórmula temos:

Y=β0+β1*Di+β2*Tt+β3*(Di*Tt)

onde:

Di indica 1 para quando trata-se do grupo teste e 0 para quando trata-se do grupo controle

Tt indica 1 para quando trata-se do período com intervenção e 0 para o período pré intervenção

Dessa forma, seguindo a lógica da equação, devemos concluir que:

  • β1 indicará efeito o isolado do fato de se fazer parte do grupo teste
  • β2 indicará efeito o isolado do fato de se estar sobre o período da intervenção
  • β3 indicará efeito de se fazer parte do grupo teste e estar sobre o período da intervenção

Ou seja, aplicando esta técnica, teremos nos coeficientes resultantes do fit do algoritmo as informações relativas ao nosso quase-experimento. Porém, o ponto mais importante aqui é que podemos utilizar métricas de avaliação do fit do nosso algoritmo para entendermos o quanto realmente nosso grupo teste e controle são comparáveis. Isso é importante justamente porque aqui estamos tratando de um quasi-experimento, ou seja, estamos nos utilizando de técnicas estatísticas e premissas para simular um teste real, o que exige, portanto, uma abordagem mais cuidadosa e rigorosa que diminua a chance de iferirmos relações causais inexistentes.

Vemos que, quando tratamos o problema com técnicas um pouco mais avançadas, podemos obter um resultado mais próximo da realidade, além disso, o fato de estarmos utilizando machine learning permite avaliarmos o erro de nossa análise, o que ajuda a impedir conclusões erradas sobre os fatos.

Propensity Score Matching (PSM)

Enquanto o diff in dIff baseia-se principalmente na premissa de que grupos teste e controle possuem uma relação paralela, permitindo assim criarmos, de maneira fictícia, resultados de um grupo controle que sejam comparáveis ao grupo teste, o propensity score matching procura grupos teste e controle mais diretamente comparáveis, baseando-se nas características de cada grupo para aproximá-los.

Seguindo o exemplo que usamos para explicação do diff in diff, vamos imaginar que, além das informações relativas à visualização da campanha, temos outras informações como cidade, faixa etária, dispositivo e padrões de acesso e navegação no site.

A ideia do propensity score matching é utilizarmos essas informações para criarmos grupos teste e controle comparáveis segundo estas características, ou seja, fazemos a comparação entre um grupo teste e controle sabendo que estes grupos possuem padrões de comportamento semelhantes e, portanto, podem ser comparados. 

Esta técnica é interessante principalmente porque sabemos que normalmente as ferramentas de mídia funcionam com seus próprios algoritmos, procurando imprimir suas campanhas justamente para as pessoas que possuem maiores chances de cliques ou conversões.

Sendo assim, não faria muito sentido uma simples comparação entre um grupo que viu e outro que não viu as campanhas, pois teríamos um viés justamente nesta propensão à conversão das pessoas que viram as campanhas. 

Uma maneira de aplicarmos o propensity score matching é utilizamos um algoritmo de regressão logística para prevermos a probabilidade de um usuário receber a campanha, criando um grupo controle apenas com aqueles usuários que também teriam uma grande chance de visualização.

Além disso, baseando-se nas informações disponíveis, podemos utilizar machine learning para criar clusters de usuários, e realizarmos a comparação dos grupos teste e controle dentro destes clusters, trazendo assim uma segurança maior para esta comparação.

No geral, esta técnica baseia-se principalmente na aproximação dos grupos teste e controle, porém, a forma como esta aproximação será feita pode seguir diferentes caminhos. 

Após a realização da aproximação dos usuários e a criação de um grupo teste e controle, um t-teste simples pode ser rodado para apreensão dos resultados incrementais

Invertible Structural Causal Model (ISCM)

Para finalizarmos, vamos trazer uma técnica diferente, mas muito interessante e que pode ser extremamente útil.

O Invertible Structural Causal Model é um método de aplicação de algoritmos em série que se baseiam nas relações causais entre as variáveis.

Esta técnica baseia-se mais na influência que cada feature do modelo têm sobre o target, do que apenas na predição deste target. 

Voltando ao nosso exemplo, vamos considerar que além das informações a respeito da campanha de social media que queremos conhecer o impacto, nós temos informações também das outras campanhas do mix de marketing digital.

Vamos considerar também que temos estas campanhas divididas pelos objetivos: awareness, consideration e performance, e quea campanha de social media que estamos interessados é uma campanha awareness.

O mix de marketing digital, portanto teria:

  • Display awareness
  • Social awareness
  • Social Performance
  • Search Performance

O Invertible Structural Causal Model baseia-se na relação causal entre as features, que são o valor investido em cada campanha. Neste caso, precisamos entender qual a relação causal entre as campanhas, e das campanhas com nosso target, que é o número de vendas.

Tais relações podem ser representadas em uma DAG (Directed Acyclic Graph), que é uma representação gráfica de relações causais hipotéticas entre as variáveis:

Como resultado teríamos uma equação para cada relação causal, cada uma com seus respectivos coeficientes.

Isto cria uma maior complexidade para o fit, já que não temos um coeficiente para cada variável, mas sim um para cada relação.

Tal complexidade permite com que o algoritmo “entenda” melhor de que forma cada variável contribui tanto para o target, quanto para outras variáveis. Além disso, a depender do cenário, ele pode “entender” também que não necessariamente todas as variáveis interferem diretamente no target.

Por outro lado, são criadas limitações, já que esta quantidade mais alta de coeficientes exige uma maior quantidade de dados para o fit. Além disso, existe aqui a exigência de um conhecimento prévio das relações causais entre as variáveis e, caso tais relações sejam passadas de maneira errada para o input, o modelo dificilmente terá um bom resultado.

Apesar das dos desafios inerentes a esta técnica, o que é interessante é que como resultado podemos obter uma ferramenta não apenas capaz de compreender o resultado incremental de uma campanha, mas também capaz de realizar simulações de experimentos que indicariam com boa precisão quais seriam os resultados em vendas para cenários hipotéticos de investimentos.

Resumo

Resumo das técnicas diff in diff. Propensity Score Matching e Invertible Structural Casual Model

Conclusão

Para obtermos resultados causais de análises, nem sempre é estritamente necessária a realização de um experimento.Existem técnicas que nos permitem a apreensão deste tipo de resultado por outros caminhos, na maioria das vezes muito mais ágeis. 

A ideia aqui é quebrar o tabu que existe sobre análises causais, deixando para trás a tradição de focarmos sempre em análises como MTA ou MMM para mensuração de resultados de mídia, inclusive porque estas análises nem sempre trazem os resultados necessários para tomadas de decisões precisas. Existe uma gama de ferramentas muito maior, ferramentas estas que podem ser combinadas entre sí, ou até combinadas com análises correlacionais, criando assim os insumos necessários para tomadas de decisões muito mais assertivas e focadas em resultados.

Se você deseja aprimorar a análise dos seus dados e tomar decisões mais precisas e ágeis, a DP6 é a parceira ideal para ajudar a sua empresa a implementar essas estratégias de análise causal. Como especialistas em dados e marketing, temos as ferramentas e o conhecimento necessário para otimizar suas campanhas e proporcionar resultados concretos.

Entre em contato com a DP6 para mais informações sobre como podemos transformar seus dados em insights valiosos e ajudar a maximizar o impacto das suas decisões. Estamos prontos para explorar novas soluções e garantir que você esteja sempre à frente no mercado.

Compartilhe