Aplicando o conhecimento de forma simples e auto-explicativa.

sábado, 20 de novembro de 2010

Percentual, Regressão Linear, Representatividade: indicadores do mundo coorporativo

Este é meu primeiro post com um foco mais no dia a dia do mundo coorporativo. Existem muitos termos referentes a indicadores, um muito usado é o termo representatividade. Normalmente usado para medir a taxa de variação entre duas variáveis, ou seja, a relação descrita entre ambas. Esta variação é comumente representada através da forma percentual.

Na prática o que ocorre é exatamente o seguinte: toma-se a soma variável de interesse sobre a soma variável base, ou quando se dispõe apenas das médias amostrais, faz-se o mesmo com estas, note que isto na verdade é a mesma coisa.

O que passa muitas vezes desapercebido é que na verdade o que se está fazendo é ajustar um modelo de regressão linear simples passando pela origem e isto tem algumas implicações:

  • O intercepto esta sendo retirado do modelo a força, ou seja, não necessariamente seu modelo passa pela origem
  • Podem existir mais variáveis que expliquem a variável resposta, como foram excluídos, o intercepto pode incorporar isso, como este foi também excluído a "taxa" de variação pode incorporar isso.
  • Não se tem nenhuma informação de confiabilidade sobre a medida obtida.
Devem existir muitas outras consequencias que me fogem a mente neste momento.

Em suma a medida entre as variáveis tem grandes chances de ser equivocada e com isso as decisões tomadas também.

Vou ilustrar este problema de forma prática com um exemplo de cunho financeiro. Imagine que uma diretoria deseje saber qual a parte da sua  receita total é proveniente da receita de novas vendas, para um determinado mês,  considerando que parte da receita total pode ser proveniente de outras variáveis, como por exemplo, investimentos existentes. 

A ideia por de trás deste exemplo é que parte da receita não é proveniente exclusivamente de vendas, ou seja zero de vendas não implica em zero de receita.



 A direita é possível ver a distribuição dos dados por receita de vendas (R$ Milhões).



 A seguir a distribuição de Receita Total.

 
De acordo com algumas práticas do mundo corporativo, uma das soluções para determinar a relação Receita Total por Receita de Vendas seria tomar a razão das médias. Média da Receita de Total R$ 23,89 Milhões pela média da Receita Vendas R$ 18,33 Milhões. A razão é de 1,30, logo a conclusão é de que Vendas é responsável por um aumento de 30% da Receita Total.










Eu não compartilho com este tipo de prática para inferência. A seguir um gráfico de dispersão entre as duas Receitas, tendo como variável independente Receita de Vendas e Variável dependente Receita Total. Neste Mesmo gráfico realizei um ajuste do modelo linear simples passando pela origem, seguindo a ideia apresentada anteriormente, e um modelo linear com intercepto, ambos via mínimos quadrados.


No gráfico de dispersão temos um ajuste linear sem intercepto (linha verde), um ajuste com intercepto (linha vermelha), intervalos com 95% de confiança para o ajuste com intercepto (linha vermelha tracejada) e as linhas densas escuras marcam o ponto médio entre as duas variáveis. 
O valor estimado para o modelo sem intercepto apresenta um beta de 1,3 igual ao resultado anterior. O modelo com intercepto tem beta0 de 2,59 e beta1 de 1,17, ou seja,  a influência  da referente a Receita de Vendas sobre a Receita Total é de 17%, onde o intercepto esta incorporando outra fonte de variação não incluída no modelo.

A situação tratada pela ótica de um modelo sem intercepto, linha verde, fica mais grave para casos extremos, onde o intervalo com 95% de confiança do modelo com intercepto, linhas tracejadas vermelhas, não contém o modelo simples.

Para quantificar o erro de estimação, imagine que desaje-se saber o quanto em média será a receita Total, uma vez que a Receita de Vendas é de: R$ 12 Milhões. Pelo modelo sem intercepto tempos 15,63 Milhões, pelo modelo com intercepto nossa expectativa é de 16,64 Milhões, uma diferença de aproximadamente 1 Milhão.

FIKDIK (Fica a Dica), na hora de realizar uma estimativa da relação causa e efeito entre variáveis, use um modelo de regressão;  inclua todas as variáveis que expliquem a variável alvo e verifique se todas as hipóteses são atendidas.

2 comentários: