Aplicando o conhecimento de forma simples e auto-explicativa.

sábado, 20 de novembro de 2010

Percentual, Regressão Linear, Representatividade: indicadores do mundo coorporativo

Este é meu primeiro post com um foco mais no dia a dia do mundo coorporativo. Existem muitos termos referentes a indicadores, um muito usado é o termo representatividade. Normalmente usado para medir a taxa de variação entre duas variáveis, ou seja, a relação descrita entre ambas. Esta variação é comumente representada através da forma percentual.

Na prática o que ocorre é exatamente o seguinte: toma-se a soma variável de interesse sobre a soma variável base, ou quando se dispõe apenas das médias amostrais, faz-se o mesmo com estas, note que isto na verdade é a mesma coisa.

O que passa muitas vezes desapercebido é que na verdade o que se está fazendo é ajustar um modelo de regressão linear simples passando pela origem e isto tem algumas implicações:

  • O intercepto esta sendo retirado do modelo a força, ou seja, não necessariamente seu modelo passa pela origem
  • Podem existir mais variáveis que expliquem a variável resposta, como foram excluídos, o intercepto pode incorporar isso, como este foi também excluído a "taxa" de variação pode incorporar isso.
  • Não se tem nenhuma informação de confiabilidade sobre a medida obtida.
Devem existir muitas outras consequencias que me fogem a mente neste momento.

Em suma a medida entre as variáveis tem grandes chances de ser equivocada e com isso as decisões tomadas também.

Vou ilustrar este problema de forma prática com um exemplo de cunho financeiro. Imagine que uma diretoria deseje saber qual a parte da sua  receita total é proveniente da receita de novas vendas, para um determinado mês,  considerando que parte da receita total pode ser proveniente de outras variáveis, como por exemplo, investimentos existentes. 

A ideia por de trás deste exemplo é que parte da receita não é proveniente exclusivamente de vendas, ou seja zero de vendas não implica em zero de receita.



 A direita é possível ver a distribuição dos dados por receita de vendas (R$ Milhões).



 A seguir a distribuição de Receita Total.

 
De acordo com algumas práticas do mundo corporativo, uma das soluções para determinar a relação Receita Total por Receita de Vendas seria tomar a razão das médias. Média da Receita de Total R$ 23,89 Milhões pela média da Receita Vendas R$ 18,33 Milhões. A razão é de 1,30, logo a conclusão é de que Vendas é responsável por um aumento de 30% da Receita Total.










Eu não compartilho com este tipo de prática para inferência. A seguir um gráfico de dispersão entre as duas Receitas, tendo como variável independente Receita de Vendas e Variável dependente Receita Total. Neste Mesmo gráfico realizei um ajuste do modelo linear simples passando pela origem, seguindo a ideia apresentada anteriormente, e um modelo linear com intercepto, ambos via mínimos quadrados.


No gráfico de dispersão temos um ajuste linear sem intercepto (linha verde), um ajuste com intercepto (linha vermelha), intervalos com 95% de confiança para o ajuste com intercepto (linha vermelha tracejada) e as linhas densas escuras marcam o ponto médio entre as duas variáveis. 
O valor estimado para o modelo sem intercepto apresenta um beta de 1,3 igual ao resultado anterior. O modelo com intercepto tem beta0 de 2,59 e beta1 de 1,17, ou seja,  a influência  da referente a Receita de Vendas sobre a Receita Total é de 17%, onde o intercepto esta incorporando outra fonte de variação não incluída no modelo.

A situação tratada pela ótica de um modelo sem intercepto, linha verde, fica mais grave para casos extremos, onde o intervalo com 95% de confiança do modelo com intercepto, linhas tracejadas vermelhas, não contém o modelo simples.

Para quantificar o erro de estimação, imagine que desaje-se saber o quanto em média será a receita Total, uma vez que a Receita de Vendas é de: R$ 12 Milhões. Pelo modelo sem intercepto tempos 15,63 Milhões, pelo modelo com intercepto nossa expectativa é de 16,64 Milhões, uma diferença de aproximadamente 1 Milhão.

FIKDIK (Fica a Dica), na hora de realizar uma estimativa da relação causa e efeito entre variáveis, use um modelo de regressão;  inclua todas as variáveis que expliquem a variável alvo e verifique se todas as hipóteses são atendidas.

terça-feira, 9 de novembro de 2010

Taxa de Abandono em Contact Centers - O desafio da estimativa

A área de planejamento de tráfego é de extrema importância para as empresas de Contact Centers, pois tem como desafio dimensionar adequadamente a quantidade de recursos (Capacity Planning) para atender a demanda prevista (forecast) dado um desempenho de qualidade esperado (Nível de Serviço) e uma produtividade que permita fazer o negócio rentável.

O Nível de Serviço é a probabilidade de atender um número de indivíduos, em um determinado período de tempo, e no mercado de Contact Center é utilizada como um indicador de qualidade, podendo ser usado percentualmente. Por exemplo, uma central de atendimento pode ter como meta atender 80% das chamadas recebidas em até 20 segundos, ou seja, 80% dos clientes deverão ser atendidos imediatamente ou aguardar até no máximo 20 segundos para serem atendidos.

A partir dos conceitos estabelecidos através da Teoria das Filas definiu-se uma equação que permite estimar o Nível de Serviço de uma central de atendimento, dado certos parâmetros: tempo médio de atendimento, quantidade de agentes e volume de chamadas oferecidas ao sistema. (Equação de Erlang -http://www.erlang.com.br/erlangc.asp).

A equação de Erlang não contempla uma variável muito importante para o negócio de Contact Center, a Taxa de Abandono. Cada ligação pode resultar em uma venda, ou em uma recuperação de crédito, ou mesmo apenas corrigir um serviço mal prestado que pode fazer com o cliente cancele o serviço. A taxa de abandono implica em perda de negócio para a empresa.

Então o que faremos neste post é estimar qual a provável taxa de abandono em uma central de atendimento.

Observando os resultados de desempenho, percebeu-se que havia uma relação entre o indicador de nível de serviço (razão entre a quantidade de chamadas atendidas até o tempo limite de fila e a quantidade de chamadas oferecidas ao sistema) e a taxa de abandono, em função disso, decidi usar um modelo de regressão.

O Gráfico abaixo apresenta o resultado da dispersão entre nível de serviço e taxa de abandono. A amostra contempla 270 dias de observação.

Utilizando o Minitab®, ajustei um modelo não linear, polinomial de ordem 2, e obtive os resultados conforme gráfico e estatísticas a seguir:

De acordo com modelo, para um nível de serviço de 80% em 20 segundos, a expectativa é de 1,81% de chamadas abandonadas. Com este resultado, poderemos estimar, por exemplo, a possível perda de receita por não atender estas chamadas. Isto permite a empresa estimar qual a meta ideal de nível de serviço que equilibre custo e receita.

Um ponto a ser considerado no modelo é a heterocedasticidade. Para níveis de serviço considerados ruins (do ponto de vista do negócio), a variação do resultado esperado é bem maior. Contudo, isso não representa um problema. A necessidade para o negócio não é prever a taxa de abandono e sim estimar o comportamento médio do modelo.