Aplicando o conhecimento de forma simples e auto-explicativa.

domingo, 10 de abril de 2011

Quem vai ganhar uma caixa de mariola ? Em qual cliente devo agir via clusterização?

Esse post é baseado em um estudo de caso que bolei para uma palestra. A idea é simples... Vou classificar um grupo de clientes, visando uma possível ação de negócio.  Por exemplo, vou mandar uma caixa de mariola para eles.

Imagine o seguinte cenário: possuo informação de investimento e de margem líquida de determinados clientes, duas variáveis fundamentais para uma decisão de negócio. Na prática, a informação é de quanto eu gasto e de quanto eu lucro com esse cliente.

Para decidir quem vai receber meu mimo, vou usar uma metodologia conhecida como clusterização. De forma bem simplista, clusterização é uma técnica computacional onde o objetivo principal é criar grupos com características parecidas. Fazer isto não é exatamente algo trivial, porque além da questão computacional existe a questão conceitual, ou seja, qual é o melhor método de fazer isto? Note que a questão computacional não é um problema, para resolvê-la utilizei o R-Project. Já a conceitual é um problema, pois existem diversas técnicas diferentes.

Para facilitar o entendimento, imagine uma tabela em excel com varias linhas e apenas duas colunas. Cada linha é um cliente. O objetivo é fazer com que os clientes (linhas), que tenham valores similares na coluna 1 e 2 fiquem no mesmo grupo. A metodologia utilizada é denominada de (Espera aí que vou colar do livro...) "Agrupamento hierárquico de mínima variância", ou método de Ward. O critério para medir as distâncias foi o de distância Euclidiana.

A figura ao lado é um dendograma e serve para analisar quantos grupos naturais se formaram.
O eixo X, com um borrão preto, são as observações, ou seja, os meus clientes.

Resolvi extrair quatro grupos a partir do dendograma. Entendo que o ideal seria uma divisão mais segmentada, porém acredito que muitos grupos dificultam muito a análise e a conclusão.

Logo a energia de análise será voltada para 4 grupos apenas. Como utilizamos apenas duas variáveis, vou plota-las  e vou colorir os grupos.




A figura a seguir exemplifica os quatro grupos formados, através do plot. Os círculos grandes são as médias bidimensionais dos grupos. Existem dois grupos interessantes para receber um tratamento diferenciado, o verde e o azul, porém ambos são bem diferentes.

O Verde é mais coeso e não possui nenhum cliente com valor negativo, o azul já possui um caso. A variação do azul é muito grande o que pode gerar dificuldade e resultados muito diferentes do esperado, sendo assim os clientes do grupo verde serão escolhido para receber a caixa de mariola. 

A conclusão é que se você não sabe o que fazer com suas caixas de mariolas, uma segmentação via analise de cluster pode te ajudar. É óbvio que em problemas reais a escolha de variáveis é muito importante, e um cenário com mais de duas variáveis inviabilizam uma análise gráfica via plot de dispersão. Agora se seu problema não envolve mariolas não sei como te ajudar.