Esse post é baseado em um estudo de caso que bolei para uma palestra. A idea é simples... Vou classificar um grupo de clientes, visando uma possível ação de negócio. Por exemplo, vou mandar uma caixa de mariola para eles.
Imagine o seguinte cenário: possuo informação de investimento e de margem líquida de determinados clientes, duas variáveis fundamentais para uma decisão de negócio. Na prática, a informação é de quanto eu gasto e de quanto eu lucro com esse cliente.
Para decidir quem vai receber meu mimo, vou usar uma metodologia conhecida como clusterização. De forma bem simplista, clusterização é uma técnica computacional onde o objetivo principal é criar grupos com características parecidas. Fazer isto não é exatamente algo trivial, porque além da questão computacional existe a questão conceitual, ou seja, qual é o melhor método de fazer isto? Note que a questão computacional não é um problema, para resolvê-la utilizei o R-Project. Já a conceitual é um problema, pois existem diversas técnicas diferentes.
Para facilitar o entendimento, imagine uma tabela em excel com varias linhas e apenas duas colunas. Cada linha é um cliente. O objetivo é fazer com que os clientes (linhas), que tenham valores similares na coluna 1 e 2 fiquem no mesmo grupo. A metodologia utilizada é denominada de (Espera aí que vou colar do livro...) "Agrupamento hierárquico de mínima variância", ou método de Ward. O critério para medir as distâncias foi o de distância Euclidiana.
A figura ao lado é um dendograma e serve para analisar quantos grupos naturais se formaram.
O eixo X, com um borrão preto, são as observações, ou seja, os meus clientes.
Resolvi extrair quatro grupos a partir do dendograma. Entendo que o ideal seria uma divisão mais segmentada, porém acredito que muitos grupos dificultam muito a análise e a conclusão.
Logo a energia de análise será voltada para 4 grupos apenas. Como utilizamos apenas duas variáveis, vou plota-las e vou colorir os grupos.
A figura a seguir exemplifica os quatro grupos formados, através do plot. Os círculos grandes são as médias bidimensionais dos grupos. Existem dois grupos interessantes para receber um tratamento diferenciado, o verde e o azul, porém ambos são bem diferentes.
O Verde é mais coeso e não possui nenhum cliente com valor negativo, o azul já possui um caso. A variação do azul é muito grande o que pode gerar dificuldade e resultados muito diferentes do esperado, sendo assim os clientes do grupo verde serão escolhido para receber a caixa de mariola.
A conclusão é que se você não sabe o que fazer com suas caixas de mariolas, uma segmentação via analise de cluster pode te ajudar. É óbvio que em problemas reais a escolha de variáveis é muito importante, e um cenário com mais de duas variáveis inviabilizam uma análise gráfica via plot de dispersão. Agora se seu problema não envolve mariolas não sei como te ajudar.