Aplicademic

Aplicando o conhecimento de forma simples e auto-explicativa.

domingo, 10 de abril de 2011

Quem vai ganhar uma caixa de mariola ? Em qual cliente devo agir via clusterização?

Esse post é baseado em um estudo de caso que bolei para uma palestra. A idea é simples... Vou classificar um grupo de clientes, visando uma possível ação de negócio.  Por exemplo, vou mandar uma caixa de mariola para eles.

Imagine o seguinte cenário: possuo informação de investimento e de margem líquida de determinados clientes, duas variáveis fundamentais para uma decisão de negócio. Na prática, a informação é de quanto eu gasto e de quanto eu lucro com esse cliente.

Para decidir quem vai receber meu mimo, vou usar uma metodologia conhecida como clusterização. De forma bem simplista, clusterização é uma técnica computacional onde o objetivo principal é criar grupos com características parecidas. Fazer isto não é exatamente algo trivial, porque além da questão computacional existe a questão conceitual, ou seja, qual é o melhor método de fazer isto? Note que a questão computacional não é um problema, para resolvê-la utilizei o R-Project. Já a conceitual é um problema, pois existem diversas técnicas diferentes.

Para facilitar o entendimento, imagine uma tabela em excel com varias linhas e apenas duas colunas. Cada linha é um cliente. O objetivo é fazer com que os clientes (linhas), que tenham valores similares na coluna 1 e 2 fiquem no mesmo grupo. A metodologia utilizada é denominada de (Espera aí que vou colar do livro...) "Agrupamento hierárquico de mínima variância", ou método de Ward. O critério para medir as distâncias foi o de distância Euclidiana.

A figura ao lado é um dendograma e serve para analisar quantos grupos naturais se formaram.
O eixo X, com um borrão preto, são as observações, ou seja, os meus clientes.

Resolvi extrair quatro grupos a partir do dendograma. Entendo que o ideal seria uma divisão mais segmentada, porém acredito que muitos grupos dificultam muito a análise e a conclusão.

Logo a energia de análise será voltada para 4 grupos apenas. Como utilizamos apenas duas variáveis, vou plota-las  e vou colorir os grupos.




A figura a seguir exemplifica os quatro grupos formados, através do plot. Os círculos grandes são as médias bidimensionais dos grupos. Existem dois grupos interessantes para receber um tratamento diferenciado, o verde e o azul, porém ambos são bem diferentes.

O Verde é mais coeso e não possui nenhum cliente com valor negativo, o azul já possui um caso. A variação do azul é muito grande o que pode gerar dificuldade e resultados muito diferentes do esperado, sendo assim os clientes do grupo verde serão escolhido para receber a caixa de mariola. 

A conclusão é que se você não sabe o que fazer com suas caixas de mariolas, uma segmentação via analise de cluster pode te ajudar. É óbvio que em problemas reais a escolha de variáveis é muito importante, e um cenário com mais de duas variáveis inviabilizam uma análise gráfica via plot de dispersão. Agora se seu problema não envolve mariolas não sei como te ajudar.

domingo, 5 de dezembro de 2010

Quer ganhar na Mega-Sena? Pergunte-me como!

Este post surgiu devido as diversas críticas nos almoços, onde todos meu colegas de mundo corporativo tentam incansavelmente ganhar na Mega-Sena e eu tendo convencê-los a não gastar o seu dinheiro.
O sistema de jogo da Mega-Sena funciona da seguinte maneira: Você adquire um cartão com 60 (sessenta) números e pode escolher entre 6 (seis) a 15 (quinze) deste cartão, se acertar seis desse números, pronto você está milionário. A primeira questão é que acertar seis números em sessenta (com apenas seis marcações) não é exatamente trivial. O custo de marcar apenas seis números é de R$2,00. Desta forma você tem seis maneiras de escolher seis números, ou seja, uma combinação de 6 em 6:
Logo, na verdade vc tem uma chance.


E essa seqüência deve ser selecionada em um universo de sessenta números,
Logo, mais de 50 milhões de possibilidades.


É isso aí! Quando você marca seis números em um universo de sessenta estabelece uma única seqüência dentre 50.063.860 possíveis. Cada uma tem um custo de R$2,00, que é o preço de um jogo.

Ao marcar 7 (sete) números o número de seqüencias aumenta. Dos sete números selecionados, precisa-se acertar seis, logo é uma combinação de sete números em seis.
  
Que gera sete seqüencias. Se antes existia apenas uma chance de ganhar,  agora existem 7.  Para isso você vai pagar R$14,00. Lembrando que o custo por chance (jogo) é de R$2,00.

Para 8 números , o jogo custa R$56,00. E assim por diante até 15 números, o máximo permitido por cartão.

Esta tabela só exibe até 10 marcações, até 15 números são permitidos por cartão.









Então uma boa estratégia para ganhar na Mega-Sena é percorrer todas as seqüências possíveis. Isso requereria R$ 100.127.720,00 (mais de 100 milhões de reais).


Ou seja, quando o prêmio acumular em um valor superior a este (o que acho que nunca aconteceu). Basta conseguir um empréstimo de 100 milhões (Risos), vamos arredondar para simplificar. Então marcar todas as seqüências possíveis. O delta é o seu ganho.

Obs 1: Cuidado para não marcar a mesma seqüência duas vezes!
Obs 2: Reze para não aparecer nenhum ganhador misterioso! Pois se isto acontecer você precisará dividir seu prêmio...

Este post foi apenas uma brincadeira. Não acho que quem curte jogar na Mega-Sena vai parar por causa disto, pois como já ouvi de certas pessoas, "Mega-Sena não tem haver com probabilidades e sim como o sonho..."