Aprendizado de máquina: abordagem geral para casos de negócios de cassino
Por Paul Reilly, engenheiro de IA, fundador do flashbitch.com, um site de b?nus de cassino em grande parte gerado por IA, também entusiasta de tecnologia e palestrante.
Após uma carreira em SEO que durou duas décadas, Paul voltou sua aten??o para os usos práticos da inteligência artificial, o que o levou a visitar regularmente a equipe de pesquisa de IA da universidade enquanto explorava novas maneiras de fazer sucesso como afiliado de um cassino.
No post anterior, vimos a motiva??o para explorar a I.A. Agora vamos dar uma olhada em alguns exemplos práticos de problemas do mundo real com os quais você pode estar familiarizado, examinaremos o tipo de problema e exploraremos abordagens para resolvê-los, bem como algumas armadilhas.
Como você deve se lembrar da última vez, apresentar a IA ao seu negócio n?o requer um cientista espacial.
A primeira etapa é identificar um caso de negócios.
Talvez você tenha uma tarefa repetitiva e demorada. Um bom teste para determinar se deve considerar a solu??o de um problema de aprendizado de máquina deve ser realizado.
Se pergunte:-
Eu tenho um congestionamento no fluxo de trabalho?
Tenho um processo de controle de qualidade que pode ser automatizado?
Qual (is) tarefa (s) ou manual (is) representam o maior custo para a organiza??o?
Se eu aumentar a produ??o em 10x, quais rodas você espera que caiam primeiro? (assumindo que alocar mais funcionários / recrutamento, etc., n?o é uma op??o)
Alto fluxo de trabalho, economia de custos e desafios de dimensionamento s?o lugares óbvios para come?ar a analisar a implementa??o de algoritmos de aprendizado de máquina (ML).
No entanto, um uso esquecido da IA é a garantia de qualidade. Os humanos s?o muito subjetivos quando se trata de avalia??o quantitativa. Somos inerentemente subjetivos e aplicamos nossos preconceitos e preferências individuais ao nosso julgamento.
Como você deve se lembrar de minha postagem anterior, esbocei três exemplos onde o aprendizado de máquina pode ser aplicado para resolver alguns problemas bastante triviais, como: –
Classifica??o de texto – distingue automaticamente entre futebol (EUA) e futebol (Internacional).
Medir a relevancia entre o texto vinculado em um parágrafo e a página de destino.
Escalonar a gera??o de conteúdo usando modelos de linguagem profunda
Tendo passado as últimas duas décadas trabalhando em SEO, é um bom lugar com alguns exemplos de aplicativos para aprendizado de máquina. Será um contexto familiar para leitores familiarizados com a implanta??o de SEO em grande escala, ao mesmo tempo em que apresenta conceitos para ajudá-lo a entender os fundamentos do ML, independentemente do know-how técnico ou estatístico. Mas é fora da fun??o de aquisi??o e marketing que quero me concentrar neste post. Por enquanto, é o processo e a abordagem para lidar com os problemas de ML que eu queria ajudar a estabelecer em sua mente.
‘Por que’ em vez de ‘Como’
Manter o foco em “Por que”, em vez de “Como”, é possivelmente a li??o mais valiosa que aprendi nos últimos seis anos enquanto explorava o aprendizado de máquina
Com o aprendizado de máquina e a IA em geral, é mais importante do que nunca manter o foco no problema, caso contrário, há uma tendência de se perder rapidamente por semanas ou até meses.
O campo é vasto e está crescendo t?o rapidamente que, quando você piscar, haverá uma nova metodologia para resolver o problema com mais precis?o. Da mesma forma, se você aborda o ML com o desejo de manter uma abordagem prática, é provável que se sinta oprimido pela matemática sem primeiro estabelecer uma raz?o sólida “Por que”.
Image copyright: www.mathworks.com
Felizmente, o campo está bem estabelecido com bibliotecas de software altamente otimizadas e fáceis de usar disponíveis para implementa??o rápida. Portanto, n?o há necessidade de reinventar a roda. Por este motivo, é importante: –
Entender o tipo de problema de ML
Familiarize-se com os dados
Foco nos objetivos de negócios
Treinar, testar, medir, iterar
Fracasse rápido / aprenda rápido
Exemplos de processos de negócios que s?o solucionados por máquina
Previs?o dos valores do jogador ao longo da vida
Detec??o de problemas com jogos de azar
Recomenda??o de produto – jogadores que jogam ‘x’ também jogam ‘y’
SEO Tecnico – soft 404 detec??o.
Processos de Offsite SEO – garantia de qualidade do link
Por enquanto, vamos examinar brevemente os desafios relacionados a ‘prever o valor do tempo de vida’ e desenvolver uma intui??o mais profunda em torno da causa válida da detec??o do ‘problema do jogo’.
Compreendendo o Problema de Aprendizado de Máquina
A chave para resolver qualquer problema é primeiro entender o problema. Portanto, é provavelmente um bom momento para introduzir mais alguns conceitos básicos.
Image copyright: www.mathworks.com
De modo geral, existem dois tipos principais de problemas na aprendizagem de máquinas: supervisionado e n?o supervisionado. Ambos os tipos ou problemas requerem dados de treinamento.
Problemas de aprendizado de máquina supervisionado. Nossos dados s?o rotulados. Ent?o isso nos fornece conjuntos de exemplos. Nos primeiros algoritmos de detec??o de spam de e-mail, esses seriam e-mails marcados como ‘spam’ e e-mails marcados como ‘ham’.
Problemas de aprendizado de máquina n?o supervisionados. Os nossos dados n?o est?o etiquetados ou categorizados. Nesse caso, usamos algoritmos de aprendizado de máquina para ajudar a organizar os dados. Considere uma tabela de registros do usuário, podemos estar procurando algum tipo de semelhan?a ou mesmo dissimilaridade, ou comportamentos comuns. Em dados de série temporal, como análise da web, podemos estar procurando tendências ou mudan?as nas tendências.
Há literalmente um número ilimitado de aplicativos para os dois tipos de aprendizado de máquina. Tudo depende da natureza dos seus dados e do sinal que você deseja extrair do ruído.
Witchcraft Fora do Alcance
Embora você provavelmente já tenha ouvido falar muito sobre aprendizado profundo e redes neurais, vamos ficar longe dessa abordagem por enquanto. N?o se preocupe, chegaremos ao aprendizado profundo em postagens futuras. Embora as redes neurais profundas muitas vezes forne?am melhores resultados e aprendizado de máquina estatística, muitas vezes s?o difíceis de treinar, exigem conjuntos de dados significativamente maiores e os resultados n?o podem ser facilmente interpretados, transformando a inferência do modelo em uma caixa preta.
Caixas pretas n?o interpretáveis s?o ótimas se você for um monopólio de mecanismo de pesquisa em um caso antitruste de € 2,4 bilh?es, mas n?o t?o boas se você estiver depurando um classificador de ‘jogo problemático’. Para nosso propósito, nosso objetivo é resolver o problema rapidamente, estabelecer uma linha de base para precis?o.
Eles literalmente funcionam como mágica, isso é tudo que precisamos saber por enquanto ??
Famílias de algoritmos de aprendizado de máquina
Embora alguns desses algoritmos pare?am ser da Starship Enterprise, a maioria das bibliotecas de aprendizado de máquina s?o muito fáceis de usar, elas implementam treinamento e valida??o (teste) de modelo em duas ou três linhas de código. Ciência do foguete, n?o é.
Image copyright: www.mathworks.com
As três famílias básicas de algoritmos s?o as seguintes: –
Regress?o: calcule a rela??o probabilística entre as variáveis para fins de previs?o ou predi??o. Os problemas de regress?o s?o aqueles em que tentamos fazer uma previs?o em escala contínua. Algoritmos: Regress?o Linear, Regress?o Bayesiana, Regress?o de Vetores de Suporte (SVR), Regress?o Polinomial, Regress?o de Ridge
Classifica??o: calcule a categoria (ou classe) de um item e a confian?a (probabilidade) da classifica??o. Um problema de classifica??o é um problema em que usamos dados para prever em qual categoria algo se enquadra. Algoritmos: regress?o logística, classificador Naive Bayes, máquinas de vetores de suporte (SVM), árvores de decis?o, floresta aleatória
Clustering: agrupe os dados em classes diferentes, onde os dados de cada classe compartilham a semelhan?a. Um problema de agrupamento n?o é supervisionado, n?o temos rótulos nos dados, ent?o estamos tentando usar os dados para inferir os rótulos com base em como os pontos de dados se enquadram em grupos, clusters ou classes. Algoritmos: K-médias, K-vizinhos mais próximos, deslocamento médio, cluster hierárquico, DBSCAN
Entendendo o Problema
Agora temos alguns conceitos básicos . Vamos examinar mais uma vez os problemas a seguir e entendê-los melhor em termos de problemas de aprendizado de máquina: –
Problema #1: Previs?o dos valores do jogador vitalício (LTV)
Uma vez que estamos prevendo o valor do jogador, ou seja, um número em uma escala contínua (exemplo: € 2.330) em oposi??o a uma classe discreta (exemplo: cat / dog, spam / ham), ent?o o problema deve geralmente ser considerado um “problema de regress?o”, desde que tenhamos dados suficientes para derivar um modelo preciso. Caso os dados n?o estejam disponíveis para prever com precis?o o LTV, uma abordagem alternativa seria pegar os dados históricos e repensar o problema como um problema de classifica??o, onde estamos prevendo classes, grandes ou n?o.
O pessoal de aquisi??o que está lendo este post já terá identificado o problema do ‘ovo e da galinha’, também conhecido pelos engenheiros do ML como o problema da “inicializa??o a frio” Ou seja, novos jogadores n?o têm um histórico de jogo. Isso nos leva a resolver um novo problema, o que podemos aprender com os dados de registro, se o jogador se conectou ao Facebook ou Twitter, o que podemos aprender com seu código postal, tipo de navegador, tipo de dispositivo, operadora de rede e análises avan?adas de usuário do Google.
Nesse ponto, o problema se espalha em enriquecimento de dados, recupera??o de informa??es, desambigua??o de nomes de pessoas * e até mesmo um problema de inteligência de código aberto (OSINT) **.
* A desambigua??o do nome da pessoa é tipicamente vista como um problema de agrupamento n?o supervisionado, onde o objetivo é particionar os contextos de um nome em diferentes clusters, cada um representando uma pessoa do mundo real. ( com uma conta do Facebook e um código postal, você consegue identificar com precis?o o perfil do LinkedIn?)
** Inteligência de código aberto (OSINT) é uma metodologia multi-métodos (qualitativa, quantitativa) para coletar, analisar e tomar decis?es sobre dados acessíveis em fontes publicamente disponíveis para serem usados em um contexto de inteligência. (Também conhecido como espionagem digital)
Por favor, n?o me julgue ainda! Vamos agora considerar o caso de negócios.
Nota: Eu n?o estava planejando cobrir OSINT e Desambigua??o de Nomes de Pessoas nesta série, mas se você quiser que eu cubra esses tópicos no futuro, envie um tweet para @igamingsummit e diga a eles que é do seu interesse.
Motiva??o & Caso de Negócios
A medi??o mais fundamental do LTV seria um tudo-em-um ‘pega-tudo’ usando médias históricas baseadas em jogadores anteriores, idealmente segmentado por país.
Este ‘pega-tudo’ fornece: –
a equipe de reten??o: informa??es valiosas e um KPI sólido.
a equipe de afiliados: muni??o de marketing.
No entanto, com alguma minera??o / enriquecimento de dados e um pouco de inferência de modelo. Podemos ajudar na convers?o e na reativa??o.
Ativa??o: – Uma vez que muitos cassinos online resolvem o problema de ativa??o pela for?a bruta, ou seja. usando centros de atendimento multilíngues dedicados, bem treinados e com equipe adequada. Considere o benefício comercial de ser capaz de direcionar os grandes jogadores potenciais para o recurso de call center de melhor desempenho. Operadores ainda menores e com menos recursos seriam capazes de priorizar recursos até mesmo limitados para ajudar o jogador na primeira etapa de depósito.
Reten??o: – Da mesma forma, reter ou reativar jogadores é uma ciência e uma forma de arte. A capacidade de determinar com precis?o a distribui??o 80/20 em um banco de dados de jogadores perdidos, junto com estratégias de reativa??o ideais. Agora temos uma motiva??o poderosa para a equipe de reten??o.
Lembre-se: o objetivo é identificar oportunidades para automatizar ou semi-automatizar e otimizar incrementalmente.
Agora que estamos come?ando a pensar sobre problemas específicos que, em termos de dados disponíveis, o caso de negócios e o tipo de saída, vejamos outro exemplo.
Problema #2: Detec??o de problemas com jogo de azar
Já que venho de uma experiência em marketing digital (Pesquisa), é justo dizer que as quest?es regulatórias e éticas relacionadas ao iGaming s?o geralmente a última coisa em minha mente. No entanto, eu estava conversando com um amigo ontem, que me perguntou sobre aprendizado de máquina e detec??o de ‘Jogo de azar’, chamando minha aten??o para algumas das solu??es de inteligência artificial que s?o atualmente pioneiras neste espa?o.
é um problema interessante, embora nunca o tenha considerado antes. Achei que seria adequado incluir algumas reflex?es sobre como abordaria esse desafio digno.
Eticamente, é um tópico importante, especialmente dada a situa??o atual do COVID e talvez colocar minhas ideias iniciais possa estimular a discuss?o e a explora??o do problema e destacar alguns dos desafios que eu esperava de um modelo de aprendizado de máquina.
O que veio primeiro, o ovo ou a galinha?
No exemplo anterior, observamos o problema da “partida a frio”, também conhecido como o problema do “ovo e da galinha”. O problema de “inicializa??o a frio” geralmente se refere a problemas de agrupamento n?o supervisionados. Um exemplo é, Mecanismos de Recomenda??o (Filtragem Colaborativa).
Para inferir clusters de comportamento semelhante, primeiro exigimos algum comportamento do usuário a partir do qual possamos inferir similaridade de gosto, atribuindo o usuário a um determinado cluster. (Tradu??o em inglês, a Netflix n?o pode recomendar um filme até que você tenha assistido e avaliado pelo menos um filme. Quanto mais filmes você assistir e avaliar, melhores ser?o as recomenda??es.)
Do ponto de vista dos dados, existem dois tipos de jogadores problemáticos.
1. um jogador recreativo que desenvolve um problema ao longo do tempo enquanto joga no seu cassino.
2. um novo jogador que acabou de se registrar e já tem um problema de jogo.
Observe que temos desafios comerciais e éticos.
No caso do jogador que desenvolve o problema ao longo do tempo …
Há algum evento na linha do tempo nos dados que desencadeou o problema de jogo (como um prêmio de jackpot)? Nesse caso, em que ponto a empresa ficaria feliz em bloquear a conta, enquanto o jogador está perdendo os ganhos para a casa? Existe um meio feliz? Como avaliamos as prioridades de negócios?
O algoritmo n?o deve desencadear falsos positivos, uma vez que os jogadores problemáticos parecem quase exatamente os grandes apostadores e n?o há prêmios para bloquear a conta de um novo apostador.
Antes de prosseguirmos, agora é um momento t?o bom quanto qualquer outro para considerar como medimos a precis?o em sistemas de aprendizado de máquina.
Precis?o de previs?o, precis?o vs recall
Como podemos ver em nosso exemplo de ‘problema de jogo’ a precis?o é crucial, falsos positivos s?o totalmente inaceitáveis. Assim, quando medimos a precis?o no aprendizado de máquina, medimos a precis?o e o recall.
As origens da precis?o e da recupera??o como medida da exatid?o vêm do campo da recupera??o de informa??es e dos mecanismos de pesquisa como um meio de avaliar a qualidade de um conjunto de documentos recuperados ou resultados de pesquisa.
A precis?o é a propor??o de resultados relevantes na lista de todos os resultados de pesquisa retornados. O recall é a propor??o entre os resultados relevantes retornados pelo mecanismo de pesquisa e o número total de resultados relevantes que poderiam ter sido retornados.
Entendemos porque a precis?o é crucial. Os falsos positivos s?o inaceitáveis.
Identificamos dois tipos distintos de “jogador problemático” do ponto de vista dos dados. 1) novos jogadores depositantes que têm um problema de jogo preexistente. 2) jogadores existentes que desenvolveram um problema de jogo durante sua vida de jogador.
Ambos os tipos s?o problemas distintamente diferentes que requerem abordagens diferentes
Entendemos que o problema de “inicializa??o a frio” se aplica a algoritmos de agrupamento n?o supervisionados.
Com isso em mente, vamos continuar a explorar o “problema do jogo” um pouco mais fundo.
Como estamos abordando o problema usando o aprendizado de máquina estatístico em oposi??o ao aprendizado profundo, o conhecimento específico do domínio é importante. Como mencionei, o aprendizado profundo funciona por mágica, explicarei o porquê em um post posterior, mas por enquanto, apenas confie em mim.
Conforme você aborda um problema de aprendizado de máquina estatístico, o conhecimento do domínio é vital. Uma compreens?o do domínio do problema nos fornece a intui??o de quais dados s?o importantes para o (s) nosso (s) modelo (s) e, uma vez que n?o tenho experiência neste lado do negócio.
Chamei minha amiga para nos dar alguns conselhos, Yara, da Pearl Trust, é especialista em licen?as de jogos em Cura?ao, tendo primeiro me alertado sobre o “problema do jogo” e a necessidade do negócio de uma abordagem de IA. Eu descobri quem melhor para perguntar do que Yara para informa??es adicionais: –
Vejamos algumas dicas adicionais que ela gentilmente forneceu.
Atualmente, os “jogadores problemáticos” est?o principalmente sob a responsabilidade de atendimento ao cliente, oficial de CSR (responsabilidade social corporativa) ou oficial de jogo responsável designado com assistência do I.T fornecer dados específicos às partes interessadas.
Atualmente o processo é amplamente manual com auxílio da TI. No entanto, existem algumas empresas agora desenvolvendo solu??es automatizadas para esse problema.
A indica??o comum de ‘problema de jogo’ inclui: –
Perseguir perdas
Tempos de jogo erráticos
Sess?o prolongada
O processo atual:-
Jogadores potenciais adicionados à lista de observa??o
Se o problema persistir e / ou piorar, a auto exclus?o é recomendada
Se a recomenda??o de auto exclus?o for ignorada, o bloqueio da conta será feito como último recurso
Portanto, agora que entendemos melhor o processo interno para lidar com o “problema do jogo”, temos objetivos de negócios nos quais podemos nos concentrar.
Objetivos dos problemas com jogos de azar
Objetivo #1:automatizar a gera??o da lista de observa??o a ser distribuída às partes interessadas.
Objetivo #2: gerar dados de resumo suplementares para incluir em um relatório.
Continuaremos explorando esse problema fascinante em mais detalhes no próximo post. Exploraremos alguns dos algoritmos e suas características em rela??o aos dados com os quais normalmente trabalharíamos. à medida que exploramos esses e outros problemas, come?aremos a desenvolver intui??o em torno dos tipos de problemas distintamente diferentes.
Se você tiver pensamentos, considera??es, perguntas ou tópicos específicos que gostaria que eu respondesse / cobrisse em postagens futuras, tweet @igamingsummit.
Sobre a Exposi??o Virtual SiGMA Europa:
O Grupo SiGMA tem o prazer de anunciar o lan?amento de seu evento de novembro: a Exposi??o Virtual SiGMA Europa. O evento online, que decorre de 24 à 25, terá como foco o jogo europeu e o mercado de tecnologia.
Para mais informa??es sobre como patrocinar este evento entre em contato com Hamza e para explorar oportunidades de palestras entre em contato com Jeremy. Para se inscrever no evento, clique aqui.