Checklist - Iniciar e validar um modelo de machine learning

Qual tipo de problema desejo resolver?

  • Classificação

  • Regressão

  • Clusterização (Agrupamento)

  • Detecção de Anomalia

  • Associação

  • Análise de componente (PCA)

  • Processamento de linguagem natural (NLP)

Qual tipo de dados possuo?

  • Numérico

  • Texto

  • Data

  • Misto

Precisa modificar a tipo de dado encontrado automaticamente?

  • Sim (Source Configuration)

  • Não

A base de dados é balanceada ?

  • Sim (no needs Weights).

  • Não (use Weights).

Qual balanceamento escolhido ?

  • Balance Weights

  • Objective Weights

  • Weight Field

Precisa reduzir o número de fields ?

  • Sim

  • Não.

Qual o objetive field (target)?

  • Classe

  • Valor

A quantidade de dados é suficiente para representar um modelo?

  • Sim (Acima de X linhas, Y Colunas ou Z megabytes)

  • Não (Abaixo de X linhas, Y Colunas ou Z megabytes)

Usaremos um algoritmo específico ou automatizado (OptiML/1-Click Model) ?

  • Específico (usuário intermediário/avançado)

  • Automatizado (iniciante)

É preciso "limpar" a base de dados?

  • Sim (Muitos dados corrompidos, faltando ou inexatos)

  • Não (Base de dados com baixa quantidade de danos)

Quais são os tipos de tratamento necessário para a base de dados?

  • Missing tokens

  • Features engineering

  • Merge, joins, new fields

  • Remove duplicates

  • Agregating instances

Os dados serão normalizados ?

  • Sim (Auto Scaling)

  • Não

Qual foi o modelo escolhido ?

  • Supervisionado

  • Não Supervisionado

Quais métricas melhor se aplicam à classificação?

  • F-measure

  • Accuracy

  • Precision

  • Recall

  • Phi coefficient

Quais melhores métricas se aplicam à regressão?

  • Mean Absolute Error

  • Mean Squared Error

  • R Squared (R²)

Qual será método de validação?

  • Validação cruzada (cross-validation)

  • Validação simples (single validation)

O validação do modelo alcança o objetivo do negócio?

  • Sim (Validação acima de X %)

  • Não (Validação abaixo de Y %)

O modelo sobreajustou (overfitting) ou subajustou (underfitting) ?

  • Sobreajustou (overfitting).

  • Subajustou (underfitting).

Em caso de sobreajuste, qual será a regularização?

  • L1

  • L2

Qual gráfico melhor compreende os dados?

  • Sunburst

  • PDP

  • Tree

Será comparado suas validações?

  • Sim

  • Não

Utilizará o dataset completo ?

  • Sim.

  • Não (uso de sampling).