13 Glossário Técnico
Este glossário reúne termos centrais usados ao longo do livro. A ideia é oferecer uma referência rápida para revisão.
Acurácia: Proporção de previsões corretas sobre o total de exemplos avaliados.
Atributo: Variável de entrada usada para descrever cada exemplo.
Bagging: Estratégia de ensemble que combina modelos treinados em diferentes reamostragens dos dados para reduzir variância.
CART: Sigla para
Classification and Regression Trees, família de algoritmos de árvore com grande relevância prática.Classe majoritária: Classe mais frequente em um conjunto de exemplos ou em uma folha.
Classificação: Tarefa de prever categorias discretas.
Critério de divisão: Medida usada para decidir qual atributo ou corte produz a melhor separação em um nó.
Entropia: Medida de incerteza ou impureza derivada da teoria da informação.
Ensemble: Modelo formado pela combinação de vários modelos base, como várias árvores.
Folha: Nó terminal da árvore onde a previsão final é produzida.
Gain ratio: Refinamento do ganho de informação usado para reduzir o viés por atributos com muitos valores.
Ganho de informação: Redução esperada da entropia após uma divisão.
Generalização: Capacidade do modelo de funcionar bem em dados não vistos durante o treino.
Gradient Boosting: Família de ensembles sequenciais em que novas árvores corrigem erros das anteriores.
Grid Search: Procedimento sistemático de teste de combinações de hiperparâmetros.
Gini: Medida de impureza muito usada em árvores de classificação.
Hiperparâmetro: Configuração definida antes do treino, como profundidade máxima ou número mínimo de amostras por folha.
ID3: Algoritmo clássico de indução de árvores guiado por ganho de informação.
Impureza: Grau de mistura entre classes dentro de um nó.
Instabilidade estrutural: Sensibilidade da árvore a pequenas mudanças no conjunto de treino.
Interpretabilidade: Facilidade com que humanos conseguem entender o funcionamento e as previsões do modelo.
Nó interno: Nó que realiza um teste e envia os exemplos para ramos descendentes.
Nó raiz: Primeiro nó da árvore, onde a decisão começa.
Overfitting: Situação em que o modelo se ajusta demais ao treino e perde generalização.
Poda: Processo de simplificação da árvore para reduzir complexidade e melhorar generalização.
Pós-poda: Redução da árvore após o treino.
Pre-poda: Restrições aplicadas durante o crescimento da árvore.
Precision: Entre as previsões positivas, proporção das que realmente são positivas.
Pureza: Estado em que um nó contém exemplos de uma única classe ou de distribuição muito concentrada.
Random Forest: Ensemble de várias árvores treinadas com bagging e seleção aleatória de atributos.
Recall: Entre os exemplos realmente positivos, proporção dos que foram encontrados pelo modelo.
Regressão: Tarefa de prever valores numéricos contínuos.
Regra de decisão: Descrição textual de um caminho da raiz até uma folha.
Splitter: Mecanismo que define como a biblioteca procura o melhor corte em um nó.
Teste: Conjunto de dados reservado para avaliação final do modelo.
Treino: Conjunto de dados usado para ajustar os parâmetros do modelo.
Underfitting: Situação em que o modelo é simples demais para capturar os padrões do problema.
Validação cruzada: Método de avaliação em que os dados são divididos em vários subconjuntos para treino e validação repetidos.
Variância do modelo: Sensibilidade do modelo a mudanças no conjunto de treino.