12 Árvore de Decisão versus Random Forest e Ensembles

Uma árvore de decisão isolada é excelente para aprender, explicar e produzir regras claras. No entanto, em muitos problemas reais, modelos de conjunto baseados em árvores conseguem desempenho preditivo superior. Este capítulo compara a árvore isolada com Random Forest e outras estratégias de ensemble.

12.1 Objetivos do capítulo

Ao final da leitura, o leitor deve ser capaz de:

explicar por que uma árvore isolada é instável;
entender a intuição do Random Forest;
reconhecer quando priorizar interpretabilidade ou desempenho;
enxergar a árvore isolada como base conceitual para modelos mais fortes.

12.2 Por que uma única árvore pode ser insuficiente

Uma árvore individual tem várias qualidades, mas também sofre com problemas conhecidos:

alta variância;
sensibilidade a pequenas mudanças nos dados;
tendência a overfitting quando cresce demais;
desempenho por vezes inferior ao de modelos combinados.

Isso acontece porque toda a estrutura depende de escolhas locais em cada divisão. Se a raiz muda, todo o restante pode mudar junto.

12.3 A intuição do ensemble

Em vez de depender de uma única árvore, um ensemble combina várias árvores. A ideia geral é que o conjunto seja mais robusto do que qualquer árvore individual.

Duas famílias muito importantes são:

bagging, do qual o Random Forest é o exemplo mais famoso;
boosting, usado em técnicas como Gradient Boosting, XGBoost, LightGBM e CatBoost.

12.4 Random Forest

O Random Forest constrói várias árvores sobre amostras reamostradas dos dados e combina suas previsões.

12.4.1 Ideia central

cada árvore vê uma variação do conjunto de treino;
em cada divisão, apenas um subconjunto aleatório de atributos é considerado;
as previsões finais são agregadas por votação, no caso de classificação, ou por média, no caso de regressão.

Esse processo reduz a variância e torna o modelo mais estável.

12.5 O que o Random Forest ganha

maior robustez;
melhor generalização em muitos problemas;
menor sensibilidade a pequenas perturbações nos dados;
boa capacidade de modelar interações complexas.

12.6 O que o Random Forest perde

menor transparência em comparação com uma única árvore;
dificuldade maior para comunicar uma regra simples única;
custo computacional mais alto;
interpretação menos direta para público não técnico.

12.7 Comparação prática de intuição

12.7.1 Árvore isolada

Pense nela como um especialista que toma decisão seguindo uma única cadeia clara de regras.

12.7.2 Random Forest

Pense nele como um comitê de especialistas. Cada um olha para os dados de forma um pouco diferente. A decisão final vem da agregação dessas opiniões.

12.8 Quando a árvore isolada é a melhor escolha

Uma única árvore costuma ser muito adequada quando:

interpretabilidade é requisito central;
o modelo precisa virar regra de negócio ou política interna;
o objetivo inclui ensino ou explicação do problema;
deseja-se um baseline rápido e claro;
o domínio exige auditoria e justificativa direta da previsão.

12.9 Quando o Random Forest tende a ser melhor

O Random Forest costuma ser uma boa escolha quando:

o foco principal é desempenho preditivo;
a instabilidade da árvore isolada atrapalha;
há volume razoável de dados;
a relação entre variáveis e alvo é mais complexa;
aceita-se trocar parte da interpretabilidade por robustez.

12.10 E o boosting?

No boosting, as árvores são construídas sequencialmente. Cada nova árvore tenta corrigir erros das anteriores. Em muitos contextos, isso produz desempenho ainda maior do que bagging.

Por outro lado, o boosting tende a exigir mais cuidado com ajuste e costuma ser ainda menos transparente do que uma única árvore.

12.11 Exemplo simples em Python

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

tree_model = DecisionTreeClassifier(max_depth=3, random_state=42)
forest_model = RandomForestClassifier(n_estimators=200, random_state=42)

tree_model.fit(X_train, y_train)
forest_model.fit(X_train, y_train)

tree_pred = tree_model.predict(X_test)
forest_pred = forest_model.predict(X_test)

print("Árvore | acc:", accuracy_score(y_test, tree_pred), "| f1_macro:", f1_score(y_test, tree_pred, average="macro"))
print("Forest | acc:", accuracy_score(y_test, forest_pred), "| f1_macro:", f1_score(y_test, forest_pred, average="macro"))

Árvore | acc: 0.9777777777777777 | f1_macro: 0.9777530589543938
Forest | acc: 0.9111111111111111 | f1_macro: 0.9107142857142857

Esse exemplo não prova que o Random Forest sempre vencerá, mas ajuda a mostrar como a comparação pode ser feita na prática.

12.12 A árvore isolada continua importante

Mesmo quando o modelo final escolhido é um ensemble, a árvore individual continua sendo essencial para o aprendizado conceitual. Entender bem uma árvore ajuda a compreender:

pureza e impureza;
profundidade e folhas;
divisões binárias;
critérios de separação;
importância de atributos;
efeitos de poda e controle de complexidade.

Resumo

A árvore isolada privilegia clareza e interpretabilidade.
O Random Forest privilegia robustez e desempenho médio.
Ensembles reduzem a fragilidade estrutural de uma única árvore.
A escolha entre um e outro depende do equilíbrio entre explicabilidade e performance.

Erros comuns

tratar o Random Forest como substituto automático em qualquer problema;
abandonar a árvore isolada sem aprender seus fundamentos;
comparar modelos sem considerar a interpretabilidade como critério;
escolher ensemble mais complexo sem necessidade prática clara.

Perguntas de revisão

Por que uma árvore isolada tende a ter alta variância?
Como o Random Forest reduz instabilidade?
Em que contexto uma única árvore pode ser preferível mesmo com score menor?
O que o estudo da árvore isolada ensina sobre ensembles?