9 Diagnóstico de Modelos
O diagnóstico adequado de modelos de regressão linear é essencial para garantir a validade das inferências e previsões. Este capítulo explora técnicas para avaliar a adequação do modelo e identificar problemas potenciais.
9.1 Resíduos e suas Análises
Os resíduos são a diferença entre os valores observados e previstos pelo modelo. A análise dos resíduos é uma ferramenta poderosa para verificar se as suposições da regressão linear foram atendidas.
9.1.1 Tipos de Análise de Resíduos
9.1.1.1 Gráficos de Resíduos vs. Valores Ajustados
Propósito: Avaliar a homocedasticidade e a linearidade.
Interpretação: Os resíduos devem estar distribuídos aleatoriamente em torno de zero, sem padrões evidentes. Padrões sistemáticos indicam problemas na especificação do modelo.
import matplotlib.pyplot as plt
# Gráfico de resíduos
plt.scatter(y_pred, y_test - y_pred)
plt.hlines(y=0, xmin=min(y_pred), xmax=max(y_pred), colors='red')
plt.xlabel('Valores Ajustados')
plt.ylabel('Resíduos')
plt.show()9.1.1.2 Histogramas dos Resíduos
Propósito: Avaliar a normalidade dos resíduos.
Interpretação: Os resíduos devem seguir uma distribuição aproximadamente normal. Desvios significativos podem indicar problemas com a normalidade.
plt.hist(y_test - y_pred, bins=20, edgecolor='black')
plt.xlabel('Resíduos')
plt.ylabel('Frequência')
plt.show()9.1.1.3 Gráficos Q-Q (Quantil-Quantil)
Propósito: Comparar a distribuição dos resíduos com uma distribuição normal.
Interpretação: Se os resíduos forem normalmente distribuídos, os pontos devem seguir a linha diagonal.
import scipy.stats as stats
stats.probplot(y_test - y_pred, dist="norm", plot=plt)
plt.show()9.2 Detecção de Outliers
Outliers podem distorcer as estimativas do modelo e influenciar a interpretação dos resultados. Identificá-los e tratá-los é crucial para a validade do modelo.
9.2.1 Métodos para Detectar Outliers
9.2.1.1 Análise Visual
Gráficos de dispersão podem ajudar a identificar outliers visualmente.
9.2.1.2 Distância de Cook
Propósito: Medir a influência de cada ponto na estimativa dos coeficientes de regressão.
Interpretação: Valores altos da distância de Cook indicam observações influentes.
import statsmodels.api as sm
# Cálculo da distância de Cook
model = sm.OLS(y_train, sm.add_constant(x_train)).fit()
influence = model.get_influence()
cooks_d = influence.cooks_distance[0]
plt.stem(np.arange(len(cooks_d)), cooks_d, markerfmt=",", use_line_collection=True)
plt.xlabel('Observação')
plt.ylabel('Distância de Cook')
plt.show()9.2.1.3 Leverage
Propósito: Medir a influência de um ponto baseado em sua posição no espaço das variáveis independentes.
Interpretação: Pontos com high leverage têm potencial para influenciar significativamente a linha de regressão.
leverage = influence.hat_matrix_diag
plt.stem(np.arange(len(leverage)), leverage, markerfmt=",", use_line_collection=True)
plt.xlabel('Observação')
plt.ylabel('Leverage')
plt.show()9.3 Teste de Significância para Coeficientes
Os testes de significância estatística dos coeficientes ajudam a determinar se as variáveis independentes têm um impacto significativo na variável dependente.
9.3.1 Teste t para Coeficientes
Propósito: Avaliar a hipótese nula de que um coeficiente é igual a zero (sem efeito).
Interpretação: Valores p menores que um nível de significância (geralmente 0,05) indicam que o coeficiente é significativamente diferente de zero.
# Sumário do modelo
print(model.summary())9.3.2 Intervalos de Confiança
Propósito: Fornecer uma faixa de valores dentro da qual o coeficiente provavelmente se encontra.
Interpretação: Se o intervalo de confiança não incluir zero, o coeficiente é considerado significativo.
# Intervalos de confiança dos coeficientes
conf_intervals = model.conf_int(alpha=0.05)
print(conf_intervals)9.4 Exercícios
Versão on-line destes exercícios
https://forms.gle/7EvTT8Y7GonA1d6R7
Qual é o propósito principal da análise de resíduos em um modelo de regressão linear?
Estimar os coeficientes de regressão.
Verificar se as suposições do modelo foram atendidas e identificar possíveis problemas.
Reduzir a variância dos resíduos.
Prever novos dados usando o modelo ajustado.
Qual ferramenta gráfica é mais comumente usada para verificar a normalidade dos resíduos em um modelo de regressão linear?
Gráfico de dispersão
Gráfico de barras
Gráfico de probabilidade normal (Q-Q plot)
Histograma de frequências
O que indica a presença de padrões sistemáticos em um gráfico de resíduos x valores ajustados?
Que os resíduos são normalmente distribuídos.
Que o modelo está perfeitamente ajustado aos dados.
Que pode haver uma relação não linear não capturada pelo modelo.
Que os resíduos têm variância constante.
Como a distância de Cook é usada no diagnóstico de modelos de regressão linear?
Para determinar a normalidade dos resíduos.
Para identificar pontos de dados influentes que afetam significativamente os coeficientes do modelo.
Para medir a correlação entre variáveis independentes.
Para calcular a soma dos quadrados dos resíduos.
O que é indicado por valores altos de leverage em um diagnóstico de regressão linear?
Que a variável dependente é não linear.
Que a variabilidade dos resíduos é alta.
Que um ponto de dados tem uma posição extrema no espaço das variáveis independentes, podendo influenciar a linha de regressão.
Que os resíduos são independentes.