A Regressão linear é um método estatístico utilizado para avaliar a relação causal e quantitativa entre duas variáveis, chamada de variável dependente e variável independente, respectivamente. O modelo de regressão linear tem a seguinte forma: y = a + bx + e, onde y é a variável dependente, x é a variável independente, a é o intercepto, b é a reta inclinada e e é o erro. Com a regressão podemos encontrar um modelo matemático que melhor descreva a relação entre as variáveis (x) e (y).
Características
- Relação linear: A relação entre as variáveis é modelada como uma equação linear.
- Variável dependente: y (ou resposta)
- Variável(s) independente(s): x (ou preditor(es))
- Coeficientes: Parâmetros que descrevem a relação entre x e y
Tipos
- Regressão linear simples: Uma variável independente.
- Regressão linear múltipla: Mais de uma variável independente.
Equação da regressão linear:
y = β0 + β1x + ε
Onde:
- y: Variável dependente
- x: Variável independente
- β0: Intercepto (ou constante)
- β1: Coeficiente de regressão
- ε: Erro residual (ou ruído)
Objetivos
- Previsão: Prever valores de y com base em x.
- Análise da relação: Entender como x afeta y.
- Identificação de padrões: Detectar tendências e padrões nos dados.
Pressupostos
- Linearidade: Relação linear entre x e y.
- Independência: Observações independentes.
- Homocedasticidade: Variância constante dos resíduos.
- Normalidade: Distribuição normal dos resíduos.
- Não multicolinearidade: Variáveis independentes não correlacionadas.
Métricas de avaliação
- Coeficiente de determinação (R²)
- Erro quadrático médio (MSE)
- Raiz do erro quadrático médio (RMSE)
Aplicações
- Análise de dados
- Previsão de vendas
- Modelagem financeira
- Análise de marketing
- Pesquisa científica
Limitações da regressão linear
- Suposições rígidas
- Sensibilidade a outliers
- Não captura relações não lineares
- Não considera interações entre variáveis
Técnicas relacionadas
- Regressão polinomial
- Regressão logística
Curtiu? Deixei um comentário. Até o próximo post.