4 Fundamentos Matemáticos

4.1 Conceito de Variáveis Independentes e Dependentes

Na regressão linear, as variáveis desempenham papéis distintos e são categorizadas como independentes e dependentes:

Variável Dependente (Resposta): É a variável que queremos prever ou explicar. No contexto da regressão, ela é representada por \(y\).
Variáveis Independentes (Preditoras): São as variáveis que utilizamos para fazer previsões sobre a variável dependente. Elas são representadas por \(x_1, x_2, \ldots, x_n\). A premissa é que essas variáveis influenciam diretamente o valor de \(y\).

A relação entre as variáveis é expressa por uma equação linear, onde o valor de \(y\) é calculado com base nas variáveis independentes.

4.2 Função Linear e Equação de Reta

A função linear é uma expressão matemática que descreve uma linha reta. Na forma mais simples, para uma única variável independente, a equação da reta é:

\[y = \beta_0 + \beta_1x\]

Onde:

\(\beta_0\) é o intercepto, que representa o ponto onde a linha cruza o eixo \(y\).
\(\beta_1\) é o coeficiente angular, que indica a inclinação da linha, ou seja, como \(y\) varia quando \(x\) varia.

Para múltiplas variáveis independentes, a equação se expande para:

\[y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n\]

Essa equação representa um hiperplano no espaço de dimensões n, onde cada coeficiente \(\beta\) influencia a forma do hiperplano.

4.3 O Método dos Mínimos Quadrados

O método dos mínimos quadrados é uma técnica utilizada para estimar os coeficientes \(\beta\) que minimizam a soma dos quadrados das diferenças entre os valores observados \(y_i\) e os valores previstos \(\hat{y}_i\):

\[\textit{Soma dos Quadrados dos Resíduos (SSR)} = \sum_{i=1}^{m} (y_i - \hat{y}_i)^2\]

Onde:

\(y_i\) é o valor observado,
\(\hat{y}_i\) é o valor previsto pela equação de regressão.

O objetivo é encontrar os valores de \(\beta\) que minimizam a SSR, levando à melhor linha de ajuste. A solução para este problema de otimização é dada pela fórmula:

\[\beta = (X^TX)^{-1}X^Ty\]

Onde \(X\) é a matriz dos dados com termos constantes, \(X^T\) é a transposta de \(X\), e \(y\) é o vetor de resultados.

4.4 Coeficientes de Regressão e Interpretação

Os coeficientes de regressão são fundamentais para interpretar o modelo linear. Cada coeficiente \(\beta_i\) representa a mudança esperada na variável dependente \(y\) para uma unidade de mudança na variável independente \(x_i\), mantendo todas as outras variáveis constantes.

Intercepto (\(\beta_0\)): Indica o valor esperado de \(y\) quando todas as variáveis independentes são zero.
Coeficientes (\(\beta_i\)): Representam a inclinação do plano em relação a cada variável independente. Um coeficiente positivo sugere que um aumento na variável independente levará a um aumento em \(y\), enquanto um coeficiente negativo sugere o contrário.

É importante analisar a significância estatística de cada coeficiente, muitas vezes usando testes t, para determinar se a relação entre as variáveis é significativa ou se ocorre por acaso.

4.5 Exercícios

Na equação de regressão linear \(y = \beta_0 + \beta_1x + \epsilon\), o que representa \(\beta_1\)?
1. O termo de erro que captura as variações não explicadas pelo modelo.
2. O intercepto que representa o ponto onde a linha de regressão cruza o eixo y.
3. O coeficiente angular que representa a inclinação da linha de regressão.
4. A variável dependente que está sendo prevista.
O que é o método dos mínimos quadrados na regressão linear?
1. Uma técnica para maximizar a variabilidade explicada pelo modelo.
2. Um método para calcular a matriz de covariância entre variáveis.
3. Um procedimento para minimizar a soma dos quadrados das diferenças entre os valores observados e previstos.
4. Uma abordagem para encontrar a correlação máxima entre duas variáveis.
Qual é a função do termo de erro (\(\epsilon\)) na equação de regressão linear?
1. Ele representa o valor médio de \(y\) quando todas as variáveis independentes são zero.
2. Ele ajusta a inclinação da linha de regressão para melhor ajuste aos dados.
3. Ele captura as variações nos dados que não são explicadas pelo modelo.
4. Ele normaliza os dados para poderem ser comparados entre diferentes escalas.
Qual é uma suposição básica da regressão linear sobre a relação entre as variáveis dependente e independente?
1. A relação deve ser não linear.
2. A relação deve ser perfeitamente correlacionada.
3. A relação deve ser linear.
4. A relação deve ser dependente do tempo.
O que é a variável dependente em um modelo de regressão linear?
1. A variável manipulada para observar os efeitos nas variáveis independentes.
2. A variável que é mantida constante para medir o efeito de outras variáveis.
3. A variável cuja variação é explicada pelas variáveis independentes.
4. A variável que atua como um moderador entre duas outras variáveis.