Disciplina de Métodos Quantitativos em Medicina (mpt-164 / edição 2003)
e-barrav.gif (922 bytes)

Regressão e ANOVA

Este texto é parte integrante da aula sobre
Correlação e Regressão

publicação: 20/out/1999
última modificação: 06/nov/2000

 

 

Após ter desenvolvido um modelo básico de regressão linear, podemos utilizar a análise de variância para verificar quanto a reta de regressão "explica" os valores observados que foram utilizados para o ajuste. Este texto descreve uma maneira de obter esta medida.

 

Modelo ajustado por regressão:
Adote, neste texto, a seguinte notação para o modelo de regressão linear
ajustado:

yabx.gif (1196 bytes)

onde:
ach.gif (109 bytes)  ...  estimador do coeficiente linear (ou intercepto)
bch.gif (114 bytes)  ...  estimador do coeficiente angular
e-barrav.gif (922 bytes) Decomposição da soma de quadrados totais:

Quando fazemos uma regressão linear, os valores observados (xi,yi) estão espalhados ao redor da reta de regressão definida acima. Quanto menor for este espalhamento, melhor a reta de regressão representa o conjunto de valores observados.

A variância amostral total, como estimador do espalhamento, pode ser decomposta da seguinte forma:

sqtotal1.gif (1082 bytes)

onde:
ach.gif (109 bytes)  ...  valores de y observados
bch.gif (114 bytes)  ...  valor médio de y
ych.gif (127 bytes)  ...  valor de y estimados pela reta de regressão ajustada que corresponde a cada valor observado

Os três elementos desta equação correspondem, respectivamente, às três somas dos quadrados:

sqtotal1.gif (1082 bytes)

onde:
ach.gif (109 bytes)  ...  variância total de Y
ach.gif (109 bytes)  ...  variância explicada pela regressão
ach.gif (109 bytes)  ...  variância não explicada pela regressão
e-barrav.gif (922 bytes) Em outras palavras, observe o seguinte gráfico:

retaregr.gif (2679 bytes)

Os valores observados (yi.gif (117 bytes), representados por ybola.gif (95 bytes)) são utilizados para ajustar uma reta de regressão (retaregr.gif (2679 bytes)) ajustada através de :

e

Os valores by,x e a, assim obtidos, são estimadores do coeficiente angular e do intercepto, portando são notados neste texto por bch.gif (114 bytes) e ach.gif (109 bytes).

Suponha que os valores de y não sejam influenciados pelos valores de x. Se y não depende de x, graficamente, teríamos y constante (retaregr.gif (2679 bytes), dado que b=0 e y=a): estaríamos supondo que os valores observados ach.gif (109 bytes) são flutuações, ao acaso, ao redor de um valor médio bch.gif (114 bytes).
Podemos medir quanto a reta de regressão (valores ych.gif (127 bytes)) difere deste valor médio bch.gif (114 bytes) pela soma dos quadrados das distâncias entre ych.gif (127 bytes) e bch.gif (114 bytes) (retaregr.gif (2679 bytes)), o que corresponde a  ach.gif (109 bytes). Também podemos medir o espalhamento dos valores observados em relação à reta, o que corresponde a ach.gif (109 bytes) dado pela soma dos quadrados das distâncias entre ych.gif (127 bytes) e ach.gif (109 bytes) (retaregr.gif (2679 bytes)). Por isto que dizemos que  ach.gif (109 bytes) corresponde a quanto da variação de ach.gif (109 bytes) é "justificado" pela reta ajustada e ach.gif (109 bytes) a quanto "sobra" para ser explicado.

e-barrav.gif (922 bytes) Medida de qualidade do ajuste, o R-quadrado:
Podemos verificar que percentual da variância total que é explicada pela reta obtida de um modelo de regressão linear, utilizando:

rquadrado.gif (725 bytes)

Nota: os denominadores 1 e n-1 correspondem
aos graus de liberdade de SQregressão e SQtotal.

Teste F para regressão linear simples:
Podemos também testar:

h0b0.gif (493 bytes)

ou seja, se a porção da variância total explicada pela regressão é estatisticamente significativa. A hipótese nula é a de que a variação de y não depende de x, portanto rejeitando H0 estamos admitindo que y é função de x. Para isto compararemos as variâncias descritas acima com:
Fregressao.gif (982 bytes)
que, sob H0, tem distribuição F com graus de liberdade (1,n-2). Portanto rejeita-se H0 quando MQregressão for significativamente maior que a MQresíduos.
É comum se ter, entre os resultados do ajuste de uma reta de regressão dados por um pacote estatístico, uma tabela como a seguinte:
ANOVA de uma regressão simples
  d.f. SQ MQ F valor p
Regressão 1 SQregressão MQregressão SQregressão / MQresíduos  
Resíduos n-2 SQresíduos MQresíduos    
Total n-1 SQtotal      
   

©2003, Informática Médica do Departamento de Patologia
da Faculdade de Medicina da USP

Todos os direitos reservados: para o uso ou reprodução total ou parcial deste texto entre em contato com os autores.
(Veja também as instruções para referenciar nosso material didático)

O uso ou reprodução total ou parcial deste material didático pode ser permitido exclusivamente para uso acadêmico ou de ensino que não envolva ganho comercial. Solicitamos que:
- Mantenha este texto e o link para http://www.fm.usp.br/dim intactos;
- Entre em contato conosco através do e-mail vilma@dim.fm.usp.br, informando-nos da ocorrência.

responsáveis:
Prof. Dr. Eduardo Massad editor: Prof. Dr. Paulo Sérgio Panse Silveira
coordenador:
Prof. Dr. Koichi Sameshima autores: Docentes da DIM
suporte:Telemedicina e Informática Médica