Distribuição Normal e t de Student

1. Distribuição Normal

A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também como distribuição de Gauss ou Gaussiana. Sob condições de normalidade é possível aplicar diferentes teste estatísticos e calcular medidas de posição e dispersão de variáveis aleatórias contínuas.

Sua função densidade de probabilidade (f.d.p.) é dada por:

a qual possui dois parâmetros: uma medida de posição, a média (μ), e uma medida de dispersão dos dados da variável aleatória (X) em torna da média, dada pela variância (σ²).

            Graficamente, a distribuição normal é representada por:

De acordo com a figura anterior, espera-se uma maior probabilidade de ocorrência de valores de uma variável X qualquer próximo da média e menores nos extremos da distribuição. Em termos de esperança matemática, tem-se: E(x) = μ. Além disso, observa-se que em torno da média ± 1 desvio (σ) tem-se 68,28% da área sob a curva (probabilidade de ocorrência); 95,44% para ± 2 desvios (2σ), chegando a 99,74% para ± 3 desvios (3σ).

Como mencionado, a Distribuição Normal tem dois parâmetros: μ (média) e σ² (variância), os quais são estimados por (clique para ver deduções no post sobre os estimadores da Distribuição Normal):

* Média:

* Variância:

 

Exemplo:

Seja uma variável X ~ N(μ, σ²), cuja seguinte amostra de tamanho n=6 foi obtida de uma população qualquer e os valores são: 5, 7, 9, 14, 18 e 21. Assim, as estimativas de média e variância são, respectivamente:

A variabilidade em torno da média, na unidade original, é estimada pelo desvio padrão (S), tal que, para os dados deste exemplo, é obtido por:

A variabilidade em torno da média também pode ser expressa em termos percentuais pelo coeficiente de variação, calculado por:

Como  é um estimador de μ. Se, de um total de “N” observações, for retirada uma amostra de tamanho “n” e calculada a estimativa de , o quanto esta estimativa pode ser diferente de μ?

Esta estimativa pode ser obtida calculando-se o erro padrão da média para uma população infinita ou finita, respectivamente, por:

Se todos os “N” valores de uma população finita forem medidos, então:

porque tem-se que:

Se todos os “N” valores forem iguais, então:

e não temos uma distribuição dos valores de X e sim um ponto porque todos os valores são iguais.

Exemplo:

Sejam os seguintes dados de uma amostra de uma variável aleatória X = 2, 5, 7, 9, 14, em uma população infinita, tal que X ~ N(μ, σ²). Assim, as estimativas da média e do erro padrão da média, serão:

 
 
 
1.1.  Distribuição Normal Padronizada
 

A f.d.p da distribuição normal é dada, como visto anteriormente, por:

 

Assim, para cada valor de μ e/ou σ², tem-se uma curva de distribuição de probabilidades. Desta forma, desejando-se calcular áreas específicas sob as curvas (probabilidades), torna-se necessário utilizar a distribuição normal padronizada ou reduzida, que possui  μ=0 e σ=1.

Para obter tal distribuição padronizada, quando uma variável X possui distribuição normal com média (μ) diferente de 0 (zero) e/ou desvio padrão (σ) diferente de 1 (um), é necessário transformar a distribuição de X para uma variável Z, por meio da seguinte expressão:

Desta forma, obtemos uma distribuição de Z, com μ=0 e σ=1, representada graficamente por:

 

 

Exemplo:

Por exemplo, se se deseja obter a probabilidade de z ≥ 2,75, deve-se calcular a probilidade considerando á área total sob a curva, que é igual a 1, menos a probabilidade até o valor padronizado de 2,75. Como se trata de uma distribuição de uma variável aleatória contínua, as probabilidades, neste exemplo, são dadas pela resolução da seguinte integral:

Assim, a probabilidade  de z ≥ 2,75 é igual a 0,003 ou 0,3%.

 

Existem tabelas que fornecem as probabilidades acumuladas sob a curva, pela solução das respectivas integrais. No caso deste exemplo, analisando-se a tabela abaixo, observa-se que a probabilidade acumulada da média (zero) até o valor de 2,75 é igual a 0,4970. Como a distribuição de probabilidades é simétrica, a probabilidade acumulada até a média (zero) é igual a 0,50. Então a probabilidade acumulada até o valor de de 2,75 é: 0,50 + 0,4970 = 0,9970. Como se deseja a probabilidade de z ≥ 2,75, esta será: 1 - 0,9970 = 0,003 ou 0,3%.

Tabela de Z:

 

2. Distribuição "t" de Student

Esta distribuição apresenta a seguinte f.d.p.

Graficamente, ela se parece muito com a distribuição normal, sendo simétrica e em forma de sino (figura abaixo), com caudas mais largas (maior variabilidade), tipicas de amostras de menores tamanhos. Para tamanhos de amostras maiores, mais próxima será a distribuição “t”de Student da distribuição normal.

No inventário florestal, onde deseja-se construir o intervalo de confiança para a média populacional (desconhecida) de uma variável aleatória X que possui distribuição normal, com base em uma amostra de tamanho “n”, utiliza-se a distribuição  “t” de Student para associar um nível de probabilidade a média amostral. Assim, multiplicando-se o erro padrão da média por um valor de “t”, para um determinado grau de liberdade e nível de significância, tem-se o erro de amostragem.

Desta forma, o intervalo de confiança para a média populacional, é dado por:

Considerando novamente os dados de uma amostra de uma variável aleatória, em uma população infinita, tal que X ~ N(μ, σ²):  2, 5, 7, 9, 14, as estimativas da média, da variância e do erro padrão da média, serão:

O intervalo de confiança para a média, considerando o valor da estatística “t” para um nível de significância de 5% e 4 graus de liberdade igual a 2,78 (ver tabela abaixo), será:

 
Tabela de "t"
 

Voltar ao Topo