Sobre o R

1. O que é o R?

O R é uma linguagem e um ambiente de desenvolvimento integrado, para cálculos estatísticos e gráficos. Foi criado originalmente por Ross Ihaka e por Robert Gentleman no Departamento de Estatística da Universidade de Auckland, Nova Zelândia, e desenvolvido por um esforço colaborativo de pessoas em vários locais do mundo. Seu layout é:

O nome R provêm em parte das iniciais dos criadores e também de um jogo figurado com a linguagem S (da Bell Laboratories, antiga AT&T).

O R é também altamente expansível com o uso dos pacotes (packges), que são bibliotecas para funções específicas ou áreas de estudo específicas. Um conjunto de pacotes é incluído com a instalação de R, com muito outros disponíveis na rede de distribuição do R (em inglês CRAN).

Mais informações sobre o R, bem como o seu download pode ser realizado no site: https://www.r-project.org/.

Outra alternativa é utilizar o Rstudio, que é um conjunto de ferramentas integradas projetadas para ajudá-lo a ser mais produtivo com R. Ele inclui um console, editor-realce de sintaxe que suporta a execução de código direto, bem como ferramentas para traçar, histórico, depuração e gerenciamento de espaço de trabalho (Figura abaixo). O download pode ser realizado no site: https://www.rstudio.com/products/rstudio/download/.

2. Importando dados no R

Dados podem ser importados ou digitados diretamente no software R. Caso os dados necessitem ser importados, o que é o mais comum em estudos de mensuração florestal, há a possibilidade de fazê-lo em diferentes formatos. O formato mais adequado dependerá do tamanho do conjunto de dados e se os dados já existem em um dado formato para serem importados.

Os formatos mais utilizados são os arquivos do tipo ASCII, podendo ter extensão “.txt” ou “.csv”, ou do tipo com extensão “.xlsx”, do Excel. No caso da importação dos dados do Excel, há a necessidade de instalar o pacote “xlsx” para poder importar corretamente.

Exemplos de comandos básicos para importação do arquivo “dados” com diferentes extensões, são dados a seguir:

Nesses exemplos, o arquivo de dados com diferentes extensões é lido com o nome das variáveis (header = TRUE) e recebe o nome de “exemplo”. No caso do fomato do Excel é necessário carregar o pacote “xlsx” [require(xlsx)] para importar os dados e especificar em qual planilha eles estão (sheetName = "Plan1" ), neste caso, na Plan1. No caso da extensão “.csv”, dependendo de como foi salvo o arquivo, se utilizando o separador virgula ou ponto e virgula, deve-se utilizar o comando read.csv ou read.csv2.

Exemplo:

Sejam 12 observações de duas variáveis X e Y:

Os dados foram salvos em um arquivo com o nome de “dados apendice”, no formato csv (separado por ponto e vírgula), dentro do seguinte diretório E:/Modelos Mistos.

Assim, o comando “read.csv2” será utilizado para a importação do arquivo “dados apendice” dentro do software R, devido ao separador de caracteres, e receberá o nome de “exemplo”. Além disso, como há a necessidade de verificar se a leitura foi realizada de forma correta e se os nomes e os valores das variáveis estão corretos, foram utilizados os comandos específicos para isso. No exemplo em questão, tem-se, então, os seguintes comandos e os respectivos comentários sobre oscomandos, que podem ser adicionados colocando no início da frase o símbolo #:

Foi adicionado o comando attach (exemplo) para reconhecer como objeto isolado cada coluna do Data frame, facilitando a manipulação dos dados nas análises.

Ao executar os comandos acima no R, tem-se os seguintes resultados, onde verifica-se que os dados foram lidos de forma correta:

3. Extraindo informações básicas dos dados

Uma vez que o arquivo de dados foi lido corretamente, é possível calcular estatísticas básicas, utilizando o pacote fBasics [require(fBasics)], por meio do comando “basicStats”:

Assim, como resultado dos comandos anteriores, tem-se as estimativas de somas, médias, variâncias, desvio padrão, entre outras estatísticas das variáveis X e Y:

Ainda é possível observar a tendência de distribuição da variável Y em relação à variável X, elaborando-se um gráfico de distribuição, considerando o seguinte comando:

O gráfico de distribuição será: