|
Tutoriais |
Serão quatro tutoriais com uma hora e meia (1h30min) de duração, nos quais os palestrantes convidados apresentarão um software específico para uso em modelagem de dados.
|
|
Tutorial 1 Tinn-R José Claudio Faria - UESC Anfiteatro Bento Prado Junior A linguagem S foi desenvolvida nos laboratórios da Bell (AT&T Bell), atualmente Lucent Technologies (URL:http://www.lucent.com) por Becker, Chambers e Wilks, e se tornou a base do ambiente estatístico proprietário S-Plus.Em 1988, John M. Chambers, um dos criadores da linguagem S, foi premiado pela Association for Computing Machinery (ACM) por ter criado uma linguagem de programação inovadora que auxilia o usuário a manejar e retirar informações úteis de seus dados. Nessa premiação foi mencionado: "Os trabalhos do Dr. Chambers irão alterar para sempre a forma como as pessoas analisam, visualizam e manipulam dados." Em 1995, dois professores de estatística da Universidade de Auckland (Nova Zelândia) iniciaram um projeto ("Projeto R", URL: http://www.r-project.org), com o intuito de desenvolver um interpretador estatístico de domínio público baseado na linguagem S. A denominação R foi uma homenagem aos fundadores Ross Ihaka e Robert Gentleman. A versão R-1.0.0 foi disponibilizada em 29/02/2000 em 11 CDs assinados manualmente pelos desenvolvedores. Em pouco mais de dez anos esse projeto transformou-se no principal ambiente computacional para a implementação de soluções estatísticas: manipulação, análise e visualização gráfica de dados. Dado ao esforço coletivo organizado, a reciclagem e o reaproveitamento de códigos feitos em S, assim como das linguagens clássicas para o processamento numérico (Fortran e C), o R é, na atualidade, um dos ambientes que mais tem avançado nessa área do conhecimento. Embora com as características básicas mencionadas, o R é freqüentemente considerado um ambiente computacional difícil de aprender e usar, feito por e para especialistas ("experts"). Uma parte considerável desse conceito deveu-se à carência de interfaces gráficas simples e eficientes, voltadas para o usuário inicial ou ocasional do ambiente. Uma outra parte, possivelmente, se deveu à relativa escassez de livros didáticos, em adição à qualidade duvidosa de alguns materiais didáticos estão disponíveis em apostilas e na web. Adicionalmente, não se pode desconsiderar que computadores e programação significam, ainda, novidade para a vida de muitas pessoas que dele necessitam. Considerando os ambientes e software disponíveis para a estatística computacional, sem dúvida, aqueles que permitem escolher entre opções de menu, preencher diálogos, apertar botões e verificar os resultados são, inicialmente, mais simples e atrativos que escrever, em algum dialeto compreensível a ambos (humanos e computadores), o que se deseja que seja processado. Os problemas surgem quando o nível de exigências dos procedimentos necessários para alcançar determinado fim, leia-se processamento, vai aumentando. Percebe-se que, por mais que se esforcem, os programadores (construtores de interfaces gráficas) não conseguem colocar todos os recursos necessários por trás dos menus, diálogos e botões. É então necessária uma outra abordagem: instruir o computador, por intermédio de alguma linguagem (comum a ambos), para que ele execute as tarefas em questão. É onde se destacam os ambientes que permitem escrever de forma eficiente o conjunto de instruções necessárias, como o R. Em outras palavras, ir rápida e eficientemente dos problemas às soluções. GUI é um acrônimo para "Graphical User Interface". Uma GUI é uma interface computador-homem (i.e., uma forma para humanos interagirem com computadores) que usa janelas, menus, botões e ícones que podem ser manipulados pelo mouse ou freqüentemente por atalhos de teclado. GUI contrasta com CLI ("Command Line Interface"), cujos recursos são baseados exclusivamente em textos e acessados apenas via teclado. Os software CLIs mais familiares são o MS-DOS e o Console do Linux, nos quais é possível interagir apenas no modo texto, ou seja, pelo uso intensivo do teclado. Vários projetos (URL: http://www.sciviews.org/_rgui) estão em contínuo desenvolvimento para suprir as deficiências da interface gráfica do ambiente R. Embora não completos, alguns são considerados satisfatórios e estáveis, como o tradicional Xemacs + ESS, R Commander, JGR, RKward e Tinn-R, para citar os mais conhecidos e usados. Na maioria dos projetos o objetivo é subsidiar o usuário de forma eficiente quanto ao uso do ambiente R. Ou seja, proporcionar acesso facilitado aos recursos disponíveis, assim como, educar e fornecer bons hábitos de programação no decorrer do uso. Em síntese, subsidiam e ensinam gradativamente a escrever seqüências de instruções (scripts) na linguagem R, ao mesmo tempo em que asseguram resultados rápidos e consistentes. Sob esse enfoque, observa-se que a linguagem R, a interface de diálogo (Console) e a editoração eficiente do script são elementos centrais e destacados nos projetos de GUI para o R (URL:http://www.sciviews.org/_rgui/). Via de regra, não intencionam esconder a codificação (alguns acham horrível à primeira vista um código R) e substituí-la por diálogos exaustivos. Prefere-se, ao invés disto, dar suporte ao usuário na elaboração dos scripts (conjunto de instruções a serem interpretadas) de forma simples e eficiente. A origem do projeto Tinn-R foi um projeto de código aberto denominado Tinn ("Tinn is not Notpad", URL: http://tinn.solarvoid.com), então desenvolvido em "Object Pascal" sob o ambiente integrado de desenvolvimento (IDE) Delphi 5 da Borland. Embora os recursos básicos de um editor genérico e simples estivessem implementados, havia ainda muito a ser feito para que o mesmo pudesse ser usado como GUI/Editor para o ambiente R. Os trabalhos no código fonte do projeto Tinn (melhoramentos e adição de novos recursos) se estenderam por cerca de cinco meses, até se perceber que, dado às novas necessidades, não seria possível mantê-lo genérico, segundo a concepção original do projeto. A partir de então, novembro/2003, teve início um novo projeto então denominado Tinn-R. É oportuno mencionar que o projeto original Tinn foi descontinuado pela equipe em fevereiro/2004. Tão logo foi liberado para uso público em suas primeiras versões o projeto Tinn-R ganhou ampla base de usuários em universidades e centros de pesquisa governamentais e não governamentais. Muitas sugestões foram (e ainda são) enviadas e os trabalhos de codificação e aprimoramento se estenderam por vários anos: Tabela 1 - Ano e número de versões estáveis publicadas do projeto Tinn-R
Sem dúvida, é na linguagem S que residem a flexibilidade, a interatividade, o poder e a síntese do ambiente R. Construir boas interfaces gráficas, que preservem essas características para o usuário avançado, que facilitem seu aprendizado e uso eficiente para o usuário iniciante ou casual, é, antes de tudo, um "estado da arte" da programação computacional. Na grande maioria das instituições de pesquisa e ensino superior do Brasil, infelizmente, é comum o uso de programas estatísticos com licenças irregulares (piratas), o que se constitui numa prática ilegal. Entretanto, dada a escassez de recursos orçamentários, aliada ao elevado custo dos programas computacionais, é muitas vezes a alternativa adotada por pesquisadores, professores universitários, graduandos e pós-graduandos, entre outras, nas atividades de análise estatística de dados, geração de relatórios e elaboração de materiais didáticos. Por serem ambos de código aberto, de uso e distribuição livre (distribuídos sob a Licença Pública Geral - GPL, URL: http://www.gnu.org/copyleft/gpl.html) o ambiente R e a GUI/Editor Tinn-R oferecem uma alternativa eficiente e viável ao uso de softwares não legalizados. Dado o conjunto de recursos na atualidade oferecidos, o Tinn-R não pode mais ser concebido apenas como uma GUI/Editor para o ambiente R (seu propósito inicial). Mas sim, como uma ferramenta facilitadora ("case") de atividades que envolvem a geração e gerenciamento de textos (ASCII, LaTeX, HTML, XML, etc) e programação computacional (R e inúmeras outras linguagens). Na apresentação oral serão abordadas as principais características, funcionalidades e recursos daúltima versão estável do projeto Tinn-R. |
|||||||||||||||||
Tutorial 2 MICROARRAY Diógenes Ferreira Filho - ESALQ/USP Anfiteatro 1 O DNA foi, há 50 anos, a última grande e revolucionária descoberta científica da humanidade, abrindo novos caminhos para o desenvolvimento das ciências da vida e para o nascimento de áreas multidisciplinares de estudo e pesquisa antes desconhecidas (Vogt, 2008).Com raras exceções todas as células que constituem um organismo vivo contêm a mesma carga genética, ou seja, o mesmo DNA. O que diferencia dois grupos celulares morfologicamente distintos (células de folha e tronco, por exemplo) são os genes expressos nesses dois tipos de células e os níveis de expressão desses genes. A comparação dos níveis de expressão dos genes de diferentes tecidos pode levar ao entendimento dos diversos fenômenos encontrados em um organismo e, experimentos para a detecção de genes com potencial de expressão diferencial entre tecidos e órgãos para variáveis de importância econômica ou fisiológica podem ser realizados com microarrays (microarranjos) de DNA. Antes da tecnologia de microarray de DNA a pesquisa genética era quase artesanal e os avanços faziam-se passo a passo, gene a gene. A tecnologia de DNA microarray permite mensurar os níveis de expressão de milhares de genes simultaneamente, possibilitando comparações entre amostras de tecidos pelos perfis de expressão. Atualmente, a tecnologia de microarray vem sendo utilizada para tipos distintos de análises, como por exemplo, análise de expressão gênica, detecção de polimorfismos, re-sequenciação genética, genotipagem e escalagem genômica. Neste tutorial será apresentada uma revisão da metodologia de microarray a qual envolve várias etapas, tanto na obtenção como nas análises da grande quantidade de dados provenientes destes experimentos. As análises de dados de microarrays serão feitas no software R onde serão utilizados os pacotes affy e limma do projeto bioconductor. |
|||||||||||||||||
Tutorial 3 SEQUÊNCIAS DE PASSOS PARA ANÁLISE DE DADOS NO SISVAR: UMA SOFTWARE ESTATÍSTICO PARA PLANEJAMENTO DE EXPERIMENTOS DA UNIVERSIDADE FEDERAL DE LAVRAS Giovani Glaucio de Oliveira Costa - UFRRJ Anfiteatro Bento Prado Junior O SISVAR é uma poderosa ferramente da informática que permite realizar cálculos estatísticos complexos, focados em palnejamento de experimentos, e visualizar os seus resultados, em poucos segundos. Um aspecto desafiador do uso do SISVAR se refere a saber que teste estatístico usar para responder às suas questões de delineamnetos de experimentos e interpretar corretamente os resultados do cálculo estatístico efetuado.O presente minicurso pretende responder a esses problemas: dando exemplos práticos na área de experimentação agronômica de utilização de diversos testes estatísticos, assim como dos seus princípios de utilização e apresentando uma interpretação suscinta dos resultados obtidos. Os exemplos, todos da área de experimentação agronômica, são complementados com exercícios, em parte resolvidos, no fim de cada seqüência de passos para análise de dados apresentada. O minicurso é dividido em três partes. A primeira parte, Estatística Descritiva e Cálculo das Probabilidades, apresenta e define as principais técnicas exploratórias de dados e cálculo de probabilidades no SISVAR, orienta quanto a definição de variáveis, o que fazer depois da definição das variáveis da base de dados, isto é, como realizar a inserção de dados. A segunda parte, Inferência Estatística no SISVAR, define as principais seqüências para a construção de intervalos de confiança e realização de testes de hipóteses paramétricos no SISVAR e expoõe as seqüências de passos para realizá-los numa base de dados criada. A terceira e última parte do minicurso, Planejamento de Experimentos no SISVAR, define as principais seqüências para realização dos principais delimenatos experimentais agronômicos no SISVAR e expoõe as seqüências de passos para realizá-los numa base de dados criada. O SISVAR (Sistema de Análise da Variância) é uma aplicação que proporciona um moderno e eficiente tratamento estatístico de dados, combinando potencialidades gráficas com uma gestão de informações. É um sistema de análises estatísticas de dados, com destaque para análise da variância e planejamentos experimentais. Foi desenvolvido pela Universidade Federal de Lavras(UFLA), pelo Prof. Dr. Daniel Furtado Ferreira, Departamento de Ciências Exatas, Lavras, MG. Está disponível na versão 4.6. Este minicurso se propõe a desenvolver habilidades rápidas e instantâneas para execução de análises de dados de delineamentos experimentais, apresentado imediatamente, sem figuras ilustrativas, e com objetividade, a seqüência de passos para realizar determinada técnica de planejamento de experimentos. Com o site www.dex.ufla.br/~danielff/softwares.htm se podem baixar os seguintes produtos: O software SISVAR; o manual do SISVAR e a seqüência de como gerar dbse no Excel. A proposta deste curso é oferecer seqüências de passos para diversas análises de análise de dados no sisvar, tais como:1-Entrada de Dados,2-Estatísticas Descritivas,3-Distribuição Binomial,4-Distribuição de Poisson,5-Distribuição Normal,6-Distribuição T-Student,7-Distribuição F-Snedecor,8-Distribuição do Qui-Quadrado( χ2 ),9-Estimação da Média,Variância,Desvio-padrão e Coeficiente de Variação,10-Estimação de Diferença de Médias(Teste T) ,11-Estimação de Proporção,12-Estimação do Coeficiente de Assimetria e Curtose,13-Teste de Hipótese sobre a Média,14-Teste sobre a Diferença de Médias para Amostras Independentes,15-Teste sobre a Diferença de Médias para Amostras Emparelhadas,16-Teste sobre Proporção,17-Teste sobre a Variância,18-Delineamento Inteiramente ao Acaso,19-Delineamento em Blocos ao Acaso,20-Regressão Linear Simples,21-Regressão Linear Múltipla,22-Tratamentos Quantitativos. Hoje em dia o Brasil carece de cursos e de softwares na área de planejamento de experimentos e este minicurso se propõe a munir o participante de conhecimentos e habilidades para o uso de uma poderosa ferramenta para análise de dados provindos de planejamentos de experimentos agronômicos. Dentro desta perspectiva este minicurso se configura como pioneiro na iniciativa. |
|||||||||||||||||
Tutorial 4 SAS do Brasil Ricardo Galante Anfiteatro 2 |
— Atualizado em: 18/07/2009.