Repositório RCAAP

Análise de dados categorizados com omissão

Neste trabalho aborda-se aspectos teóricos, computacionais e aplicados de análises clássicas de dados categorizados com omissão. Uma revisão da literatura é apresentada enquanto se introduz os mecanismos de omissão, mostrando suas características e implicações nas inferências de interesse por meio de um exemplo considerando duas variáveis respostas dicotômicas e estudos de simulação. Amplia-se a modelagem descrita em Paulino (1991, Brazilian Journal of Probability and Statistics 5, 1-42) da distribuição multinomial para a produto de multinomiais para possibilitar a inclusão de variáveis explicativas na análise. Os resultados são desenvolvidos em formulação matricial adequada para a implementação computacional, que é realizada com a construção de uma biblioteca para o ambiente estatístico R, a qual é disponibilizada para facilitar o traçado das inferências descritas nesta dissertação. A aplicação da teoria é ilustrada por meio de cinco exemplos de características diversas, uma vez que se ajusta modelos estruturais lineares (homogeneidade marginal), log-lineares (independência, razão de chances adjacentes comum) e funcionais lineares (kappa, kappa ponderado, sensibilidade/especificidade, valor preditivo positivo/negativo) para as probabilidades de categorização. Os padrões de omissão também são variados, com omissões em uma ou duas variáveis, confundimento de células vizinhas, sem ou com subpopulações.

Ano

2006

Creators

Frederico Zanqueta Poleto

Modelos estocásticos e propriedades estatísticas em mercados de alta frequência

Neste trabalho, apresentamos um conjunto de fatos empíricos e propriedades estatística de negociações em alta frequência, e discutimos algumas questões gerais comuns a dados de alta frequência tais: como discretização, espaçamento temporal irregular, durações correlacionadas, periodicidade diária, correlações temporais e as propriedades estatísticas dos fluxos de ordens. Logo apresentamos dois modelos da literatura,estilizados para a dinâmica do limit order book. No primeiro modelo os fluxo de ordens é descrito por processos de Poisson independentes, propomos para ele uma forma alternativa da prova de ergodicidade basejada em funções de Lyapunov. O segundo modelo é um modelo reduzido que toma em consideração dinâmicas tipo difusão para os tamanhos do bid e ask, e se foca só nas ordens como melhores preços, e modela explicitamente as cotações do bid e ask na presença de liquidez oculta. E por ultimo, propomos um modelo alternativo para a dinâmica do preço e do spread no limit order book, estudamos o comportamento assintótico do modelo e estabelecemos condições de ergodicidade e transitoridade. Além disso, consideramos a uma família de cadeias de Markov definidos nas sequências de caracteres (strings, ou palavras) com infinito alfabeto e para alguns exemplos inspirados nos modelos de negociações em alta frequência, obtemos condições para ergodicidade, transitoriedade e recorrência nula, para a qual usamos as técnicas de construção de funções Lyapunov.

Ano

2016

Creators

Helder Alan Rojas Molina

Approximate local influence in generalized linear mixed models

Non-Gaussian correlated data are frequent in longitudinal and repeated measure studies. Generalized linear mixed models (GLMMs) are a powerful tool for the analysis and treatment of this kind of data. Residual and sensitivity analysis are useful diagnostic procedures to verify the assumptions made on these models and the adequacy to the data. Among the techniques included in the sensitivity analysis is the local influence, which allows to discriminate observations with a undue weight in the parameter estimates of any statistical model. In this work we present approximated analytical structures for local influence measurements in generalized linear mixed models. These structures were obtained through Laplace approximations for usual perturbation schemes in order to discriminate observations and subjects with excessive influence on the parameter estimates. These measures, which are presented in closed forms for the generalized linear mixed models, have a relatively low computational cost and have been shown to be effective in detection of influential observations and subjects as evidenced by simulation studies and analyses of three real data sets.

Ano

2019

Creators

Sergio Alexander Gomez Noguera

Predição de fator de simultaneidade através de modelos de regressão para proporções contínuas

O fator de simultaneidade é fundamental no planejamento de redes de distribuição de gás natural. Trata-se de um multiplicador entre 0 e 1 que ajusta o consumo total teórico de um número de aparelhos de utilização em condições reais. Em 2005 o Instituto de Pesquisas Tecnológicas (IPT) e a Companhia de Gás de São Paulo (COMGÁS) realizaram um estudo no qual determinou-se o fator de simultaneidade em um conjunto de edificações residenciais. Um modelo de regressão foi proposto para expressar o fator de simultaneidade em termos da potência total instalada. O modelo ajustado pode ser utilizado para predizer o fator de simultaneidade em novas edificações. O modelo em questão é um modelo de regressão linear normal no qual a variável resposta é o logaritmo do fator de simultaneidade. Nesta dissertação, o objetivo é investigar outras possibilidades de modelos de regressão adequados aos dados obtidos pelo IPT e pela COMGÁS. Especial atenção é dada ao modelo de regressão beta proposto por Ferrari e Cribari-Neto (Journal of Applied Statistics, 2004) por possuir vantagens sobre o modelo de regressão linear normal. O modelo de regressão beta assume que, dadas as covariáveis, a variável resposta possui distribuição beta, sendo adequado para modelar dados observados no intervalo unitário. Desta forma, a transformação na variável resposta - o fator de simultaneidade - é desnecessária. Além disso, é proposta uma nova abordagem para a predição do fator de simultaneidade, diferente de todas as abordagens pesquisadas na literatura, utilizando a técnica de bootstrap.

Ano

2008

Creators

Luiz Fernando Molinari Zerbinatti

Critérios robustos de seleção de modelos de regressão e identificação de pontos aberrantes

A Regressão Robusta surge como uma alternativa ao ajuste por mínimos quadrados quando os erros são contaminados por pontos aberrantes ou existe alguma evidência de violação das suposições do modelo. Na regressão clássica existem critérios de seleção de modelos e medidas de diagnóstico que são muito conhecidos. O objetivo deste trabalho é apresentar os principais critérios robustos de seleção de modelos e medidas de detecção de pontos aberrantes, assim como analisar e comparar o desempenho destes de acordo com diferentes cenários para determinar quais deles se ajustam melhor a determinadas situações. Os critérios de validação cruzada usando simulações de Monte Carlo e o Critério de Informação Bayesiano são conhecidos por desenvolver-se de forma adequada na identificação de modelos. Na dissertação confirmou-se este fato e além disso, suas alternativas robustas também destacam-se neste aspecto. A análise de resíduos constitui uma forte ferramenta da análise diagnóstico de um modelo, no trabalho detectou-se que a análise clássica de resíduos sobre o ajuste do modelo de regressão linear robusta, assim como a análise das ponderações das observações, são medidas de detecção de pontos aberrantes eficientes. Foram aplicados os critérios e medidas analisados ao conjunto de dados obtido da Estação Meteorológica do Instituto de Astronomia, Geofísica e Ciências Atmosféricas da Universidade de São Paulo para detectar quais variáveis meteorológicas influem na temperatura mínima diária durante o ano completo, e ajustou-se um modelo que permite identificar os dias associados à entrada de sistemas frontais.

Ano

2019

Creators

Alia Garrudo Guirado

Árvores de decisão: a evolução do CART ao BART

O objetivo deste trabalho é apresentar a evolução do uso dos modelos de Árvore de Decisão cuja linhagem remonta ao modelo CART (Classication And RegressionTrees) apresentado na publica- ção seminal Breiman et al. (1984). O modelo CART gerou uma sequência frutífera de modelos a partir da ideia de replicação da amostra disponível (via bootstrap) e/ou multiplicação no número de árvores (ensembles) para compor um resultado nal. Passando pelo Bagging com replicação de amostras seguido das Florestas Aleatórias com a soma de múltiplas de árvores, apresentamos os modelos baseados em boosting: AdaBoost, Gradiente Boost e XGBoost. Surgidos a partir da utilização dos modelos aditivos, árvores são ajustadas em sequência onde cada árvore subsequente procura diminuir o erro cometido pela precedente e ao mesmo tempo maximizar uma função de perda que engloba o conjunto de árvores como um todo, o resultado nal é a soma de todas árvores geradas. Os modelos de árvores Bayesianas também são apresentados: árvores Bayesianas CART e árvores Bayesianas BART. Para cada modelo desenvolvemos, segundo aplicável, como a árvore é construída, estimativas de erro, funções de perda adequadas, medidas de importância de variáveis, algoritmo de cálculo e uma ilustração para entendimento. No nal mostramos resultados de simula ção e aplicações em dados reais.

Ano

2021

Creators

Cleber Batista de Souza

Um estudo de métodos bayesianos para dados de sobrevivência com omissão nas covariáveis

O desenvolvimento de métodos para o tratamento de omissões nos dados é recente na estatística e tem sido alvo de muitas pesquisas. A presença de omissões em covariáveis é um problema comum na análise estatística e, em particular nos modelos de análise de sobrevivência, ocorrendo com freqüência em pesquisas clínicas, epidemiológicas e ambientais. Este trabalho apresenta propostas bayesianas para a análise de dados de sobrevivência com omissões nas covariáveis considerando modelos paramétricos da família Weibull e o modelo semi-paramétrico de Cox. Os métodos estudados foram avaliados tanto sob o enfoque paramétrico quanto o semiparamétrico considerando um conjunto de dados de portadores de insuficiência cardíaca. Além disso, é desenvolvido um estudo para avaliar o impacto de diferentes proporções de omissão.

Ano

2007

Creators

Demerson Andre Polli

Limite do fluído para o grafo aleatório de Erdos-Rényi

Neste trabalho, aplicamos o algoritmo Breadth-First Search para encontrar o tamanho de uma componente conectada no grafo aleatório de Erdos-Rényi. Uma cadeia de Markov é obtida deste procedimento. Apresentamos alguns resultados bem conhecidos sobre o comportamento dessa cadeia de Markov. Combinamos alguns destes resultados para obter uma proposição sobre a probabilidade da componente atingir um determinado tamanho e um resultado de convergência do estado da cadeia neste instante. Posteriormente, aplicamos o teorema de convergência de Darling (2002) a sequência de cadeias de Markov reescaladas e indexadas por N, o número de vértices do grafo, para mostrar que as trajetórias dessas cadeias convergem uniformemente em probabilidade para a solução de uma equação diferencial ordinária. Deste resultado segue a bem conhecida lei fraca dos grandes números para a componente gigante do grafo aleatório de Erdos-Rényi, no caso supercrítico. Além disso, obtemos o limite do fluído para um modelo epidêmico que é uma extensão daquele proposto em Kurtz et al. (2008).

Ano

2010

Creators

Fabio Marcellus Lima Sá Makiyama Lopes

O modelo de percolação em grafos: Um estudo de condições para a transição de fase do parâmetro crítico

Este trabalho visa a estudar o modelo de percolação independente, de Bernoulli, em grafos, tendo como objetivo principal obter condições que garantam a ocorrência de transição de fase. Iniciamos apresentando as definições e algumas técnicas fundamentais para o modelo de percolação (de elos ou de sítios) em um grafo infinito, conectado e localmente finito. Demonstramos então dois resultados essenciais: os fatos do parâmetro crítico não depender da escolha do vértice e da existência de um aglomerado infinito ter probabilidade 0 ou 1. Também obtemos um limitante inferior para o parâmetro crítico quando o grafo é de grau limitado. Para finalizar esta parte introdutória, analisamos a percolação em grafos particulares, a saber, a rede hipercúbica Z^d (para a qual mostramos a existência de transição de fase em dimensão d >= 2 e a unicidade do aglomerado infinito na fase supercrítica) e alguns tipos de árvores (para as quais apresentamos os parâmetros críticos). Na parte mais importante da dissertação, tendo como base os trabalhos de Benjamini e Schramm, de Häggström, Schonmann e Steif e de Lyons e Peres, introduzimos os conceitos de transitividade, amenabilidade e amenabilidade forte para um grafo. Fazemos uma detalhada discussão destas definições: provamos que a constante de Cheeger ancorada não depende do vértice em que é ancorada, estudamos relações entre os conceitos (amenabilidade e amenabilidade forte são noções distintas, bem como condições necessárias e suficientes para ambas) e calculamos a constante de Cheeger e a constante de Cheeger ancorada para alguns grafos. Finalmente, utilizando a técnica de crescimento do aglomerado, apresentamos para a probabilidade crítica um limitante superior que depende da constante ancorada. Isto nos permite concluir que ocorre transição de fase para qualquer grafo infinito, conectado, fracamente não-amenável (de constante de Cheeger ancorada positiva) e de grau limitado.

Ano

2002

Creators

Élcio Lebensztayn

Uso de transformações em modelos de regressão logística

Modelos para dados binários são bastante utilizados em várias situações práticas. Transformações em Análise de Regressão podem ser aplicadas para linearizar ou simplificar o modelo e também para corrigir desvios de suposições. Neste trabalho, descrevemos o uso de transformações nos modelos de regressão logística para dados binários e apresentamos modelos envolvendo parâmetros adicionais de modo a obter um ajuste mais adequado. Posteriormente, analisamos o custo da estimação quando são adicionados parâmetros aos modelos e apresentamos os testes de hipóteses relativos aos parâmetros do modelo de regressão logística de Box-Cox. Finalizando, apresentamos alguns métodos de diagnóstico para avaliar a influência das observações nas estimativas dos parâmetros de transformação da covariável, com aplicação a um conjunto de dados reais.

Ano

2007

Creators

Noemi Ichihara Ishikawa

Tempo de chegada ao equilíbrio da dinâmica de Metropolis para o GREM

Neste trabalho consideramos um processo de Markov a tempo contínuo com espaço de estados finito em um meio aleatório, a saber, a dinâmica de Metropolis para o Modelo de Energia Aleatória Generalizado (GREM) com um número de níveis finito e discutimos o comportamento do seu tempo de chegada ao equilíbrio, o qual é dado pelo inverso da lacuna espectral de sua matriz de probabilidades de transição. No principal resultado desta tese provamos que o quociente entre o volume do sistema e o logaritmo do inverso da lacuna é quase sempre limitado, por cima, por uma função da temperatura, que também é a que descreve a energia livre do GREM sob o regime de temperaturas baixas. Como um estudo adicional, também é discutido um correspondente limitante inferior em um caso particular do GREM com 2 níveis.

Ano

2018

Creators

Antonio Marcos Batista do Nascimento

Sistemas de partículas interagentes dependentes de tipo e aplicações ao estudo de redes de sinalização biológica

Neste trabalho estudamos os type-dependent stochastic spin models propostos por Fernández et al., os que chamaremos de modelos de spins estocástico dependentes de tipo, e que foram usados para modelar redes de sinalização biológica. A modelagem original descreve a evolução macroscópica de um modelo de spin-flip de tamanho finito com k tipos de spins, possuindo um número arbitrário de estados internos, que interagem através de uma dinâmica estocástica não reversível. No limite termodinânico foi provado que, em um intervalo de tempo finito as trajetórias convergem quase certamente para uma trajetória determinística, dada por uma equação diferencial de primeira ordem. Os comportamentos destes sistemas dinâmicos podem incluir bifurcações, relacionadas às transições de fase do modelo. O nosso objetivo principal foi de estender os modelos de spins com dinâmica de Glauber utiliza- dos pelos autores, permitindo trocas múltiplas dos spins. No contexto biológico tentamos incluir situações nas quais moléculas de tipos diferentes trocam simultaneamente os seus estados internos. Utilizando diversas técnicas, como as de grandes desvíos e acoplamento, tem sido possível demonstrar a convergência para o sistema dinâmico associado.

Ano

2011

Creators

Manuel Alejandro Gonzalez Navarrete

Estimação indireta de modelos R-GARCH

Processos lineares não capturam a estrutura dos dados em finanças. Há uma variedade muito grande de modelos não lineares disponíveis na literatura. A classe de modelos ARCH (Autoregressive Conditional Heterokedastic) foi introduzida por Engle (1982) com o objetivo de estimar a variância da inflação. A idéia nesta classe é que os retornos sejam não correlacionados serialmente, mas a volatilidade (variância condicional) dependa de retornos passados. A classe de modelos GARCH (Generalized Autoregressive Conditional Heterokedastic) sugerida por Bollerslev (1986, 1987, 1988) pode ser usada para descrever a volatilidade com menos parâmetros que um modelo ARCH. Modelos da classe GARCH são processos estocásticos não lineares, suas distribuições tem cauda pesada com variância condicional dependente do tempo e modelam agrupamento de volatilidade. Apesar da razoável descrição, a forma como os modelos acima foram construídos apresentaram algumas limitações no que se refere ao peso das caudas em suas distribuições não condicionais. Muitos estudos em dados financeiros apontam para caudas com peso considerável. Modelos R-GARCH (Randomized Generalized Autoregressive Conditional Heterokedastic) foram propostos por Nowicka (1998) e incluem os modelos ARCH e GARCH possibilitando o uso de inovações estáveis além da conhecida distribuição normal. Estas permitem captar melhor a propriedade de cauda pesada. Como a função de autocovariância não existe para tais processos introduz-se novas medida de dependência. Métodos de estimação e análises empíricas da classe R-GARCH, assim como de suas medidas de dependência não estão disponíveis na literatura e são o foco deste trabalho.

Ano

2012

Creators

Jhames Matos Sampaio

Tamanho amostral para estimar a concentração de organismos em água de lastro: uma abordagem bayesiana

Metodologias para obtenção do tamanho amostral para estimar a concentração de organismos em água de lastro e verificar normas internacionais são desenvolvidas sob uma abordagem bayesiana. Consideramos os critérios da cobertura média, do tamanho médio e da minimização do custo total sob os modelos Poisson com distribuição a priori gama e binomial negativo com distribuição a priori Pearson Tipo VI. Além disso, consideramos um processo Dirichlet como distribuição a priori no modelo Poisson com o propósito de obter maior flexibilidade e robustez. Para fins de aplicação, implementamos rotinas computacionais usando a linguagem R.

Ano

2017

Creators

Eliardo Guimarães da Costa

Aperfeiçoamento de métodos estatísticos em modelos de regressão da família exponencial

Neste trabalho, desenvolvemos três tópicos relacionados a modelos de regressão da família exponencial. No primeiro tópico, obtivemos a matriz de covariância assintótica de ordem $n^$, onde $n$ é o tamanho da amostra, dos estimadores de máxima verossimilhança corrigidos pelo viés de ordem $n^$ em modelos lineares generalizados, considerando o parâmetro de precisão conhecido. No segundo tópico calculamos o coeficiente de assimetria assintótico de ordem n^{-1/2} para a distribuição dos estimadores de máxima verossimilhança dos parâmetros que modelam a média e dos parâmetros de precisão e dispersão em modelos não-lineares da família exponencial, considerando o parâmetro de dispersão desconhecido, porém o mesmo para todas as observações. Finalmente, obtivemos fatores de correção tipo-Bartlett para o teste escore em modelos não-lineares da família exponencial, considerando covariáveis para modelar o parâmetro de dispersão. Avaliamos os resultados obtidos nos três tópicos desenvolvidos por meio de estudos de simulação de Monte Carlo

Ano

2009

Creators

Alexsandro Bezerra Cavalcanti

"Métodos de estimação na teoria de resposta ao item"

Neste trabalho apresentamos os mais importantes processos de estimação em algumas classes de modelos de resposta ao item (Dicotômicos e Policotômicos). Discutimos algumas propriedades desses métodos. Com o objetivo de comparar o desempenho dos métodos conduzimos simulações apropriadas.

Ano

2003

Creators

Caio Lucidius Naberezny Azevedo

Modelos não lineares de família exponencial revisitados

O objetivo deste trabalho é fazer uma revisão dos modelos não lineares de família exponencial (Cordeiro & Paula (1989); Wei (1998)) para respostas independentes e apresentar possíveis extensões para o caso de dados correlacionados. Inicialmente são apresentados exemplos ilustrativos, alguns dos quais são reanalizados ao longo do texto. Em seguida são discutidos procedimentos de estimação e testes de hipóteses, tais como apresentação de um processo de estimação que pode ser adaptado ao processo iterativo usado na classe dos modelos lineares generalizados, e alguns resultados assintóticos. Técnicas usuais de diagnóstico, como pontos de alavanca, análise de resíduos e diagnóstico de influência são adaptados para a classe dos modelos não lineares de família exponencial. Extensões para a classe dos modelos não lineares com resposta binomial negativa são também apresentadas. Finalmente, são consideradas duas possíveis extensões dos modelos não lineares de família exponencial para dados correlacionados, através de equações de estimação generalizadas e através de modelagem mista em que efeitos aleatórios em forma linear são adicionados ao componente não linear da parte sistemática do modelo conforme sugerido recentemente por Tang et al. (2006a).

Ano

2009

Creators

Adriana Alvarez Possamai

Modelos log-Birnbaum-Saunders mistos

O objetivo principal deste trabalho é introduzir os modelos log-Birnbaum-Saunders mistos (log-BS mistos) e estender os resultados para os modelos log-Birnbaum-Saunders t-Student mistos (log-BS-t mistos). Os modelos log-BS são bastante conhecidos desde o trabalho de Rieck e Nedelman (1991) e particularmente receberam uma grande atenção nos últimos 10 anos com vários trabalhos publicados em periódicos internacionais. Contudo, o enfoque desses trabalhos tem sido em modelos log-BS ou log-BS generalizados com efeitos fixos, não havendo muita atenção para modelos com efeitos aleatórios. Inicialmente, apresentamos no trabalho uma revisão das distribuições Birnbaum-Saunders e Birnbaum-Saunders generalizada (BSG) e em seguida discutimos os modelos log-BS e log-BS-t com efeitos fixos, para os quais revisamos alguns resultados de estimação e diagnóstico. Os modelos log-BS mistos são então apresentados precedidos de uma revisão dos métodos de quadratura de Gauss Hermite (QGH). Embora a estimação dos parâmetros nos modelos log-BS mistos seja efetuada através do procedimento Proc NLMIXED do SAS (Littell et al, 1996), aplicamos o método de quadratura não adaptativa a fim de obtermos aproximações para o logaritmo da função de verossimilhança do modelo log-BS de intercepto aleatório. Com essas aproximações derivamos as funções escore e a matriz hessiana, além das curvaturas normais de influência local (Cook, 1986) para alguns esquemas de perturbação usuais. Os mesmos procedimentos são aplicados para os modelos log-BS-t de intercepto aleatório. Discussões sobre a predição dos efeitos aleatórios, teste para o componente de variância dos modelos com intercepto aleatório e análises de resíduos são também apresentados. Finalmente, comparamos os ajustes de modelos log-BS e log-BS mistos a um conjunto de dados reais. Métodos de diagnóstico são utilizados na comparação dos modelos ajustados.

Ano

2010

Creators

Cristian Marcelo Villegas Lobos

Coerência parcial e aplicações

Neste trabalho foram estudadas algumas formas de relação entre séries temporais multivariadas. Discutiu-se, inicialmente, a função de coerência, uma função análoga a função de correlação(que é dada no domínio do tempo) calculada no domínio da freqüência. Foram estudadas também as funções de coerência parcial e coerência parcial direcionada. A função de coerência parcial mede a relação entre duas componentes de uma série multivariada, isolados os efeitos de outra série. Em linhas gerais, a Coerência Parcial Direcionada pode ser interpredata como a decomposição da coerência parcial a partir de modelos autoregressivos multivariados. Esse conceito pode ser interpretado como uma representação do conceito de causalidade de Granger no domínio da freqüência. Finalmente, foram aplicadas as funções acima em dois conjuntos de dados: um modelo VAR(1) trivariado simulado e dados de medições de eletroencefalograma.

Ano

2009

Creators

Kim Samejima Mascarenhas Lopes

Regressão linear com medidas censuradas

Consideramos um modelo de regressão linear simples, em que tanto a variável resposta como a independente estão sujeitas a censura intervalar. Como motivação utilizamos um estudo em que o objetivo é avaliar a possibilidade de previsão dos resultados de um exame audiológico comportamental a partir dos resultados de um exame audiológico eletrofisiológico. Calculamos intervalos de previsão para a variável resposta, analisamos o comportamento dos estimadores de máxima verossimilhança obtidos sob o modelo proposto e comparamos seu desempenho com aquele de estimadores obtidos de um modelo de regressão linear simples usual, no qual a censura dos dados é desconsiderada.

Ano

2008

Creators

Marcel Frederico de Lima Taga