Repositório RCAAP
Não monotonicidade do parâmetro crítico no modelo dos sapos
Estudamos um modelo de passeios aleatórios simples em grafos, conhecido como modelo dos sapos. Esse modelo pode ser descrito de maneira geral da seguinte forma: existem partículas ativas e partículas desativadas num grafo G. Cada partícula ativa desempenha um passeio aleatório simples a tempo discreto e a cada momento ela pode morrer com probabilidade 1-p. Quando uma partícula ativa entra em contato com uma partícula desativada, esta é ativada e também passa a realizar, de maneira independente, um passeio aleatório pelo grafo. Apresentamos limites superior e inferior para o parâmetro crítico de sobrevivência do modelo dos sapos na árvore, e demonstramos que este parâmetro crítico não é uma função monótona do grafo em que está definido.
2003
Alexandre Ribeiro Leichsenring
Um estudo comparativo entre abordagens Bayesianas à testes de hipóteses
Neste trabalho, consideramos uma população finita composta por N elementos, sendo que para cada unidade está associado um número (ou vetor) de tal forma que temos para a população o vetor de valores X = (X1, ... ,XN), onde Xi denota a característica de interesse do i-ésimo indivíduo da população, que suporemos desconhecida. Aqui assumimos que a distribuição do vetor X é permutável e que existe disponível uma amostra composta por n < N elementos. Os objetivos são a construção de testes de hipóteses para os parâmetros operacionais, através das distribuições a posteriori obtidas sob a abordagem preditivista para populações finitas e a comparação com os resultados obtidos a partir dos modelos Bayesianos de superpopulação. Nas análises consideramos os modelos Bernoulli, Poisson, Uniforme Discreto e Multinomial. A partir dos resultados obtidos, conseguimos ilustrar situações nas quais as abordagens produzem resultados diferentes, como prioris influenciam os resultados e quando o modelo de populações finitas apresenta melhores resultados que o modelo de superpopulação.
2013
Brian Alvarez Ribeiro de Melo
Aspectos estatísticos da amostragem de água de lastro
A água de lastro de navios é um dos principais agentes dispersivos de organismos nocivos à saúde humana e ao meio ambiente e normas internacionais exigem que a concentração desses organismos no tanque seja menor que um valor previamente especificado. Por limitações de tempo e custo, esse controle requer o uso de amostragem. Sob a hipótese de que a concentração desses organismos no tanque é homogênea, vários autores têm utilizado a distribuição Poisson para a tomada de decisão com base num teste de hipóteses. Como essa proposta é pouco realista, estendemos os resultados para casos em que a concentração de organismos no tanque é heterogênea utilizando estratificação, processos de Poisson não-homogêneos ou assumindo que ela obedece a uma distribuição Gama, que induz uma distribuição Binomial Negativa para o número de organismos amostrados. Além disso, propomos uma nova abordagem para o problema por meio de técnicas de estimação baseadas na distribuição Binomial Negativa. Para fins de aplicação, implementamos rotinas computacionais no software R
2013
Eliardo Guimarães da Costa
Long memory in high frequency time series using wavelets and conditional volatility models
The goal of this dissertation is to describe a methodology for modelling the volatility of high frequency financial data, considering its features and stylized facts. In order to account for the long-range dependence in conditional mean and conditional variance, ARFIMA and FI(E)GARCH models are used respectively, when observed. To account for the non-normality, skeweness and kurtosis, features observed in the the distribution of the log-returns in high frequency, the Skewed Student t and the Generalized Error Distribution (GED) are adopted for the innovation term of the aforementioned models. Wavelet shrinkage is used in a non-parametric identification and separation of the intraday jumps from the time series data. The application of this procedure is presented using real high frequency asset returns from the Brazilian Exchange and OTC, as well as exchange rates from cryptocurrencies traded in Crypto Exchanges.
2021
Mateus Gonzalez de Freitas Pinto
Métodos estatísticos na análise de experimentos de microarray
Neste trabalho é proposto um estudo comparativo de alguns métodos de Agrupamento (Hierárquico, K-médias e Self-Organizing Maps) e de Classificação (K-Vizinhos, Fisher, Máxima Verossimilhança, Aggregating e Regressão Local), os quais são apresentados teoricamente. Tais métodos são testados e comparados em conjuntos de dados reais, gerados com a técnica de Microarray. Esta técnica permite mensurar os níveis de expressão de milhares de genes simultaneamente, possibilitando comparações entre amostras de tecidos pelos perfis de expressão. É apresentada uma revisão de conceitos básicos relacionados ao processo de normalização, sendo este uma das primeiras etapas da análise deste tipo de conjunto de dados. Em particular, estivemos interessados em encontrar pequenos grupos de genes que fossem ?suficientes? para distinguir amostras em condições¸ biológicas diferentes. Por fim, é proposto um método de busca que, dado os resultados de um experimento envolvendo um grande número de genes, encontra de uma forma eficiente os melhores classificadores.
Análise de questionários com itens constrangedores
As pesquisas científicas na área da Psiquiatria freqüentemente avaliam características subjetivas de indivíduos como, por exemplo, depressão, ansiedade e fobias. Os dados são coletados através de questionários, cujos itens tentam identificar a presença ou ausência de certos sintomas associados à morbidade psiquiátrica de interesse. Alguns desses itens, entretanto, podem provocar constrangimento em parte dos indivíduos respondedores por abordarem características ou comportamentos socialmente questionáveis ou, até, ilegais. Um modelo da teoria de resposta ao item é proposto neste trabalho visando diferenciar a relação entre a probabilidade de presença do sintoma e a gravidade da morbidade de indivíduos constrangidos e não constrangidos. Itens que necessitam dessa diferenciação são chamados \\textbf{itens com comportamento diferencial}. Adicionalmente, o modelo permite assumir que indivíduos constrangidos em responder um item possam vir a mentir em suas respostas, no sentido de omitir a presença de um sintoma. Aplicações do modelo proposto a dados simulados para questionários com 20 itens mostraram que as estimativas dos parâmetros são próximas aos seus verdadeiros valores. A qualidade das estimativas piora com a diminuição da amostra de indivíduos, com o aumento do número de itens com comportamento diferencial e, principalmente, com o aumento do número de itens com comportamento diferencial suscetíveis à mentira. A aplicação do modelo a um conjunto de dados reais, coletados para avaliar depressão em adolescentes, ilustra a diferença do padrão de resposta do item ``crises de choro\" entre homens e mulheres.
Extensões de distribuições com aplicação à analise de sobrevivência
Nesta tese serão estudadas diferentes generalizações de algumas distribuições bem conhecidas na literatura para os tempos de vida, tais como exponencial, Lindley, Rayleigh e exponencial segmentada, entre outras, e compará-las com outras extensões com suporte positivo. A finalidade dessas generalizações é flexibilizar a função de risco de modo que possam assumir formas mais flexíveis. Além disso, pretende-se estudar propriedades importantes dos modelos propostos, tais como os momentos, coeficientes de curtose e assimetria e função quantílica, entre outras. A estimação dos parâmetros é abordada através dos métodos de máxima verossimilhança, via algoritmo EM (quando for possível) ou também, do método dos momentos. O comportamento desses estimadores foi avaliado em estudos de simulação. Foram ajustados a conjuntos de dados reais, usando uma abordagem clássica, e compará-los com outras extensões na literatura. Finalmente, um dos modelos propostos é considerado no contexto de fração de cura.
2017
Yolanda Magaly Gómez Olmos
Equações de estimação generalizadas com resposta binomial negativa: modelando dados correlacionados de contagem com sobredispersão
Uma suposição muito comum na análise de modelos de regressão é a de respostas independentes. No entanto, quando trabalhamos com dados longitudinais ou agrupados essa suposição pode não fazer sentido. Para resolver esse problema existem diversas metodologias, e talvez a mais conhecida, no contexto não Gaussiano, é a metodologia de Equações de Estimação Generalizadas (EEGs), que possui similaridades com os Modelos Lineares Generalizados (MLGs). Essas similaridades envolvem a classificação do modelo em torno de distribuições da família exponencial e da especificação de uma função de variância. A única diferença é que nessa função também é inserida uma matriz trabalho que inclui a parametrização da estrutura de correlação dentro das unidades experimentais. O principal objetivo desta dissertação é estudar como esses modelos se comportam em uma situação específica, de dados de contagem com sobredispersão. Quando trabalhamos com MLGs esse problema é resolvido através do ajuste de um modelo com resposta binomial negativa (BN), e a ideia é a mesma para os modelos envolvendo EEGs. Essa dissertação visa rever as teorias existentes em EEGs no geral e para o caso específico quando a resposta marginal é BN, e além disso mostrar como essa metodologia se aplica na prática, com três exemplos diferentes de dados correlacionados com respostas de contagem.
2016
Clarissa Cardoso Oesselmann
Vida residual em pacientes com insuficiência cardíaca: uma abordagem semiparamétrica
Usualmente a análise de sobrevivência considera a modelagem da função da taxa de falha ou função de risco. Uma alternativa a essa visão é estudar a vida residual, que em alguns casos é mais intuitiva do que a função de risco. A vida residual é o tempo de sobrevida adicional de um indivíduo que sobreviveu até um dado instante t0. Este trabalho descreve técnicas semiparamétricas e não paramétricas para estimar a média e a mediana de vida residual em uma população, testes para igualdade dessas medidas em duas populações e também modelos de regressão. Tais técnicas já foram testadas anteriormente em dados com baixa presença de censura; aqui elas são aplicadas a um conjunto de dados de pacientes com insuficiência cardíaca que possui uma alta quantidade de observações censuradas.
2017
Victor Gonçalves Duarte
Modelos de regressão beta e simplex para análise de proporções
Diversos estudos compreendem a análise de variáveis definidas no intervalo (0, 1), como porcentagens ou proporções. Os modelos mais adequados são os de regressão baseados nas distribuições beta e simplex. Neste trabalho, apresentamos o modelo de regressão beta proposto por Ferrari & Cribari-Neto (2004) e desenvolvemos o modelo de regressão simplex. Definimos um resíduo para o modelo de regressão simplex, muito útil na análise de diagnóstico, a partir do trabalho de Espinheira, Ferrari & Cribari-Neto (2008). Apresentamos uma forma geral para algumas medidas de diagnóstico, que podem ser aplicadas para os dois modelos. Avaliamos os modelos de regressão beta e simplex por meio de duas aplicações a dados reais, utilizando essas medidas.
2008
Eliane Shizue Miyashiro
Estimação e teste de hipótese baseados em verossimilhanças perfiladas
Tratar a função de verossimilhança perfilada como uma verossimilhança genuína pode levar a alguns problemas, como, por exemplo, inconsistência e ineficiência dos estimadores de máxima verossimilhança. Outro problema comum refere-se à aproximação usual da distribuição da estatística da razão de verossimilhanças pela distribuição qui-quadrado, que, dependendo da quantidade de parâmetros de perturbação, pode ser muito pobre. Desta forma, torna-se importante obter ajustes para tal função. Vários pesquisadores, incluindo Barndorff-Nielsen (1983,1994), Cox e Reid (1987,1992), McCullagh e Tibshirani (1990) e Stern (1997), propuseram modificações à função de verossimilhança perfilada. Tais ajustes consistem na incorporação de um termo à verossimilhança perfilada anteriormente à estimação e têm o efeito de diminuir os vieses da função escore e da informação. Este trabalho faz uma revisão desses ajustes e das aproximações para o ajuste de Barndorff-Nielsen (1983,1994) descritas em Severini (2000a). São apresentadas suas derivações, bem como suas propriedades. Para ilustrar suas aplicações, são derivados tais ajustes no contexto da família exponencial biparamétrica. Resultados de simulações de Monte Carlo são apresentados a fim de avaliar os desempenhos dos estimadores de máxima verossimilhança e dos testes da razão de verossimilhanças baseados em tais funções. Também são apresentadas aplicações dessas funções de verossimilhança em modelos não pertencentes à família exponencial biparamétrica, mais precisamente, na família de distribuições GA0(alfa,gama,L), usada para modelar dados de imagens de radar, e no modelo de Weibull, muito usado em aplicações da área da engenharia denominada confiabilidade, considerando dados completos e censurados. Aqui também foram obtidos resultados numéricos a fim de avaliar a qualidade dos ajustes sobre a verossimilhança perfilada, analogamente às simulações realizadas para a família exponencial biparamétrica. Vale mencionar que, no caso da família de distribuições GA0(alfa,gama,L), foi avaliada a aproximação da distribuição da estatística da razão de verossimilhanças sinalizada pela distribuição normal padrão. Além disso, no caso do modelo de Weibull, vale destacar que foram derivados resultados distribucionais relativos aos estimadores de máxima verossimilhança e às estatísticas da razão de verossimilhanças para dados completos e censurados, apresentados em apêndice.
2005
Michel Ferreira da Silva
Amostragem intencional
Neste trabalho apresentamos o método de amostragem intencional via otimização. Tal método baseia-se na fundamentação de que devemos controlar a seleção amostral sempre que houver conhecimento suficiente para garantir boas inferências de quantidades conhecidas e de alguma forma correlacionadas com aquelas desconhecidas e de interesse. Para a resolução dos problemas de otimização foram utilizadas técnicas de programação linear. Três aplicações foram apresentadas e em todas elas notou-se que o procedimento de amostragem intencional produziu amostras com bom balanceamento entre as composições amostrais e de referência.
Adaptive significance levels in linear regression models
The Full Bayesian Significance Test (FBST) for precise hypotheses is presented by Pereira and Stern (1999) as a Bayesian alternative to the traditional significance tests based on p-values. With the FBST the authors introduce the e-value as an evidence index in favor of the null hypothesis (H). An important practical issue for the implementation of the FBST is to establish how small the evidence against H must be in order to decide for its rejection. In this work we present a method to find a cutoff value for the evidence in the FBST by minimizing the linear combination of the averaged type-I and type-II error probabilities for a given sample size and also for a given dimensionality of the parameter space. Furthermore, we compare our methodology with the results obtained from the test proposed by Pereira et al. (2017) and Gannon et al. (2019) which presents the P-value as a decision-making evidence measure and includes an adaptive significance level. For that purpose, the scenario of linear regression models under the Bayesian approach is considered.
2019
Alejandra Estefanía Patiño Hoyos
Avaliação de propostas de coeficientes de determinação do tipo R² em modelos de regressão logística com resposta nominal
Ao contrário de modelos de regressão linear múltipla, em que o coeficiente de determinação R² representa uma forma intituiva de avaliar a proporção de variabilidade da resposta que é devidamente explicada por meio das variáveis independentes, não existe uma forma bem estabelecida de se mensurar a variabilidade explicada em modelos de regressão logística. Diversas proposições já foram realizadas em trabalhos anteriores, especialmente para casos em que existe uma escala contínua latente associada à variável resposta. Entretanto, não há consenso sobre a melhor alternativa para respostas de natureza nominal. Este trabalho teve como objetivo revisar 12 propostas de coeficientes de determinação do tipo R² que já foram discutidas em trabalhos anteriores, a fim de avaliar a sua adequabilidade para modelos de regressão logística com resposta nominal. Foi conduzido um estudo de simulação, que apontou que os dois coeficientes apresentados por McFadden (1974) - um para a regressão simples, e outro corrigido, para a regressão múltipla - são os mais apropriados entre todas as alternativas analisadas, levando em conta a sua interpretação intuitiva; variabilidade no intervalo razoável de valores de 0 a 1; e maior conformidade com o índice de sobreposição (Bura e Gastwirth, 2001) e com medidas de acurácia preditiva, tais como o KS (Hand, 2012) e a área abaixo da curva ROC - ou, equivalentemente, o índice de Gini.
Modelos multiníveis Weibull com efeitos aleatórios
Os modelos multiníveis são uma classe de modelos úteis na análise de bases de dados com estrutura hierárquica. No presente trabalho propõem-se os modelos multiníveis com resposta Weibull, nos quais são considerados interceptos aleatórios na modelagem dos dois parâmetros da distribuição da variável resposta. Os modelos aqui propostos são flexíveis devido a que a distribuição dos interceptos aleatórios pode der escolhida entre uma das seguintes quatro distribuições: normal, log--gama, logística e Cauchy. Uma extensão dos modelos é apresentada na qual é possível incluir na parte sistemática dos dois parâmetros da distribuição da variável resposta interceptos e inclinações aleatórias com distribuição normal bivariada. A estimação dos parâmetros é realizada pelo método de máxima verossimilhança usando a quadratura de Gauss--Hermite para aproximar a função de verossimilhança. Um pacote em linguagem R foi desenvolvido especialmente para a estimação dos parâmetros, predição dos efeitos aleatórios e para a obtenção dos resíduos nos modelos propostos. Adicionalmente, por meio de um estudo de simulação foi avaliado o impacto nas estimativas dos parâmetros do modelo ao assumir incorretamente a distribuição dos interceptos aleatórios.
2013
Freddy Hernandez Barajas
"Modelos lineares generalizados para análise de dados com medidas repetidas"
Neste trabalho, apresentamos as equações de estimação generalizadas desenvolvidas por Liang e Zeger (1986), sob a ótica da teoria de funções de estimação apresentada por Godambe (1991). Essas equações de estimação são obtidas para os modelos lineares generalizados (MLGs) considerando medidas repetidas. Apresentamos também um processo iterativo para estimação dos parâmetros de regressão, assim como testes de hipóteses para esses parâmetros. Para a análise de resíduos, generalizamos para dados com medidas repetidas algumas técnicas de diagnóstico usuais em MLGs. O gráfico de probabilidade meio-normal com envelope simulado é uma proposta para avaliarmos a adequação do ajuste do modelo. Para a construção desse gráfico, simulamos respostas correlacionadas por meio de algoritmos que descrevemos neste trabalho. Por fim, realizamos aplicações a conjuntos de dados reais.
A lei fraca de Feller para jogos de São Petersburgo
Quase três séculos já se passaram desde que a primeira versão do chamado paradoxo de São Petersburgo chegou aos meios acadêmicos através do trabalho de Daniel Bernoulli. Contudo, a relevância desse assunto ainda reverbera em artigos científicos atuais em diversas áreas do conhecimento (notadamente, mas não exclusivamente, na Economia e na Estatística). Um jogo de enunciado simples cuja esperança matemática dos ganhos do jogador surpreendentemente é infinita, entretanto, dificilmente alguém estaria disposto a pagar qualquer taxa de entrada cobrada para jogá-lo. No presente trabalho buscou-se em primeiro lugar apresentar uma análise crítica do desenvolvimento histórico das \"soluções\" propostas para o paradoxo. Em seguida mostrou-se uma aplicação direta do paradoxo a um modelo matemático utilizado até hoje para avaliar o preço justo de ações. Por fim, revisaram-se alguns resultados obtidos pela moderna teoria da probabilidade através da convergência em probabilidade.
Extensões do modelo -potência
Em analise de dados que apresentam certo grau de assimetria a suposicao que as observações seguem uma distribuição normal, pode resultar ser uma suposição irreal e a aplicação deste modelo pode ocultar características importantes do modelo verdadeiro. Este tipo de situação deu forca á aplicação de modelo assimétricos, destacando-se entre estes a família de distribuições skew-symmetric, desenvolvida por Azzalini (1985). Neste trabalho nos apresentamos uma segunda proposta para a anàlise de dados com presença importante de assimetria e/ou curtose, comparado com a distribuição normal. Nós apresentamos e estudamos algumas propriedades dos modelos alfa-potência e log-alfa-potência, onde também estudamos o problema de estimação, as matrizes de informação observada e esperada de Fisher e o grau do viés dos estimadores mediante alguns processos de simulação. Nós introduzimos um modelo mais estável que o modelo alfa- potência do qual derivamos o caso bimodal desta distribuição e introduzimos os modelos bimodal simêtrico e assimêtrico alfa-potencia. Posteriormente nós estendemos a distribuição alfa-potência para o caso do modelo Birnbaum-Saunders, estudamos as propriedades deste novo modelo, desenvolvemos estimadores para os parametros e propomos estimadores com viés corrigido. Também introduzimos o modelo de regressão alfa-potência para dados censurados e não censurados e para o modelo de regressão log-linear Birnbaum-Saunders; aqui nós derivamos os estimadores dos parâmetros e estudamos algumas técnicas de validação dos modelos. Por ultimo nós fazemos a extensão multivariada do modelo alfa-potência e estudamos alguns processos de estimação dos parâmetros. Para todos os casos estudados apresentam-se ilustrações com dados já analisados previamente com outras suposições de distribuições.
2011
Guillermo Domingo Martinez Florez
Modelos paramétricos para séries temporais de contagem
Diversas situações práticas exigem a análise de series temporais de contagem, que podem apresentar tendência, sazonalidade e efeitos de variáveis explicativas. A motivação do nosso trabalho é a análise de internações diárias por doenças respiratórias para pessoas com mais que 65 anos residentes no município de São Paulo. O efeito de variáveis climáticas e concentrações de poluentes foram incluídos nos modelos e foram usadas as funções seno e cosseno com periodicidade de um ano para explicar o padrão sazonal e obter os efeitos das variáveis climáticas e poluentes controlando essa sazonalidade. Outro aspecto a ser considerado é a inclusão da população nas análises de modo que a interpretação dos efeitos seja para as taxas diárias de internações. Diferentes modelos paramétricos foram propostos para as internações. O mais simples é o modelo de regressão linear para o logaritmo das taxas. Foram ajustados os modelos lineares generalizados (MLG) para as internações com função de ligação logaritmo e com a população como offset, por este modelo permitir o uso das distribuições Poisson e Binomial Negativa, usadas para dados de contagem. Devido à heteroscedasticidade extra, foram propostos modelos GAMLSS incluindo variáveis para explicar o desvio padrão. Foram ajustados modelos ARMA e GARMA, por incluírem uma estrutura de correlação serial. O objetivo desse trabalho é comparar as estimativas, os erros padrões, a cobertura dos intervalos de confiança e o erro quadrático médio para o valor predito segundo os vários modelos e a escolha do modelo mais apropriado, que depende da completa análise de resíduos, geralmente omitida na literatura. O modelo GARMA com distribuição Binomial Negativa apresentou melhor ajuste, pois os erros parecem seguir a distribuição proposta e tem baixa autocorrelação, além de ter tido uma boa cobertura pelo intervalo de confiança e um baixo erro quadrático médio. Também foi analisado o efeito da autocorrelação dos dados nas estimativas nos vários modelos baseado em dados simulados.
Um estudo de sensibilidade da fatoração PMF - Positive Matrix Factorization - em relação às medidas de incerteza das variáveis
A fatoração PMF - Positive Matrix Factorization - é um método de resolução de problemas em que variáveis observadas conjuntamente são modeladas como a combinação linear de fatores potenciais, representada pela multiplicação de duas matrizes. Este método tem sido utilizado principalmente em áreas de estudo em que as variáveis observadas são sempre não negativas, e quando é aplicada uma modelagem fatorial ao problema. Assume-se a premissa de que são resultantes da multiplicação de duas matrizes com entradas não negativas, ou seja, os fatores potenciais, e os poderadores da combinação linear são desconhecidos, e têm valores não negativos. Neste método além da possibilidade de restringir a busca dos valores das matrizes da fatoração a valores não negativos, também é possível incluir a medida de incerteza relacionada a cada observação no processo de obtenção da fatoração como um modo de reduzir o efeito indesejado que valores outliers podem causar no resultado. Neste trabalho é feito um estudo de sensibilidade da fatoração PMF em relação a algumas medidas de incertezas presentes na literatura, utilizando o software EPA PMF 5.0 com ME-2. Para realizar este estudo foi desenvolvida uma metodologia de simulação de base de dados a partir de perfis de fontes emissoras conhecidas incluindo valores outliers, e aplicação sequencial da fatoração PMF com o software ME-2 nas bases de dados simuladas.