Repositório RCAAP
Estimação do índice de memória em processos estocásticos com memória longa: uma abordagem via ABC
Neste trabalho propomos o uso de um método Bayesiano para estimar o parâmetro de memória de um processo estocástico com memória longa quando sua função de verossimilhança é intratável ou não está disponível. Esta abordagem fornece uma aproximação para a distribuição a posteriori sobre a memória e outros parâmetros e é baseada numa aplicação simples do método conhecido como computação Bayesiana aproximada (ABC). Alguns estimadores populares para o parâmetro de memória serão revisados e comparados com esta abordagem. O emprego de nossa proposta viabiliza a solução de problemas complexos sob o ponto de vista Bayesiano e, embora aproximativa, possui um desempenho muito satisfatório quando comparada com métodos clássicos.
2016
Plinio Lucas Dias Andrade
Identificação de modelos lineares mistos gaussianos
O objetivo deste trabalho é avaliar uma possível má especificação de modelos lineares mistos gaussianos. Essa avaliação permite reconhecer quando o modelo é incorretamente especificado e identificar a fonte do erro de especificação, que pode estar na estrutura da média, na estrutura da matriz de covariâncias ou em ambas. Com esse propósito, propomos testes baseados na matriz de informação obtida da função de verossimilhança que, em conjunto com diagnósticos gráficos, são usados na identificação. Um estudo de simulação permite avaliar os testes em quanto ao poder e à taxa do erro tipo I. Concluímos com uma aplicação da estratégia da análise proposta num exemplo com dados reais.
2021
Jairo Arturo Angel Guzman
Classes de testes de hipóteses
Na Inferência Estatística, é comum, após a realização de um experimento, testar simultaneamente um conjunto de diferentes hipóteses de interesse acerca de um parâmetro desconhecido. Assim, para cada hipótese, realiza-se um teste de hipótese e, a partir disto, conclui-se algo sobre os parâmetros de interesse. O objetivo deste trabalho é avaliar a (falta de) concordância lógica entre as conclusões obtidas a partir dos testes realizados após a observação de um único experimento. Neste estudo, é apresentada uma definição de classe de testes de hipóteses, uma função que para cada hipótese de interesse associa uma função de teste. São então avaliadas algumas propriedades que refletem como gostaríamos que testes para diferentes hipóteses se comportassem em termos de coerência lógica. Tais propriedades são exemplificadas através de classes de testes que as satisfazem. A seguir, consideram-se conjuntos de axiomas para classes. Estes axiomas são baseados nas propriedades mencionadas. Classes de testes usuais são investigadas com relação aos conjuntos de axiomas propostos. São também estudadas propriedades advindas de tais conjuntos de axiomas. Por fim, estuda-se um resultado que estabelece uma espécie de conexão entre testes de hipóteses e estimação pontual.
Extensões dos modelos de regressão quantílica bayesianos
Esta tese visa propor extensões dos modelos de regressão quantílica bayesianos, considerando dados de proporção com inflação de zeros, e também dados censurados no zero. Inicialmente, é sugerida uma análise de observações influentes, a partir da representação por mistura localização-escala da distribuição Laplace assimétrica, em que as distribuições a posteriori das variáveis latentes são comparadas com o intuito de identificar possíveis observações aberrantes. Em seguida, é proposto um modelo de duas partes para analisar dados de proporção com inflação de zeros ou uns, estudando os quantis condicionais e a probabilidade da variável resposta ser igual a zero. Além disso, são propostos modelos de regressão quantílica bayesiana para dados contínuos com um componente discreto no zero, em que parte dessas observações é suposta censurada. Esses modelos podem ser considerados mais completos na análise desse tipo de dados, uma vez que a probabilidade de censura é verificada para cada quantil de interesse. E por último, é considerada uma aplicação desses modelos com correlação espacial, para estudar os dados da eleição presidencial no Brasil em 2014. Nesse caso, os modelos de regressão quantílica são capazes de incorporar essa informação espacial a partir do processo Laplace assimétrico. Para todos os modelos propostos foi desenvolvido um pacote do software R, que está exemplificado no apêndice.
Uma aplicação do FBST no teste de nulidade do parâmetro extra na distribuição de Poisson generalizada
Aplicamos o teste de hipóteses genuinamente bayesiano - FBST - ao problema de testar a nulidade do parâmetro extra na distribuição de Poisson Generalizada
2009
Paulo do Canto Hubert Junior
Diagramas de influência e teoria estatística
O objetivo principal deste trabalho foi analisar o controverso conceito de informação em estatística. Para tal, primeiramente foi estudado o conceito de informação dado por Basu. A seguir, a análise foi dividida em três partes: informação nos dados, informação no experimento e diagramas de influência. Nas duas primeiras etapas, sempre se tentou definir propriedades que uma função de informação deveria satisfazer para se enquadrar ao conceito. Na primeira etapa, foi estudado como o princípio da verossimilhança é uma classe de equivalência decorrente de acreditar que experimentos triviais não trazem informação. Também foram apresentadas métricas que satisfazem o princípio da verossimilhança e estas foram usadas para avaliar um exemplo intuitivo. Na segunda etapa, passamos para o problema da informação de um experimento. Foi apresentada a relação da suficiência de Blackwell com experimentos triviais e o conceito usual de suficiência. Também foi analisada a equivalência de Blackwell e a sua relação com o Princípio da Verossimilhança anteriormente estudado. Além disso, as métricas apresentadas para medir a informação de conjuntos de dados foram adaptadas para também medir a informação de um experimento. Finalmente, observou-se que nas etapas anteriores uma série de simetrias mostraram-se como elementos essenciais do conceito de informação. Para ganhar intuição sobre elas, estas foram reescritas através da ferramenta gráfica dos diagramas de influência. Assim, definições como suficiência, suficiência de Blackwell, suficiência mínima e completude foram reapresentadas apenas usando essa ferramenta.
Testes de hipóteses em eleições majoritárias
O problema de Inferência sobre uma proporção, amplamente divulgado na literatura estatística, ocupa papel central no desenvolvimento das várias teorias de Inferência Estatística e, invariavelmente, é objeto de investigação e discussão em estudos comparativos entre as diferentes escolas de Inferência. Ademais, a estimação de proporções, bem como teste de hipóteses para proporções, é de grande importância para as diversas áreas do conhecimento, constituindo um método quantitativo simples e universal. Nesse trabalho, é feito um estudo comparativo entre as abordagens clássica e bayesiana do problema de testar as hipóteses de ocorrência ou não de 2º turno em um cenário típico de eleição majoritária (maioria absoluta) em dois turnos no Brasil.
Avaliação do desempenho de modelos preditivos no contexto de análise de sobrevivência
Modelos estatísticos com objetivos preditivos são frequentemente aplicados como ferramentas no processo de tomadas de decisão em diversas áreas. Uma classe importante de modelos estatísticos é composta por modelos de análise de sobrevivência. Duas quantidades são de interesse nessa classe: o tempo até o instante do evento de interesse ou o status para um determinado instante de tempo fixado. Aplicações importantes desses modelos incluem a identificação de novos marcadores para certas doenças e definição de qual terapia será mais adequada de acordo com o paciente. Os marcadores utilizados podem ser dados por biomarcadores, assim como por marcadores baseados em modelos de regressão. Um exemplo de marcador baseado em modelos de regressão é dado pelo preditor linear. Ainda que a utilização de modelos de sobrevivência com objetivos preditivos seja de suma importância, a literatura nesse assunto é muito esparsa e não há consenso na forma de se avaliar o desempenho preditivo desses. Esse trabalho pretende reunir e comparar diferentes abordagens de se avaliar o desempenho preditivo de modelos de sobrevivência. Essa avaliação é feita principalmente utilizando-se funções de perda para o tempo de sobrevivência e quantidades associadas a diferentes definições de curva ROC para o status. Para a comparação dessas diferentes metodologias foi feito um estudo de simulação e no final aplicou-se essas técnicas em um conjunto de dados de um estudo do Instituto do Câncer de São Paulo.
2013
Tiago Mendonça dos Santos
Estimação e comparação de curvas de sobrevivência sob censura informativa.
A principal motivação desta dissertação é um estudo realizado pelo Instituto do Câncer do Estado de São Paulo (ICESP), envolvendo oitocentos e oito pacientes com câncer em estado avançado. Cada paciente foi acompanhado a partir da primeira admissão em uma unidade de terapia intensiva (UTI) pelo motivo de câncer, por um período de no máximo dois anos. O principal objetivo do estudo é avaliar o tempo de sobrevivência e a qualidade de vida desses pacientes através do uso de um tempo ajustado pela qualidade de vida (TAQV). Segundo Gelber et al. (1989), a combinação dessas duas informações, denominada TAQV, induz a um esquema de censura informativa; consequentemente, os métodos tradicionais de análise para dados censurados, tais como o estimador de Kaplan-Meier (Kaplan e Meier, 1958) e o teste de log-rank (Peto e Peto, 1972), tornam-se inapropriados. Visando sanar essa deficiência, Zhao e Tsiatis (1997) e Zhao e Tsiatis (1999) propuseram novos estimadores para a função de sobrevivência e, em Zhao e Tsiatis (2001), foi desenvolvido um teste análogo ao teste log-rank para comparar duas funções de sobrevivência. Todos os métodos considerados levam em conta a ocorrência de censura informativa. Neste trabalho avaliamos criticamente esses métodos, aplicando-os para estimar e testar curvas de sobrevivência associadas ao TAQV no estudo do ICESP. Por fim, utilizamos um método empírico, baseado na técnica de reamostragem bootstrap, a m de propor uma generalização do teste de Zhao e Tsiatis para mais do que dois grupos.
2013
Raony Cassab Castro Cesar
Estimação de cópulas via ondaletas
Cópulas tem se tornado uma importante ferramenta para descrever e analisar a estrutura de dependência entre variáveis aleatórias e processos estocásticos. Recentemente, surgiram alguns métodos de estimação não paramétricos, utilizando kernels e ondaletas. Neste contexto, sabendo que cópulas podem ser escritas como expansão em ondaletas, foi proposto um estimador não paramétrico via ondaletas para a função cópula para dados independentes e de séries temporais, considerando processos alfa-mixing. Este estimador tem como característica principal estimar diretamente a função cópula, sem fazer suposição alguma sobre a distribuição dos dados e sem ajustes prévios de modelos ARMA - GARCH, como é feito em ajuste paramétrico para cópulas. Foram calculadas taxas de convergência para o estimador proposto em ambos os casos, mostrando sua consistência. Foram feitos também alguns estudos de simulação, além de aplicações a dados reais.
2014
Francyelle de Lima e Silva
Análise longitudinal de coinfecções por HPV em pacientes HIV-positivas
Avaliamos a incidência e o clareamento para o vírus do papiloma humano (HPV) dos tipos oncogênicos e não-oncogênicos em uma coorte aberta com 202 mulheres portadoras do vírus da imunodeficiência humana (HIV), e identificamos alguns fatores de risco e proteção associados a cada desfecho utilizando modelos de fragilidade Gama. No modelo de incidência, foram estudados os tempos até incidência de HPV oncogênicos e não-oncogênicos para cada mulher; no modelo de clareamento, foram estudados os correspondentes tempos até clareamento. Comparamos os erros-padrões estimados pela matriz de informação observada com os erros-padrões bootstrap para ambos os modelos e verificamos que a proposta de Verweij & Houwelingen (1994) para a matriz de variâncias e covariâncias dos parâmetros é a mais apropriada. Para a incidência de HPV oncogênicos, identificamos como fator de risco o uso de drogas em que a taxa de incidência para as pacientes que usam drogas é 1.88 (IC 90%, 1.01; 3.5) vezes aquela correspondente a mulheres que não usam e como fator de proteção a renda em que a taxa de incidência de pacientes com renda igual ou superior a 3 salários mínimos é 0.62 (IC 90%, 0.38; 1.00) vezes a taxa referente àquelas com renda menor que 3 salários mínimos. Para a incidência de HPV não-oncogênicos identificamos como fatores de risco a escolaridade e o total de gestações, em que, para a última, a taxa de incidência para as mulheres que tiveram mais do que uma gestação é 1.76 (IC 90%, 1.09; 2.86) vezes a taxa referente àquelas que tiveram uma ou nenhuma. Para o clareamento de HPV oncogênicos identificamos como fatores que indicam um clareamento mais rápido a renda, a idade e o tratamento antirretroviral (ARV), em que, para a última, supondo mulheres com fragilidades iguais, a taxa de clareamento para as pacientes que eram tratadas com o esquema inibidor de protease (IP) é 1.79 (IC 90%, 1.1; 2.9) vezes aquela correspondente a mulheres que não foram tratadas com nenhum tratamento ARV e como fator que indicam um clareamento mais lento o número de parceiros sexuais no último ano, em que, as pacientes com mais de um parceiro tiveram taxa de clareamento 0.39 (IC 90%, 0.16; 0.98) vezes a taxa de clareamento referente à uma mulher que teve um parceiro ou menos. Para o clareamento de HPV não-oncogênicos tivemos como fator que indica um clareamento mais lento o hábito tabagista em que, supondo fragilidades iguais, pacientes fumantes tem a taxa de clareamento 0.53 (IC 90%, 0.32; 0.87) vezes a taxa referente à uma mulher que não fuma.
2013
Marcel de Souza Borges Quintana
Modelos de regressão com coeficientes funcionais para séries temporais
Nesta tese, consideramos o ajuste de modelos de regressão com coeficientes funcionais para séries temporais, por meio de splines, ondaletas clássicas e ondaletas deformadas. Consideramos os casos em que os erros do modelo são independentes e correlacionados. Através das três abordagens de estimação, obtemos taxas de convergência a zero para distâncias médias entre as funções do modelo e seus respectivos estimadores, propostos neste trabalho. No caso das abordagens de ondaletas (clássicas e deformadas), obtemos também resultados assintóticos em situações mais específicas, nas quais as funções do modelo pertencem a espaços de Sobolev e espaços de Besov. Além disso, estudos de simulação de Monte Carlo e aplicações a dados reais são apresentados. Por meio desses estudos numéricos, fazemos comparações entre as três abordagens de estimação propostas, e comparações entre outras abordagens já conhecidas na literatura, onde verificamos desempenhos satisfatórios, no sentido das abordagens propostas fornecerem resultados competitivos, quando comparados aos resultados oriundos de metodologias já utilizadas na literatura.
2013
Michel Helcias Montoril
Statistical inference on random graphs and networks
In this thesis we study two probabilistic models defined on graphs: the Stochastic Block model and the Exponential Random Graph. Therefore, this thesis is divided in two parts. In the first part, we introduce the Krichevsky-Trofimov estimator for the number of communities in the Stochastic Block Model and prove its eventual almost sure convergence to the underlying number of communities, without assuming a known upper bound on that quantity. In the second part of this thesis we address the perfect simulation problem for the Exponential random graph model. We propose an algorithm based on the Coupling From The Past algorithm using a Glauber dynamics. This algorithm is efficient in the case of monotone models. We prove that this is the case for a subset of the parametric space. We also propose an algorithm based on the Backward and Forward algorithm that can be applied for monotone and non monotone models. We prove the existence of an upper bound for the expected running time of both algorithms.
Preservação das classes de distribuições não-paramétricas e desigualdades estocásticas entre os D-espectros de networks para seus respectivos tempos de vidas
Este trabalho reporta sobre a avaliação da confiabilidade de networks, uma representação analítica para diversos sistemas de engenharia e de comunicação, cujas falhas de seus componentes (links) ocorrem segundo um Processo de Poisson Não Homogêneo. Concluiremos que, na comparação de dois networks com a mesma quantidade de links, as desigualdades estocásticas de seus D-espectros serão preservadas em seus tempos de vidas e a preservação das classes de distribuições do D-espectro para o tempo de vida de um network ocorrerá com restrições na função de risco do Processo de Poisson Não Homogêneo.
O problema de Monge-Kantorovich para duas medidas de probabilidade sobre um conjunto finito
Apresentamos o problema do transporte ótimo de Monge-Kantorovich com duas medidas de probabilidade conhecidas e que possuem suporte em um conjunto de cardinalidade finita. O objetivo é determinar condições que permitam construir um acoplamento destas medidas que minimiza o valor esperado de uma função de custo conhecida e que assume valor nulo apenas nos elementos da diagonal. Apresentamos também um resultado relacionado com a solução do problema de Monge-Kantorovich em espaços produto finitos quando conhecemos soluções para o problema nos espaços marginais.
2009
Estefano Alves de Souza
Assinaturas dinâmicas de um sistema coerente com aplicações
O objetivo da dissertação é analisar a assinatura em um contexto geral que considera a dinâmica no tempo e a dependência estocástica, utilizando a teoria de martingais para processos pontuais.
2012
José Alberto Ramos Flor
Efeitos da especificação incorreta da função de ligação no modelo de regressão beta
O ajuste de modelos de regressão beta requer a especificação de uma função de ligação. Algumas funções de ligação úteis são: logito, probito, complemento log-log e log-log. Usualmente, a ligação logito é utilizada pois permite interpretação simples para os parâmetros de regressão. O principal objetivo deste trabalho é avaliar o impacto da especificação incorreta da função de ligação em regressão beta. Estudos de simulação serão usados com esse prop´osito. Amostras da variável resposta serão geradas assumindo uma função de ligação conhecida (verdadeira) e o modelo de regressão beta será ajustado usando a função de ligação verdadeira (correta) e algumas funções de ligação incorretas. Resultados numéricos serão comparados para avaliar o efeito da especificação incorreta da função de ligação sobre as inferências em regressão beta. Adicionalmente, será introduzido um modelo de regressão beta com função de ligação de Aranda-Ordaz, a qual depende de um parâmetro que pode ser estimado através dos dados.
2007
Augusto Cesar Giovanetti de Andrade
Métodos de diagnóstico em modelos autoregressivos simétricos
Os modelos autoregressivos simétricos são modelos de regressão em que os erros são correlacionados -- AR(1) -- e pertencem à classe de distribuições simétricas. O objetivo deste trabalho é discutir métodos de diagnóstico de influência para esses modelos. Para ilustrar a metodologia, são apresentados exemplos do modelo de precificação de ativos (CAPM).
2006
Marcio Jose de Medeiros
Modelos mistos no mapeamento genético de fatores de risco cardiovascular em famílias brasileiras usando dados de SNPs
O estudo de doenças complexas, tais como hipertensão e glicemia, é de grande importância na área médica, pois essas doenças afetam muitas pessoas no mundo e seu padrão de variação envolve componentes ambientais, genéticos e suas possíveis interações. Para o mapeamento de genes a amostragem do genoma humano é feita por meio de plataformas de marcadores moleculares e, em geral, destacam-se duas classes de marcadores: os do tipo microsatélites e os SNPs (do inglês, Single Nucleotide Polimorphisms). Os dados de famílias são comumente analisados via modelos mistos e marcadores microsatélites de efeitos aleatórios, sendo que os estudos caso-controle com indivíduos não relacionados têm sido vinculados a dados de SNPs. Neste contexto, surge a problemática de como modelar o SNP em dados de famílias, pois o mesmo pode ser modelado como um fator fixo ou aleatório. Com a finalidade de trazer contribuições a esta discussão, um dos objetivos deste trabalho é propor um exercício de simulação e análise de dados genéticos que facilite o ensino e o entendimento de conceitos de genética e do mapeamento de genes modelados a partir de efeitos fixos ou aleatórios utilizando o software R. Além disso, na análise de dados envolvendo mapas densos de SNPs é necessário contornar o problema de múltiplos testes, e a proposta em multiestágios de Aulchenko et al. (2007) é uma alternativa de análise, na qual o efeito do SNP é modelado como um fator fixo e associado a um componente residual. Logo, surge também como desafio deste trabalho, aplicar o modelo em multiestágios para o mapeamento dos genes e discutir suas vantagens e limitações.
Implementação no software estatístico R de modelos de regressão normal com parametrização geral
Este trabalho objetiva o desenvolvimento de um pacote no software estatístico R com a implementação de estimadores em modelos de regressão normal univariados com parametrização geral, uma particularidade do modelo definido em Patriota e Lemonte (2011). Essa classe contempla uma ampla gama de modelos conhecidos, tais como modelos de regressão não lineares e heteroscedásticos. São implementadas correções nos estimadores de máxima verossimilhança e na estatística de razão de verossimilhanças. Tais correções são efetivas quando o tamanho amostral é pequeno. Para a correção do estimador de máxima verossimilhança, considerou-se a correção do viés de segunda ordem, enquanto que para a estatística da razão de verossimilhanças aplicou-se a correção desenvolvida em Skovgaard (2001). Todas as funcionalidades do pacote são descritas detalhadamente neste trabalho. Para avaliar a qualidade do algoritmo desenvolvido, realizaram-se simulações de Monte Carlo para diferentes cenários, avaliando taxas de convergência, erros da estimação e eficiência das correções de viés e de Skovgaard.
2019
André Casagrandi Perette