Repositório RCAAP
Testes de hipóteses para componentes de variância utilizando estatísticas U
Nós consideramos decomposições de estatísticas $U$ para obter testes para componentes de variância. As distribuições assintóticas das estatísticas de testes sob a hipótese nula são obtidas supondo apenas a existência do quarto momento do erro condicional e do segundo momento dos efeitos aleatórios. Isso permite sua utilização em uma classe bastante ampla de distribuições. Sob a suposição adicional de existência do quarto momento dos efeitos aleatórios, obtemos também a distribuição assintótica das estatísticas sob uma seqüência de hipóteses alternativas locais. Comparamos a eficiência dos testes propostos com aqueles dos testes clássicos, obtidos sob suposição de normalidade, por meio de estudos de simu-lação. Os testes propostos se mostram mais adequados nas situações em que a amostra é de tamanho moderado ou grande, independentemente da distribuição das fontes de variação, e nas situações em que existe fortes afastamentos da normalidade.
Modelagem para dados de sobrevivência com censura dependente: aplicação para análise do tempo de sobrevivência ajustado pela qualidade de vida
O Tempo de Sobrevivência Ajustado pela Qualidade de Vida (TSAQV) tem sido bastante utilizado em análise de dados na área médica. A motivação deste trabalho está em um estudo de coorte prospectivo nas UTIs de dois hospitais públicos brasileiros especializados em tratamento oncológico, Instituto do Câncer Dr. Octávio Frias de Oliveira (ICESP) e Fundação Pio XII Hospital do Câncer de Barretos. Um total de 792 pacientes foram selecionados como participantes do estudo e esses foram acompanhados até óbito ou final do estudo em 24 meses, sendo que o objetivo principal do estudo é avaliar o TSAQV desses pacientes. Entretanto, a dificuldade que surge na análise estatística de dados ao utilizar o TSAQV como desfecho é que a censura passa a ser informativa quando o tempo de sobrevivência é ponderado pela qualidade de vida. Dessa forma, metodologias usuais de análise de sobrevivência são inconsistentes e métodos estatísticos apropriados para a análise do TSAQV precisam ser utilizados. Para tanto, foram estudados e aplicados métodos de estimação com modelos de taxa de falhas proporcionais sob censura dependente usando função de cópula. Foi realizado um extenso estudo de simulação para avaliar a performance dos métodos de estimação em diferentes cenários de simulação. A aplicação dos modelos para dados com presença de censura dependente foi satisfatória, embora persistam algumas dificuldades como o problema de não identificabilidade do parâmetro alfa da cópula arquimediana. Entretanto, a alternativa usando o índice CV(tau) mostrou-se uma metodologia confiável para descartar a premissa de censura independente.
2020
Fernando Henrique Sousa Barreto
Ising and Potts model coupled to Lorentzian triangulations
The main objective of the present thesis is to investigate: What are the properties of the Ising and Potts model coupled to a CDT emsemble? For that objective, we used two methods: (1) transfer matrix formalism and Krein-Rutman theory. (2) FK representation of the q -state Potts model on CDTs and dual CDTs. Transfer matrix formalism permite us to obtain spectral properties of the transfer matrix using the Krein-Rutman theorem [KR48] on operators preserving the cone of positive func- tions. This yields results on convergence and asymptotic properties of the partition function and the Gibbs measure and allows us to determine regions in the parameter quarter-plane where the free energy converges. Second methods permite us to determine a region in the quadrant of parameters , > 0 where the critical curve for the classical model can be located. We also provide lower and upper bounds for the innite-volume free energy. Finally, using arguments of duality on graph theory and hight-T expansion we study the Potts model coupled to CDTs. This approach permite us to improve the results obtained for Ising model and obtain lower and upper bounds for the critical curve and free energy. Moreover, we obtain an approximation of the maximal eigenvalue of the transfer matrix at lower temperature.
2014
José Javier Cerda Hernández
Comparative evaluation of network reconstruction methods in high dimensional settings
In the past years, several network reconstruction methods modeled as Gaussian Graphical Model in high dimensional settings where proposed. In this work we will analyze three different methods, the Graphical Lasso (GLasso), Graphical Ridge (GGMridge) and a novel method called LPC, or Local Partial Correlation. The evaluation will be performed in high dimensional data generated from different simulated random graph structures (Erdos-Renyi, Barabasi-Albert, Watts-Strogatz ), using Receiver Operating Characteristic or ROC curve. We will also apply the methods in the reconstruction of genetic co-expression network for the differentially expressed genes in cervical cancer tumors.
Um modelo de evolução de espécies com extinções em massa
Apresentamos um modelo estocástico para evolução de espécies utilizando processos de Poisson. Eventos de surgimento de novas espécies e eventos de extinção são dados por dois processos de Poisson independentes. A cada evento de surgimento, uma nova espécie é adicionada ao sistema e uma aptidão aleatória é associada a ela. À cada evento de extinção, é associado um limiar também aleatório e todas as espécies com aptidão inferior ao limiar são retiradas do sistema. Apresentamos critérios necessários e suficientes para recorrência/transitoriedade da configuração vazia. Mostramos a existência da distribuição limite e apresentamos critérios necessários e suficientes para um número in/finito de espécies em tal distribuição.
2018
Fabio Sternieri Marques
Convergência de modelos de armadilhas no hipercubo
Derivamos resultados para o Modelo de Armadilhas de Bouchaud no hipercubo a baixa temperatura. Este é um passeio aleatório simples simétrico em tempo contínuo que espera um tempo exponencial com taxa aleatória com distribuição no domínio de atração de uma lei estável de expoente menor do que 1. Os resultados recaem sobre o processo limite chamado K-processo, basicamente, um processo markoviano em um espaço de estados enumerável que entra em qualquer conjunto finito com distribuição uniforme.
2007
Paulo Henrique de Souza Lima
Técnicas de diagnóstico para modelos lineares generalizados com medidas repetidas
A literatura dispõe de métodos de diagnóstico para avaliar o ajuste de modelos lineares generalizados (MLGs) para medidas repetidas baseado em equações de estimação generalizada (EEG). No entanto, tais métodos não contemplam a distribuição binomial nem bancos de dados com observações faltantes. O presente trabalho generalizou os métodos já desenvolvidos para essas duas situações. Na construção de gráficos de probabilidade meio-normal com envelope simulado para a distribuição binomial, foi proposto um método para geração de variáveis aleatórias com distribuição marginal binomial correlacionadas, baseado na convolução de variáveis com distribuição de Poisson independentes. Os métodos de diagnóstico desenvolvidos foram aplicados em dados reais e simulados.
Modelos elípticos multiníveis
Os modelos multiníveis representam uma classe de modelos utilizada para ajustes de dados que apresentam estrutura de hierarquia. O presente trabalho propõe uma generalizacão dos modelos normais multiníveis, denominada modelos elípticos multiníveis. Esta proposta sugere o uso de distribuicões de probabilidade pertencentes à classe elíptica, envolvendo portanto todas as distribuições contínuas simétricas, incluindo a distribuição normal como caso particular. As distribuições elípticas podem apresentar caudas mais leves ou mais pesadas que as caudas da distribuição normal. No caso da presença de observações aberrantes, é sugerido o uso de distribuições com caudas pesadas no intuito de obter um melhor ajuste do modelo aos dados considerados discrepantes. Nesta dissertação, alguns aspectos dos modelos elípticos multiníveis são desenvolvidos, como o processo de estimação dos parâmetros via máxima verossimilhança, testes de hipóteses para os efeitos fixos e parâmetros de variância e covariância e análise de resíduos para verificação de características relacionadas aos ajustes e às suposições estabelecidas.
2011
Roberto Ferreira Manghi
Passeios aleatórios estáveis em Z com taxas não-homogêneas e os processos quase-estáveis
Seja $\\mathcal X=\\{\\mathcal X_t:\\, t\\geq0,\\, \\mathcal X_0=0\\}$ um passeio aleatório $\\beta$-estável em $\\mathbb Z$ com média zero e com taxas de saltos não-homogêneas $\\{\\tau_i^: i\\in\\mathbb Z\\}$, com $\\beta\\in(1,2]$ e $\\{\\tau_i: i\\in\\mathbb Z\\}$ sendo uma família de variáveis aleatórias independentes com distribuição marginal comum na bacia de atração de uma lei $\\alpha$-estável, com $\\alpha\\in(0,2]$. Nesta tese, obtemos resultados sobre o comportamento do processo $\\mathcal X_t$ para tempos longos, em particular, obtemos seu limite de escala. Quando $\\alpha\\in(0,1)$, o limite de escala é um processo $\\beta$-estável mudado de tempo pela inversa de um outro processo, o qual envolve o tempo local do processo $\\beta$-estável e um independente subordinador $\\alpha$-estável; chamamos o processo resultante de processo quase-estável. Para o caso $\\alpha\\in[1,2]$, o limite de escala é um ordinário processo $\\beta$-estável. Para $\\beta=2$ e $\\alpha\\in(0,1)$, o limite de escala é uma quase-difusão com medida de velocidade aleatória estudada por Fontes, Isopi e Newman (2002). Outros resultados sobre o comportamento de $\\mathcal X$ para tempos longos são envelhecimento e localização. Nós obtemos resultados de envelhecimento integrado e não-integrado para $\\mathcal X$ quando $\\alpha\\in(0,1)$. Relacionado à esses resultados, e possivelmente de interesse independente, consideramos o processo de armadilha definido por $\\{\\tau_{\\mathcal X_t}: t\\geq0\\}$, e obtemos seu limite de escala. Concluímos a tese com resultados sobre localização de $\\mathcal X$. Mostramos que ele pode ser localizado quando $\\alpha\\in(0,1)$, e que não pode ser localizado quando $\\alpha\\in(1,2]$, assim estendendo os resultados de Fontes, Isopi e Newman (1999) para o caso de passeios simples simétricos.
2012
Wagner Barreto de Souza
Estimação em modelos funcionais com erro normais e repetições não balanceadas
Esta dissertação compreende um estudo da eficiência de estimadores dos parâmetros no modelo funcional com erro nas variáveis, com repetições para contornar o problema de falta de identificação. Nela, discute-se os procedimentos baseados nos métodos de máxima verossimilhança e escore corrigido. As estimativas obtidas pelos dois métodos levam a resultados similares.
2008
Joan Neylo da Cruz Rodriguez
Passeio aleatório unidimensional com ramificação em um meio aleatório K-periódico
Neste trabalho estudamos um passeio aleatório, unidimensional com ramificação em Z+ em um meio aleatório não identicamente distribuído. Definimos recorrência e transiência para este processo e apresentamos um critério de classificação.
2001
Josué Macario de Figueirêdo Rocha
Superdispersão em dados binomiais hierárquicos
Para analisar dados binários oriundos de uma estrutura hierárquica com dois níveis (por exemplo, aluno e escola), uma alternativa bastante utilizada é a suposição da distribuição binomial para as unidades experimentais do primeiro nível (aluno) condicionalmente a um efeito aleatório proveniente de uma distribuição normal para as unidades do segundo nível (escola). Neste trabalho, propõe-se a adição de um efeito aleatório normal no primeiro nível de um modelo linear generalizado hierárquico binomial para contemplar uma possível variabilidade extra-binomial decorrente da dependência entre os ensaios de Bernoulli de um mesmo indivíduo. Obtém-se o processo de estimação por máxima verossimilhança para este modelo a partir da verossimilhança marginal dos dados, após uma dupla aplicação do método de quadratura de Gauss-Hermite adaptativa como aproximação para as integrais dos efeitos aleatórios. Realiza-se um estudo de simulação para contrastar propriedades inferenciais do modelo aspirante com o modelo linear generalizado binomial, um modelo de quase-verossimilhança e o tradicional modelo linear generalizado hierárquico em dois níveis.
Modelos baseados no planejamento para análise de populações finitas
Estudamos o problema de obtenção de estimadores/preditores ótimos para combinações lineares de respostas coletadas de uma população finita por meio de amostragem aleatória simples. Nesse contexto, estendemos o modelo misto para populações finitas proposto por Stanek, Singer & Lencina (2004, Journal of Statistical Planning and Inference) para casos em que se incluem erros de medida (endógenos e exógenos) e informação auxiliar. Admitindo que as variâncias são conhecidas, mostramos que os estimadores/preditores propostos têm erro quadrático médio menor dentro da classe dos estimadores lineares não viciados. Por meio de estudos de simulação, comparamos o desempenho desses estimadores/preditores empíricos, i.e., obtidos com a substituição das componentes de variância por estimativas, com aquele de competidores tradicionais. Também, estendemos esses modelos para análise de estudos com estrutura do tipo pré-teste/pós-teste. Também por intermédio de simulação, comparamos o desempenho dos estimadores empíricos com o desempenho do estimador obtido por meio de técnicas clássicas de análise de medidas repetidas e com o desempenho do estimador obtido via análise de covariância por meio de mínimos quadrados, concluindo que os estimadores/ preditores empíricos apresentaram um menor erro quadrático médio e menor vício. Em geral, sugerimos o emprego dos estimadores/preditores empíricos propostos para dados com distribuição assimétrica ou amostras pequenas.
2008
Luz Mery González Garcia
Contribuições à análise de outliers em modelos de equações estruturais
O Modelo de Equações Estruturais (MEE) é habitualmente ajustado para realizar uma análise confirmatória sobre as conjecturas de um pesquisador acerca do relacionamento entre as variáveis observadas e latentes de algum estudo. Na prática, a maneira mais recorrente de avaliar a qualidade das estimativas de um MEE é a partir de medidas que buscam mensurar o quanto a usual matriz de covariâncias clássicas ou ordinárias se distancia da matriz de covariâncias do modelo ajustado, ou a magnitude do afastamento entre as funções de discrepância do modelo hipotético e do modelo saturado. Entretanto, elas podem não captar problemas no ajuste quando há muitos parâmetros a estimar ou bastantes observações. A fim de detectar irregularidades no ajustamento resultantes do impacto provocado pela presença de outliers no conjunto de dados, este trabalho contemplou alguns indicadores conhecidos na literatura, como também considerou alterações no Índice da Qualidade do Ajuste (ou GFI, de Goodness-of-Fit Index) e no Índice Corrigido da Qualidade do Ajuste (ou AGFI, de Ajusted Goodness-of-Fit Index), ambos nas expressões para estimação de parâmetros pelo método de Máxima Verossimilhança, que consistiram em substituir a tradicional matriz de covariâncias pelas matrizes de covariâncias computadas com os seguintes estimadores: Elipsoide de Volume Mínimo, Covariância de Determinante Mínimo, S, MM e Gnanadesikan-Kettenring Ortogonalizado (GKO). Através de estudos de simulação sobre perturbações de desvio de simetria e excesso de curtose, em baixa e alta frações de contaminação, em diferentes tamanhos de amostra e quantidades de variáveis observadas afetadas, foi possível constatar que as propostas de modificação do GFI e do AGFI adaptadas pelo estimador GKO foram as únicas que conseguiram ser informativas em todas essas situações, devendo-se escolher a primeira ou a segunda respectivamente quando a quantidade de parâmetros a serem estimados é baixa ou elevada.
2013
Rodrigo de Souza Bulhões
Regressão não paramétrica com processos estacionários alpha-mixing via ondaletas
Nesta tese consideramos um modelo de regressão não paramétrica, quando a variável explicativa e um processo estritamente estacionário e alpha-mixing. São estudadas as condições sobre o processo Xt e sua estrutura de dependência, assim como do domínio da função f a ser estimada. Também são feitas as adaptações necessárias aos procedimentos para obter as taxas de convergência do risco para a norma Lp, no caso de ondaletas deformadas. Em relação às ondaletas adaptativas de Haar, obtêm-se as taxas de convergência do risco do estimador proposto. Mediante estudos de simulação, e avaliado o desempenho dos procedimentos propostos quando aplicados a amostras finitas sob diferentes níveis de perturbação do sinal e diferentes tamanhos da amostra. Também são feitas aplicações a dados reais.
Modelos lineares parciais aditivos com erros simétricos condicionais autorregressivos e penalização com splines cúbicos
Neste trabalho propomos os modelos lineares parciais aditivos com erros simétricos condicionais autorregressivos e penalização com splines cúbicos de regressão para modelar tendência e sazonalidade em séries temporais. As funções de verossimilhança penalizada, escore penalizada e matriz de informação de Fisher penalizada são obtidas, bem como um processo iterativo do tipo backfitting (Gauss-Seidel) é desenvolvido para obter as estimativas de máxima verossimilhança penalizada dos componentes paramétrico e não paramétrico, alternando com o procedimento usual do algoritmo de Quase-Newton, em particular o método BFGS, e a generalização para problemas de grande porte, o chamado método L-BFGS para obter as estimativas dos parâmetros de dispersão e de autocorrelação. Em seguida, apresentamos métodos de diagnóstico, tais como análise de resíduos, e influência local sob cinco esquemas de perturbação: ponderação de casos, parâmetro de dispersão, variável resposta, variável explicativa contínua e coeficiente de autocorrelação. Estudos de simulação são desenvolvidos supondo diferentes distribuições para os erros e sob modelos condicionais autorregressivos de ordem um e dois, diante de diversos cenários. Avaliamos as propriedades empíricas dos estimadores dos parâmetros de localização, dispersão e autocorrelação. A abordagem apresentada é discutida em quatro aplicações. O primeiro exemplo refere-se ao banco de dados de anomalia da temperatura média global anual na superfície terra-mar no período de 1880 a 2020. O segundo exemplo refere-se ao banco de dados sobre a temperatura média diária na cidade de São Francisco nos Estados Unidos no período de janeiro de 1995 a abril de 2020. O terceiro exemplo refere-se aos dados diários de poluição e meteorológicos na estação da Marginal Tietê na Ponte dos Remédios na cidade de São Paulo no período de janeiro de 2014 a dezembro de 2020. E, o quarto, e último, aborda a mortalidade cardiovascular média semanal no condado de Los Angeles no período de 1970 a 1979.
2021
Rodrigo Alves de Oliveira
Análise de associação aplicada ao mapeamento genético de doenças.
O mapeamento genético e a genética funcional de doenças são de grande importância na pesquisa médica e genômica. Para estas finalidades o estudo de associação entre fatores de risco genéticos e doença tem ganhado destaque na literatura. Neste trabalho disserta-se sobre a análise de associação aplicada ao mapeamento genético de doenças, caracterizando diferentes possibilidades de planejamentos experimentais e de utilização de modelos estatísticos de análise de dados. As formalizações estatísticas, como o tipo de delineamento experimental, a inclusão ou não de dados familiares, bem como a escolha do método estatístico de análise, que são decisivos na avaliação do poder dos testes obtidos e na sua aplicabilidade ao mapeamento genético, também são discutidas. Além disso, considera-se a análise de associação por meio de modelos de regressão logística em que, as análises de dados genéticos são abordadas via dados no nível genotípico e cromossômico. Finalmente, os conceitos supracitados são aplicados a conjuntos de dados reais, fornecidos pelo Laboratório de Cardiologia e Genética Molecular do InCor/USP, com o objetivo de ilustrar o problema teórico tratado e motivar a aplicação das metodologias estatísticas envolvidas.
2006
Maria Jacqueline Batista
Poisson, Bayes, Futebol e DeFinetti
Nesta dissertação é abordado o problema de previsões probabilísticas para eventos tricotômicos, além da questão de comparação de qualidade das previsões através de curvas de calibração e da Medida de DeFinetti. É feita uma aplicação paraprevisões de resultados de futebol
Modelos de regressão beta inflacionados
Nos últimos anos têm sido desenvolvidos modelos de regressão beta, que têm uma variedade de aplicações práticas como, por exemplo, a modelagem de taxas, razões ou proporções. No entanto, é comum que dados na forma de proporções apresentem zeros e/ou uns, o que não permite admitir que os dados provêm de uma distribuição contínua. Nesta tese, são propostas, distribuições de mistura entre uma distribuição beta e uma distribuição de Bernoulli, degenerada em zero e degenerada em um para modelar dados observados nos intervalos [0, 1], [0, 1) e (0, 1], respectivamente. As distribuições propostas são inflacionadas no sentido de que a massa de probabilidade em zero e/ou um excede o que é permitido pela distribuição beta. Propriedades dessas distribuições são estudadas, métodos de estimação por máxima verossimilhança e momentos condicionais são comparados. Aplicações a vários conjuntos de dados reais são examinadas. Desenvolvemos também modelos de regressão beta inflacionados assumindo que a distribuição da variável resposta é beta inflacionada. Estudamos estimação por máxima verossimilhança. Derivamos expressões em forma fechada para o vetor escore, a matriz de informação de Fisher e sua inversa. Discutimos estimação intervalar para diferentes quantidades populacionais (parâmetros de regressão, parâmetro de precisão) e testes de hipóteses assintóticos. Derivamos expressões para o viés de segunda ordem dos estimadores de máxima verossimilhança dos parâmetros, possibilitando a obtenção de estimadores corrigidos que são mais precisos que os não corrigidos em amostras finitas. Finalmente, desenvolvemos técnicas de diagnóstico para os modelos de regressão beta inflacionados, sendo adotado o método de influência local baseado na curvatura normal conforme. Ilustramos a teoria desenvolvida em um conjuntos de dados reais.
2008
Raydonal Ospina Martinez
Non-informative nuisance parameter principle for weighted likelihood test using adaptive significance levels in count data
The usage of classical \\textit in significance tests for evaluating statistical hypotheses is a common practice among scientists of different areas of sciences. However, this practice has been widely criticized for its interpretation for many years and from many points of view due to of its misuse. Consequently, alternatives to this procedure are needed. In this work statistical hypothesis testing using weighted likelihood functions and adaptive significance levels are reviewed, with special emphasis on exploring the properties of this procedure. Specifically, it is proved that this procedure follows both the non-informative ``nuisance\'\' parameter principle and an invariance property. These properties lead to a reduced model and tractable parametric spaces that allow tackling the problem of testing hypotheses more easily. In addition, the conditional P-value is presented as a measure of evidence of the hypotheses. The proposed test is applied to test independence and diagonal symmetry on contingency tables, compare two Poisson means and to test the Hardy-Weinberg Equilibrium hypothesis. The advantages of this methodology are discussed and possible future works are suggested.
2020
Andrés Felipe Flórez Rivera