Repositório RCAAP
\"Modelo logístico multinível: um enfoque em métodos de estimação e predição\"
Modelo multinível é uma ferramenta estatística cada vez mais popular para análise de dados com estrutura hierárquica. O objetivo deste trabalho é propor um método para realizar a predição de observações de novos grupos usando modelos de regressão logística multinível com 2 níveis. Além disso, é apresentado e comparado dois métodos de estimação para o modelo multinível: Quase-verossimilhança Penalizada (QVP) e Quadratura de Gauss-Hermite (QGH). A idéia central está baseada no trabalho de (Jiang e Lahiri, 2006) no qual se propõe o uso do chamado melhor estimador empírico para o efeito aleatório. Através deste estimador, utilizou-se a parte fixa do modelo em conjunto com uma estimativa do desvio padrão do efeito aleatório para fazer a predição de observações de novos grupos, encontrando a probabilidade estimada dessa observação apresentar o evento de interesse, dadas suas características.
Modelos de sobrevivência com fração de cura e efeitos aleatórios
Neste trabalho são apresentados dois modelos de sobrevivência com fração de cura e efeitos aleatórios, um baseado no modelo de Chen-Ibrahim-Sinha para fração de cura e o outro, no modelo de mistura. São estudadas abordagens clássica e bayesiana. Na inferência clássica são utilizados estimadores REML. Para a bayesiana foi utilizado Metropolis-Hastings. Estudos de simulação são feitos para avaliar a acurácia das estimativas dos parâmetros e seus respectivos desvios-padrão. O uso dos modelos é ilustrado com uma análise de dados de câncer na orofaringe.
2008
Célia Mendes Carvalho Lopes
Modelos de fração de cura com fatores latentes competitivos e fragilidade
Os modelos de riscos proporcionais são muito utilizados na análise do tempo de sobrevivência, porém, assumem implicitamente que, observado um conjunto de variáveis explicativas, a população em estudo seja homogênea e que os indivíduos permaneçam sob risco durante todo o período de observação ou até que apresentem o evento de interesse. Tais suposições não são adequadas quando os indivíduos da população em estudo possuem diferentes pré-disposições ao surgimento de uma doença ou quando estão sujeitos à cura após o período de tratamento. Esta dissertação discute o modelo de sobrevivência com fração de cura quando o evento de interesse é caracterizado por fatores latentes competitivos, enquanto a heterogeneidade não observada entre os riscos dos pacientes é modelada através de um fator aleatório denominado termo de fragilidade.
2011
Renato de Azevedo Silva
Unraveling the brain: a quantitative study of EEG classification techniques
The problem of EEG Classification, where one tries to identify neural conditions through electroencephalographic signal analysis, has been gathering increasing attention from the scientific community with the recent advances in EEG technology and Big Data/Machine Learning techniques. However, much of the current research on this topic presents significant methodological flaws, such as non-optimization of models hyperparameters, data leakage between train and test datasets, and poor choice of comparison baselines, among others, which render many of the obtained results dubious. Thus, it is not clear what are the state-of-the-art methods for the EEG Classification problem today, nor how they compare to one another. In this dissertation, we tackle this problem by, first, surveying methods proposed in the scientific literature which claim to achieve state-of-the-art performance while still adhering to data science and statistical guidelines that can sustain such a claim. Then, we make a quantitative comparison of these methods on four different EEG datasets. Of the 11 methods studied, we show that those based on Fourier Transforms, Wavelet Transforms, and Hjorth Parameters are the ones with the best overall performance, and can that they can be used as a strong baseline against which any new methods and analyses hereafter proposed in the EEG Classification field should be compared.
2021
Lênon Guimarães Silva Alípio
Integration of heterogeneous data: a multi-omics application
Nowadays, a huge amount of data has being collected in different research areas, such as public health, agriculture, marketing, so high-dimension databases are becoming very common to encounter. More specifically, with the advance of technology many biological information are now available at low costs -- data from genome, miRNA (MicroRNA), mRNA (messenger RNA), gene expression, protein, methylation, lipids, metabolism, phenotypes and so on. Several different studies have been done individually with each type of data, but more recently there is an increasingly interest in integrating different data to gather more information. However, many classical methodologies used to this end assume the data matrix to be completed and numerical. Therefore, the heterogeneity of dataset with different variable types is not considered. Alternatively, the Generalized Low Rank Models (GLRM) is a tool capable of dealing with large datasets of heterogeneous data. Although its use is destined for a single database, this projects shows that it is flexible enough to handle abstract data, from different sources, by using different loss functions, adequate to each variable type. GLRM is a very powerful method that can deal with problems from different natures, but it is very recent, so its potential to work with multi-omics is still being discovered. In this context, the present work introduces GLRM and explores its possibilities for dimensionality reduction on supervised and unsupervised analysis using simulated and real multi-omics datasets.
2020
Ana Gabriela Pereira de Vasconcelos
Monotonicidade em testes de hipóteses
A maioria dos textos na literatura de testes de hipóteses trata de critérios de otimalidade para um determinado problema de decisão. No entanto, existem, em menor quantidade, alguns textos sobre os problemas de se realizar testes de hipóteses simultâneos e sobre a concordância lógica de suas soluções ótimas. Algo que se espera de testes de hipóteses simultâneos e que, se uma hipótese H1 implica uma hipótese H0, então é desejável que a rejeição da hipótese H0 necessariamente implique na rejeição da hipótese H1, para uma mesma amostra observada. Essa propriedade é chamada aqui de monotonicidade. A fim de estudar essa propriedade sob um ponto de vista mais geral, neste trabalho é definida a nocão de classe de testes de hipóteses, que estende a funcão de teste para uma sigma-álgebra de possíveis hipóteses nulas, e introduzida uma definição de monotonicidade. Também é mostrado, por meio de alguns exemplos simples, que, para um nível de signicância fixado, a classe de testes Razão de Verossimilhanças Generalizada (RVG) não apresenta monotonicidade, ao contrário de testes formulados sob a perspectiva bayesiana, como o teste de Bayes baseado em probabilidades a posteriori, o teste de Lindley e o FBST. Porém, são verificadas, sob a teoria da decisão, quando possível, quais as condições suficientes para que uma classe de testes de hipóteses tenha monotonicidade.
2010
Gustavo Miranda da Silva
Processos em meios aleatórios espaço-temporais
Consideramos um passeio aleatório de média nula em Z^d a tempo contínuo num ambiente espaço-temporal em Z^d x R_+ dado por processos de nascimento e morte independentes e identicamente distribuídos; de modo que as taxas de salto do passeio, meio-dependentes e dinâmicas no espaço-tempo, são dadas por uma função exponencial decrescente do meio na posição do passeio e assumem valores no conjunto não compacto (0, 1]. Discorremos sobre o comportamento assintótico do processo, quando o tempo diverge.
2021
Maicon Aparecido Pinheiro
Confiabilidade em sistemas coerentes: um modelo bayesiano Weibull.
O principal objetivo desse trabalho é introduzir um modelo geral bayesiano Weibull hierárquico para dados censurados que estima a função de confiabilidade de cada componente para sistemas de confiabilidade coerentes. São introduzidos formas de estimação mais sólidas, sem a inserção de estimativas médias nas funções de confiabilidade (estimador plug-in). Através desse modelo, são expostos e solucionados exemplos na área de confiabilidade como sistemas em série, sistemas em paralelo, sistemas k-de-n, sistemas bridge e um estudo clínico com dados censurados intervalares. As soluções consideram que as componentes tem diferentes distribuições, e nesse caso, o sistema bridge ainda não havia solução na literatura. O modelo construído é geral e pode ser utilizado para qualquer sistema coerente e não apenas para dados da área de confiabilidade, como também na área de sobrevivência, dentre outros. Diversas simulações com componentes com diferentes proporções de censura, distintas médias, três tipos de distribuições e tamanhos de amostra foram feitas em todos os sistemas para avaliar a eficácia do modelo.
Model selection for discrete Markov random fields on graphs
In this thesis we propose to use a penalized maximum conditional likelihood criterion to estimate the graph of a general discrete Markov random field. We prove the almost sure convergence of the estimator of the graph in the case of a finite or countable infinite set of variables. Our method requires minimal assumptions on the probability distribution and contrary to other approaches in the literature, the usual positivity condition is not needed. We present several examples with a finite set of vertices and study the performance of the estimator on simulated data from theses examples. We also introduce an empirical procedure based on k-fold cross validation to select the best value of the constant in the estimators definition and show the application of this method in two real datasets.
Medidas de dependência local para séries temporais
Diferente das medidas de associação global (coeficiente de correlação linear de Pearson, de Spearman, tau de Kendall, por exemplo), as medidas de dependência local descrevem o comportamento da dependência localmente em diferentes regiões. Nesta tese, as medidas de dependência local para variáveis aleatórias propostas por Bairamov et al. (2003), Bjerve e Doksum (1993) e Sibuya (1960), são estudadas sob o enfoque de processos estocásticos estacionários bivariados e univariados, neste caso, estudando o comportamento da dependência local ao longo das defasagens da série temporal. Para as duas primeiras medidas, discutimos as suas propriedades, e estudamos os seus estimadores, além da consistência dos mesmos. Para a medida de Sibuya, além de discutir suas propriedades, propomos três estimadores para variáveis aleatórias e dois para séries temporais, verificando a consistência dos mesmos. O comportamento das três medidas locais e dos seus estimadores foram avaliados através de simulações e aplicações a dados reais (neste caso, fizemos uma comparação destas com cópula e densidade cópula).
Estimação de modelos geoestatísticos com dados funcionais usando ondaletas
Com o recente avanço do poder computacional, a amostragem de curvas indexadas espacialmente tem crescido principalmente em dados ecológicos, atmosféricos e ambientais, o que conduziu a adaptação de métodos geoestatísticos para o contexto de Análise de Dados Funcionais. O objetivo deste trabalho é estudar métodos de krigagem para Dados Funcionais, adaptando os métodos de interpolação espacial em Geoestatística. Mais precisamente, em um conjunto de dados funcionais pontualmente fracamente estacionário e isotrópico, desejamos estimar uma curva em um ponto não monitorado no espaço buscando estimadores não viciados com erro quadrático médio mínimo. Apresentamos três abordagens para aproximar uma curva em sítio não monitorado, demonstramos resultados que simplificam o problema de otimização postulado pela busca de estimadores ótimos não viciados, implementamos os modelos em MATLAB usando ondaletas, que é mais adequada para captar comportamentos localizados, e comparamos os três modelos através de estudos de simulação. Ilustramos os métodos através de dois conjuntos de dados reais: um conjunto de dados de temperatura média diária das províncias marítimas do Canadá (New Brunswick, Nova Scotia e Prince Edward Island) coletados em 82 estações no ano 2000 e um conjunto de dados da CETESB (Companhia Ambiental do Estado de São Paulo) referentes ao índice de qualidade de ar MP10 em 22 estações meteorológicas na região metropolitana da cidade de São Paulo coletados no ano de 2014.
Modelos arch heterogêneos e aplicações à análise de dados de alta freqüência
Neste trabalho estudamos diferentes variantes dos modelos GARCH quando consideramos a chegada da informação heterogênea sob a forma de dados de alta freqüência. Este tipo de modelos, conhecidos como HARCH(n), foram introduzidos por Muller et al. (1997). Para entender a necessidade de incorporar esta característica da heterogeneidade da informação, estudamos o problema da agregação temporal para processos GARCH e a modelagem destes em dados de alta freqüência e veremos quais são as desvantagens destes modelos e o porquê da necessidade de corrigi-lo. Propusemos um novo modelo que leva em conta a heterogeneidade da informação do mercado financeiro e a memória longa da volatilidade, generalizando assim o modelo proposto por Müller et al.(1997), e estudamos algumas das propriedades teóricas do modelo proposto. Utilizamos estimação via máxima verossimilhança e amostrador de Griddy-Gibbs, e para avaliar o desempenho destes métodos realizamos diversas simulações. Também fizemos aplicações a duas séries de alta freqüência, a taxa de câmbio Euro- Dólar e o índice Ibovespa. Uma modificação ao algoritmo de Griddy-Gibbs foi proposta, para ter uma janela móvel de pontos, para a estimação das distribuições condicionais, a cada iteração. Este procedimento foi validado pela proximidade das estimações com a técnica de máxima verossimilhança. Disponibilizaremos algumas bibliotecas para o pacote S-Plus em que as análises descritas neste trabalho poderão ser reproduzidas. Informações relativas a tais bibliotecas estarão disponíveis na página Web http://www.ime.usp.br/~ruilova.
2007
Juan Carlos Ruilova Teran
Um esquema regenerativo visível em cadeias de alcance variável não limitada
O objetivo central desta tese é demonstrar a existência de uma estrutura regenerativa visível para cadeias de alcance variável não limitadas. Também apresentamos um algoritmo de identificação de seqüências de instantes de regeneração que converge quase certamente quando o tamanho da amostra diverge.
Planejamentos experimentais em modelos de regressão linear
Neste trabalho apresentamos os principais objetivos dos planejamentos experimentais em modelos de regressão. Na primeira parte do trabalho descrevemos os planejamentos com alavancagem constante, que permitem que todos os pontos amostrais exerçam a mesma influência nas estimativas dos parâmetros do modelo de regressão. Abordamos ainda outros tipos de planejamentos experimentais que obedecem a certos critérios como, por exemplo: G-otimalidade, D-otimalidade e Planejamentos ortogonais. Finalizando o trabalho foi apresentada uma análise prática em que as principais medidas estudadas foram aplicadas a um conjunto de dados reais.
Modelo GARCH com mudança de regime markoviano para séries financeiras
Neste trabalho analisaremos a utilização dos modelos de mudança de regime markoviano para a variância condicional. Estes modelos podem estimar de maneira fácil e inteligente a variância condicional não observada em função da variância anterior e do regime. Isso porque, é razoável ter coeficientes variando no tempo dependendo do regime correspondentes à persistência da variância (variância anterior) e às inovações. A noção de que uma série econômica possa ter alguma variação na sua estrutura é antiga para os economistas. Marcucci (2005) comparou diferentes modelos com e sem mudança de regime em termos de sua capacidade para descrever e predizer a volatilidade do mercado de valores dos EUA. O trabalho de Hamilton (1989) foi uns dos mais importantes para o desenvolvimento de modelos com mudança de regime. Inicialmente mostrou que a série do PIB dos EUA pode ser modelada como um processo que tem duas formas diferentes, uma na qual a economia encontra-se em crescimento e a outra durante a recessão. O câmbio de uma fase para outra da economia pode seguir uma cadeia de Markov de primeira ordem. Utilizamos as séries de índice Bovespa e S&P500 entre janeiro de 2003 e abril de 2012 e ajustamos o modelo GARCH(1,1) com mudança de regime seguindo uma cadeia de Markov de primeira ordem, considerando dois regimes. Foram consideradas as distribuições gaussiana, t de Student e generalizada do erro (GED) para modelar as inovações. A distribuição t de Student com mesmo grau de liberdade para ambos os regimes e graus distintos se mostrou superior à distribuição normal para caracterizar a distribuição dos retornos em relação ao modelo GARCH com mudança de regime. Além disso, verificou-se um ganho no percentual de cobertura dos intervalos de confiança para a distribuição normal, bem como para a distribuição t de Student com mesmo grau de liberdade para ambos os regimes e graus distintos, em relação ao modelo GARCH com mudança de regime quando comparado ao modelo GARCH usual.
2014
William Gonzalo Rojas Duran
Análise bayesiana em modelos TRI de três parâmetros.
Neste trabalho discutimos a análise bayesiana em modelos TRI (Teoria da Resposta ao Item) de três parâmetros com respostas binárias e ordinais, considerando a ligação probito. Em ambos os casos usamos técnicas baseadas em MCCM (método de Monte Carlo baseado em Cadeias de Markov) para estimação dos parâmetros dos itens. No modelo com respostas binárias, consideramos dois conjuntos de dados resultantes de provas com itens de múltipla-escolha. Para esses dados, foi feito um estudo da sensibilidade à escolha de distribuições a priori, além de uma análise das estimativas a posteriori para os parâmetros dos itens: discriminação, dificuldade e probabilidade de acerto ao acaso. Um terceiro conjunto de dados foi utilizado no estudo do modelo com respostas ordinais. Estes dados são provenientes de uma disciplina básica de estatística, onde a prova contêm itens dissertativos. As respostas foram classificadas nas categorias: certa, errada ou parcialmente certa. Utilizamos o programa WinBugs para a estimação dos parâmetros do modelo binário e a função MCMCordfactanal do programa R para estimar os parâmetros do modelo ordinal. Ambos os softwares são não proprietários e gratuitos (livres).
Flutuações do choque no processo de Hammersley
No presente trabalho provamos resultados sobre as flutuações dos fluxos de partículas e das partículas marcadas no processo de Hammersley multiclasse. Os métodos das demonstrações são robustos, formulados de modo a serem aplicados em outros processos, em particular se aplicam ao processo de exclusão totalmente assimétrico multiclasse (TASEP multiclasse) e à seu respectivo modelo de percolação de última passagem. Os principais teoremas obtidos são um teorema central do limite para o choque, seu coeficiente de difusão e uma fórmula exata para a variância do fluxo de partículas de classe N >1 para o processo em equilíbrio multiclasse.
2013
Marcio Watanabe Alves de Souza
Modelos bayesianos semi-paramétricos para dados binários
Este trabalho propõe modelos Bayesiano semi-paramétricos para dados binários. O primeiro modelo é uma mistura em escala que permite lidar com discrepâncias relacionadas a curtose do modelo Logístico. É uma extensão relevante a partir do que já foi proposto por Basu e Mukhopadhyay (2000) ao possibilitar a interpretação da distribuição a priori dos parâmetros através de razões de chances. O segundo modelo usufrui da mistura em escala em conjunto com a transformação proposta por \\Yeo e Johnson (2000) possibilitando que a curtose assim como a assimetria sejam ajustadas e um parâmetro informativo de assimetria seja estimado. Esta transformação é muito mais apropriada para lidar com valores negativos do que a transformação de Box e Cox (1964) utilizada por Guerrero e Johnson (1982) e é mais simples do que o modelo proposto por Stukel (1988). Por fim, o terceiro modelo é o mais geral entre todos e consiste em uma mistura de posição e escala tal que possa descrever curtose, assimetria e também bimodalidade. O modelo proposto por Newton et al. (1996), embora, seja bastante geral, não permite uma interpretação palpável da distribuição a priori para os pesquisadores da área aplicada. A avaliação dos modelos é realizada através de medidas de distância de probabilidade Cramér-von Mises, Kolmogorov-Smirnov e Anderson-Darling e também pelas Ordenadas Preditivas Condicionais.
Covariate shift adaptation and dataset shift decomposition in machine learning
In supervised learning, we often have access to a limited sample, in size or quality (e.g., lack of labels), of the population/distribution of interest, for which we want to create predictive models. However, it is possible that we have less limited access to data sampled from another population, more or less similar to the one of interest. Training models using only data from the population of interest may be impossible or result in sub-optimal models, so it would be interesting to use data from the other population in order to get better results or make training possible. In these situations, as the distributions of interest and the one that we can sample with few restrictions are different, we say that there is dataset shift. In dataset shift situations, employing domain adaptation techniques when training supervised models is essential for theoretical guarantees of good results in the population of interest. The two kinds of dataset shift we will discuss about in this work are covariate shift and concept drift/shift. The main objectives of this work are: (i) to review the main concepts and methods related to covariate shift and covariate shift adaptation; (ii) propose contributions to the covariate shift adaptation literature, connecting concepts present in modern literature; (iii) propose the decomposition of the dataset shift into covariate shift and expected concept drift/shift as a new approach to better understand situations in which we deal with dataset shift.
Modelos de memória longa, GARCH e GARCH com memória longa para séries financeiras
O objetivo deste trabalho é apresentar e comparar diferentes métodos de modelagem da volatilidade (variância condicional) de séries temporais financeiras. O modelo ARFIMA é empregado para capturar o comportamento de memória longa observado na volatilidade de séries financeiras. Por sua vez, o modelo GARCH é utilizado para modelar a volatilidade variando no tempo destas séries. Finalmente, o modelo FIGARCH é utilizado para modelar a dinâmica dos retornos de séries temporais financeiras juntamente com sua volatilidade. Serão apresentados alguns estimadores para os parâmetros dos modelos estudados. Foram realizadas simulações dos três tipos de modelos com o objetivo de comparar o comportamento dos estimadores para diferentes valores dos parâmetros. Por fim, serão apresentadas aplicações em séries reais.