Repositório RCAAP

Modelagem de dados de longa duração baseada em processos de nascimento e morte latentes

Esse trabalho contribui com o desenvolvimento de um novo modelo para dados de sobrevivência com sobreviventes de longo termo visando uma formulação e interpretação mais realista do que a apresentada pelos modelos com fração de curados usuais. Motivados pelo estudo do tempo de sobrevivência residual para pacientes oncológicos, o modelo usa o processo de nascimento e morte para permitir a variação do número de fatores de risco latentes durante um período precedente ao acompanhamento médico, considerando, então, um cenário de riscos competitivos para obtenção da função da sobrevivência (imprópria) dos pacientes. Simulações a aplicações à dados do Instituto do Câncer do Estado de São Paulo mostraram vantagens sobre o modelo de tempos de promoção.

Ano

2014

Creators

Victor Silva Ritter

Análise discriminante com mistura de variáveis categóricas e contínuas

O objetivo do trabalho é apresentar os métodos mais consagrados de Análise Discriminante quando temos uma mistura de variáveis categóricas e contínuas.

Métodos de predição para modelo logístico misto com k efeitos aleatórios

A predição de uma observação futura para modelos mistos é um problema que tem sido extensivamente estudado. Este trabalho trata o problema de atribuir valores para os efeitos aleatórios e/ou variável resposta de novos grupos para o modelo logístico misto, cujo objetivo é predizer respostas futuras com base em parâmetros estimados previamente. Na literatura, existem alguns métodos de predição para este modelo que considera apenas o intercepto aleatório. Para a regressão logística mista com k efeitos aleatórios, atualmente não há métodos propostos para a predição dos efeitos aleatórios de novos grupos. Portanto, foram propostas novas abordagens baseadas no método da média zero, no melhor preditor empírico (MPE), na regressão linear e nos modelos de regressão não-paramétricos. Todos os métodos de predição foram avaliados usando os seguintes métodos de estimação: aproximação de Laplace, quadratura adaptativa de Gauss-Hermite e quase-verossimilhança penalizada. Os métodos de estimação e predição foram analisados por meio de estudos de simulação, com base em sete cenários, com comparações de diferentes valores para: o tamanho de grupo, os desvios-padrão dos efeitos aleatórios, a correlação entre os efeitos aleatórios, e o efeito fixo. Os métodos de predição foram aplicados em dois conjuntos de dados reais. Em ambos os problemas os conjuntos de dados apresentaram estrutura hierárquica, cujo objetivo foi predizer a resposta para novos grupos. Os resultados indicaram que o método MPE apresentou o melhor desempenho em termos de predição, entretanto, apresentou alto custo computacional para grandes bancos de dados. As demais metodologias apresentaram níveis de predição semelhantes ao MPE, e reduziram drasticamente o esforço computacional.

Ano

2012

Creators

Karin Ayumi Tamura

Considerações sobre o procedimento de regressão em cristas

Em modelos de regressão, o método de Regressão em Cristas é uma alternativa ao método de mínimos quadrados em situações em que há multicolinearidade, consequência da existência de relações lineares entre as variáveis explicativas. Essa dissertação tem como objetivo apresentar atualizações ao trabalho realizado por (Oishi, 1983) sobre Regressão em Cristas. Inicialmente, é apresentado o procedimento de Regressão em Cristas, que consiste na adição de uma constante k denotada por parâmetro das cristas, na diagonal principal da matriz X^X, as propriedades e uma generalização do método. Em seguida, serão apresentadas diferentes maneiras de estimação de k e uma discussão sobre inferência para os coeficientes de regressão e também é realizado um estudo de simulação para testar a eficiência dos intervalos de confiança para os coeficientes construídos através do método de bootstrap. Por último, é feita uma aplicação dos procedimentos descritos em um conjunto de dados reais.

Ano

2020

Creators

Robert Plant Pinto Santos

Finite mixture of regression models

This dissertation consists of three articles, proposing extensions of finite mixtures in regression models. Here we consider a flexible class of both univariate and multivariate distributions, which allow adequate modeling of asymmetric data that have multimodality, heavy tails and outlying observations. This class has special cases such as skew-normal, skew-t, skew-slash and skew normal contaminated distributions, as well as symmetric cases. Initially, a model is proposed based on the assumption that the errors follow a finite mixture of scale mixture of skew-normal (FM-SMSN) distribution rather than the conventional normal distribution. Next, we have a censored regression model where we consider that the error follows a finite mixture of scale mixture of normal (SMN) distribution. Next, we propose a censored regression model where we consider that the error follows a finite mixture of scale mixture of normal (SMN) distribution. Finally, we consider a finite mixture of multivariate regression where the error has a multivariate SMSN distribution. For all proposed models, two R packages were developed, which are reported in the appendix.

Ano

2018

Creators

Luis Enrique Benites Sánchez

Modelos INAR e RCINAR, estimação e aplicação

Neste trabalho primeiramente apresentamos um modelo para uma sequência estacionária de valores inteiros (processo de contagem) autoregressivo de ordem p (INAR(p)). Depois disso, mos- traremos uma extensão desse processo, chamado modelo autoregressivo inteiro com coeficientes aleatórios (RCINAR(p)) . Para ambos os modelos, apresentamos suas propriedades assim como diferentes métodos de estimação de seus parâmetros. Os resultados da simulação e comparação dos estimadores são mostrados. Finalmente os modelos são aplicados em dois conjuntos de dados reais: Número mensal de empresas em falência; Número mensal de consultas no bureau de crédito.

Ano

2013

Creators

Tiago de Almeida Cerqueira Lima

Detecção de anomalias, interpolação e previsão em tempo real de séries temporais para operação de reservatórios e distribuição de água

Desenvolvemos uma solução via análise de séries temporais visando resolver um problema recorrente em Centros de Controle Operacionais de distribuição de água: anomalias em dados recebidos das estações de telemetria em tempo real para tomadas de decisão. A solução desenvolvida consiste em fazer detecção de outliers, reconstrução de valores omissos e previsão. Para tanto, foram utilizadas séries temporais geradas por equipamentos de medição de nível, vazões de entrada e de saídas do reservatório e de pressões a montante e a jusante de válvulas que controlam o fluxo de água. Os dados, referentes ao sistema de distribuição de água da cidade de Peruíbe, foram fornecidos pela Sabesp da Baixada Santista e sua amostragem temporal é a cada hora, indo das 1:00 do dia 1º de janeiro de 2017 até às 23:00 do dia 31 de dezembro de 2018. Para a detecção de outliers e preenchimento de valores omissos, foram propostos procedimentos que usam três técnicas principais: ajuste de curvas via regressão, decomposição clássica junto a regressão e decomposição STL. Já para previsão, foram utilizadas técnicas de rolling analysis em combinação com modelos SARIMA, modelos de regressão com erros auto correlacionados e modelos BATS e TBATS. Os resultados demonstraram que os métodos propostos, tanto para detecção de outliers e preenchimento de valores omissos, como para a previsão, possuem desempenhos muito bons para a maioria das séries.

Ano

2021

Creators

Leonardo Fonseca Larrubia

Equação de estimação generalizada e influência local para modelos de regressão beta com medidas repetidas

Utilizando a teoria de função de estimação linear ótima (Crowder, 1987), propomos equações de estimação generalizadas para modelos de regressão beta (Ferrari e Cribari-Neto, 2004) com medidas repetidas. Além disso, apresentamos equações de estimação generalizadas para modelos de regressão simplex baseadas nas propostas de Song e Tan (2000) e Song et al. (2004) e equações de estimação generalizadas para modelos lineares generalizados com medidas repetidas baseadas nas propostas de Artes e Jorgensen (2000) e Liang e Zeger (1986). Todas essas equações de estimação são desenvolvidas sob os enfoques da modelagem da média com homogeneidade da dispersão e da modelagem conjunta da média e da dispersão com intuito de incorporar ao modelo uma possível heterogeneidade da dispersão. Como técnicas de diagnóstico, desenvolvemos uma generalização de algumas medidas de diagnóstico quando abordamos quaisquer equações de estimação definidas tanto para modelagem do parâmetro de posição considerando a homogeneidade do parâmetro de dispersão como para modelagem conjunta dos parâmetros de posição e dispersão. Entre essas medidas, destacamos a proposta da influência local (Cook, 1986) desenvolvida para equações de estimação. Essa medida teve um bom desempenho, em simulações, para destacar corretamente pontos influentes. Por fim, realizamos aplicações a conjuntos de dados reais.

Ano

2008

Creators

Maria Kelly Venezuela

Modelos de regressão beta com efeitos aleatórios normais e não normais para dados longitudinais

A classe de modelos de regressão beta tem sido estudada amplamente. Porém, para esta classe de modelos existem poucos trabalhos sobre a inclusão de efeitos aleatórios e a flexibilização da distribuição dos efeitos aleatórios, além de métodos de predição e de diagnóstico no ponto de vista dos efeitos aleatórios. Neste trabalho são propostos modelos de regressão beta com efeitos aleatórios normais e não normais para dados longitudinais. Os métodos de estimação de parâmetros e de predição dos efeitos aleatórios usados no trabalho são o método de máxima verossimilhança e o método do melhor preditor de Bayes empírico. Para aproximar a função de verossimilhança foi utilizada a quadratura de Gauss-Hermite. Métodos de seleção de modelos e análise de resíduos também foram propostos. Foi implementado o pacote BLMM no R para a realização de todos os procedimentos. O processo de estimação os parâmetros dos modelos e a distribuição empírica dos resíduos propostos foram analisados por meio de estudos de simulação. Foram consideradas várias distribuições para os efeitos aleatórios, valores para o número de indivíduos, número de observações por indivíduo e estruturas de variância-covariância para os efeitos aleatórios. Os resultados dos estudos de simulação mostraram que o processo de estimação obtém melhores resultados quando o número de indivíduos e o número de observações por indivíduo aumenta. Estes estudos também mostraram que o resíduo quantil aleatorizado segue uma distribuição aproximadamente normal. A metodologia apresentada é uma ferramenta completa para analisar dados longitudinais contínuos que estão restritos ao intervalo limitado (0; 1).

Ano

2013

Creators

Olga Cecilia Usuga Manco

Modelos Birnbaum-Saunders usando equações de estimação

Este trabalho de tese tem como objetivo principal propor uma abordagem alternativa para analisar dados Birnbaum-Saunders (BS) correlacionados com base em equações de estimação. Da classe ótima de funções de estimação proposta por Crowder (1987), derivamos uma classe ótima para a análise de dados correlacionados em que as distribuições marginais são assumidas log-BS e log-BS-t, respectivamente. Derivamos um processo iterativo para estimação dos parâmetros, métodos de diagnóstico, tais como análise de resíduos, distância de Cook e influência local sob três diferentes esquemas de perturbação: ponderação de casos, perturbação da variável resposta e perturbação individual de covariáveis. Estudos de simulação são desenvolvidos para cada modelo para avaliar as propriedades empíricas dos estimadores dos parâmetros de localização, forma e correlação. A abordagem apresentada é discutida em duas aplicações: o primeiro exemplo referente a um banco de dados sobre a produtividade de capital público nos 48 estados norte-americanos contíguos de 1970 a 1986 e o segundo exemplo referente a um estudo realizado na Escola de Educação Física e Esporte da Universidade de São Paulo (USP) durante 2016 em que 70 corredores foram avaliados em corridas em esteiras em três períodos distintos.

Ano

2017

Creators

Aline Barbosa Tsuyuguchi

Diagnóstico de influência bayesiano em modelos de regressão da família t-assimétrica

O modelo de regressão linear com erros na família de distribuições t-assimétrica, que contempla as distribuições normal, t-Student e normal assimétrica como casos particulares, tem sido considerado uma alternativa robusta ao modelo normal. Para concluir qual modelo é, de fato, mais robusto, é importante ter um método tanto para identificar uma observação como discrepante quanto aferir a influência que esta observação terá em nossas estimativas. Nos modelos de regressão bayesianos, uma das medidas de identificação de observações discrepantes mais conhecidas é a conditional predictive ordinate (CPO). Analisamos a influência dessas observações nas estimativas tanto de forma global, isto é, no vetor completo de parâmetros do modelo quanto de forma marginal, apenas nos parâmetros regressores. Consideramos a norma L1 e a divergência Kullback-Leibler como medidas de influência das observações nas estimativas dos parâmetros. Além disso, encontramos as distribuições condicionais completas de todos os modelos para o uso do algoritmo de Gibbs obtendo, assim, amostras da distribuição a posteriori dos parâmetros. Tais amostras são utilizadas no calculo do CPO e das medidas de divergência estudadas. A principal contribuição deste trabalho é obter as medidas de influência global e marginal calculadas para os modelos t-Student, normal assimétrico e t-assimétrico. Na aplicação em dados reais originais e contaminados, observamos que, em geral, o modelo t-Student é uma alternativa robusta ao modelo normal. Por outro lado, o modelo t-assimétrico não é, em geral, uma alternativa robusta ao modelo normal. A capacidade de robustificação do modelo t-assimétrico está diretamente ligada à posição do resíduo do ponto discrepante em relação a distribuição dos resíduos.

Ano

2017

Creators

Diego Wesllen da Silva

Estimação e testes de hipóteses em calibração comparativa

Sabemos da literatura que Calibração Comparativa está ligada à comparação de eficiência de instrumentos de medição. Neste trabalho discutimos estimação e testes de hipóteses em modelos de calibração comparativa. Para a estimação dos parâmetros do modelo, consideramos os algoritmos EM e o algoritmo BFGS do programa Ox. Testes para algumas hipóteses de interesse são implementados usando as estatísticas da razão de verossimilhanças e de Wald. Estudos de simulação são utilizados na comparação dos procedimentos. Uma aplicação é apresentada a um conjunto de dados constituído de medições de alturas de árvores com três, quatro e cinco hipsômetros.

Ano

2001

Creators

Paulo Tadeu Meira e Silva de Oliveira

Estatística em confiabilidade de sistemas: uma abordagem Bayesiana paramétrica

A confiabilidade de um sistema de componentes depende da confiabilidade de cada componente. Assim, a estimação da função de confiabilidade de cada componente do sistema é de interesse. No entanto, esta não é uma tarefa fácil, pois quando o sistema falha, o tempo de falha de um dado componente pode não ser observado, isto é, um problema de dados censurados. Neste trabalho, propomos modelos Bayesianos paramétricos para estimação das funções de confiabilidade de componentes e sistemas em quatro diferentes cenários. Inicialmente, um modelo Weibull é proposto para estimar a distribuição do tempo de vida de um componente de interesse envolvido em sistemas coerentes não reparáveis, quando estão disponíveis o tempo de falha do sistema e o estado do componente no momento da falha do sistema. Não é imposta a suposição de que os tempos de vida dos componentes sejam identicamente distribuídos, mas a suposição de independência entre os tempos até a falha dos componentes é necessária, conforme teorema anunciado e devidamente demonstrado. Em situações com causa de falha mascarada, os estados dos componentes no momento da falha do sistema não são observados e, neste cenário, um modelo Weibull com variáveis latentes no processo de estimação é proposto. Os dois modelos anteriormente descritos propõem estimar marginalmente as funções de confiabilidade dos componentes quando não são disponíveis ou necessárias as informações dos demais componentes e, por consequência, a suposição de independência entre os tempos de vida dos componentes é necessária. Com o intuito de não impor esta suposição, o modelo Weibull multivariado de Hougaard é proposto para a estimação das funções de confiabilidade de componentes envolvidos em sistemas coerentes não reparáveis. Por fim, um modelo Weibull para a estimação da função de confiabilidade de componentes de um sistema em série reparável com causa de falha mascarada é proposto. Para cada cenário considerado, diferentes estudos de simulação são realizados para avaliar os modelos propostos, sempre comparando com a melhor solução encontrada na literatura até então, em que, em geral, os modelos propostos apresentam melhores resultados. Com o intuito de demonstrar a aplicabilidade dos modelos, análises de dados são realizadas com problemas reais não só da área de confiabilidade, mas também da área social.

Ano

2018

Creators

Agatha Sacramento Rodrigues

Um estudo sobre o processo K não homogêneo

Processos K começaram a ser estudados nos anos 50 como uma fonte de contraexemplos e de comportamento patológico. Recentemente descobriu-se que eles são um limite de escalas para modelos de armadilha, fato que voltou a trazer certa atenção para eles. Nesse trabalho vamos adotar uma abordagem construtiva, usando-a para mostrar a propriedade forte de Markov e calcular as taxas de transição e o gerador infinitesimal.

Ano

2011

Creators

Gabriel Ribeiro da Cruz Peixoto

Metanálise caso a caso sob a perspectiva bayesiana

O papel da metanálise de sumarizar estudos publicados de mesmo objetivo, por meio da estatística, torna-se cada dia mais fundamental em razão do avanço da ciência e do desejo de usar o menor número de seres humanos em ensaios clínicos, desnecessários, em vários casos. A síntese das informações disponíveis facilita o entendimento e possibilita conclusões robustas. O aumento de estudos clínicos, por exemplo, promove um crescimento da necessidade de metanálises, fazendo com que seja necessário o desenvolvimento de técnicas sofisticadas. Desse modo, o objetivo deste trabalho foi propor uma metodologia bayesiana para a realização de metanálises. O procedimento proposto consiste na mistura das distribuições a posteriori do parâmetro de interesse de cada estudo pertencente à metanálise; ou seja, a medida metanalítica proposta foi uma distribuição de probabilidade e não uma simples medida-resumo. A metodologia apresentada pode ser utilizada com qualquer distribuição a priori e qualquer função de verossimilhança. O cálculo da medida metanalítica pode ser utilizado, desde problemas simples até os mais sofisticados. Neste trabalho, foram apresentados exemplos envolvendo diferentes distribuições de probabilidade e dados de sobrevivência. Em casos, em que se há uma estatística suficiente disponível para o parâmetro em questão, a distribuição de probabilidade a posteriori depende dos dados apenas por meio dessa estatística e, assim, em muitos casos, há a redução de dimensão sem perda de informação. Para alguns cálculos, utilizou-se o método de simulação de Metropolis-Hastings. O software estatístico utilizado neste trabalho foi o R.

Ano

2013

Creators

Camila Bertini Martins

Modelos GAS com distribuições estáveis para séries temporais financeiras

Modelos GARCH tendo a normal e a t-Student como distribuições condicionais são amplamente utilizados para modelagem da volatilidade de dados financeiros. No entanto, tais distribuições podem não ser apropriadas para algumas séries com caudas pesadas e comportamento leptocúrtico. As chamadas distribuições estáveis podem ser mais adequadas para sua modelagem, como já explorado na literatura. Por outro lado, os modelos GAS (Generalized Autoregressive Score), com desenvolvimento recente, tratam-se de modelos dinâmicos que possuem em sua estrutura a função score (derivada do logaritmo da verossimilhança). Tal abordagem oferece uma direção natural para a evolução dos parâmetros da distribuição dos dados. Neste trabalho, é proposto um novo modelo GAS em conjunção com distribuições estáveis simétricas para a modelagem da volatilidade - de fato, é uma generalização do GARCH, pois, para uma particular escolha de distribuição estável e de estrutura do modelo, tem-se o clássico modelo GARCH gaussiano. Como em geral a função densidade das distribuições estáveis não possui forma analítica fechada, é apresentado seu procedimento de cálculo, bem como de suas derivadas, para o completo desenvolvimento do método de estimação dos parâmetros. Também são analisadas as condições de estacionariedade e a estrutura de dependência do modelo. Estudos de simulação são conduzidos, bem como uma aplicação a dados reais, para comparação entre modelos usuais, que utilizam distribuições normal e t-Student, e o modelo proposto, demonstrando a eficácia deste.

Ano

2017

Creators

Daniel Takata Gomes

Métodos de estimação baseados na função de verossimilhança para modelos lineares elípticos

O objetivo desta tese é estudar métodos de estimação baseados na função de verossimilhança em modelos mistos lineares elípticos. Derivamos inicialmente os métodos de máxima verossimilhança, máxima verossimilhança restrita e de máxima verossimilhança perfilada modificada para o modelo linear normal. Estendemos os métodos para os modelos lineares elípticos e encontramos diferenças entre as equações resultantes de cada método. A principal motivação deste trabalho é que o método de máxima verossimilhança restrita tem sido aplicado para obter estimadores menos viesados para os componentes de variância-covariância, em contraste com os estimadores de máxima verossimilhança. O método tem sido muito utilizado em modelos com estruturas de variância-covariância como é o caso dos modelos mistos lineares. Assim, procuramos estender o método para os modelos mistos lineares elípticos bem como comparar com outros procedimentos de estimação, máxima verossimilhança e máxima verossimilhança perfilada modificada. Estudamos em particular os modelos mistos lineares com erros t-Student e exponencial potência.

Ano

2018

Creators

Natalia Andrea Milla Pérez

Modelos de mistura beta mistos sob abordagem bayesiana

Os modelos de mistura são muito eficazes para analisar dados compostos por diferentes subpopulações com alocações desconhecidas ou que apresentam assimetria, multimodalidade ou curtose. Esta tese propõe relacionar a distribuição de probabilidade beta e a técnica de ajuste de modelos mistos à metodologia de modelos de mistura para que sejam adequados na análise de dados que assumem valores em um intervalo restrito conhecido e que também são caracterizados por possuírem uma estrutura de agrupamento ou hierárquica. Foram especificados os modelos de mistura beta mistos linear, com dispersão constante e variável, e não linear. Foi considerada uma abordagem bayesiana com uso de métodos de Monte Carlo via Cadeias de Markov (MCMC). Estudos de simulação foram delineados para avaliar os resultados inferenciais destes modelos em relação à acurácia da estimação pontual dos parâmetros, ao desempenho de critérios de informação na seleção do número de elementos da mistura e ao diagnóstico de identificabilidade obtido com o algoritmo data cloning. O desempenho dos modelos foi muito promissor, principalmente pela boa acurácia da estimação pontual dos parâmetros e por não haver evidências de falta de identificabilidade. Três bancos de dados reais das áreas de saúde, marketing e educação foram estudados por meio das técnicas propostas. Tanto nos estudos de simulação quanto na aplicação a dados reais se obtiveram resultados muito satisfatórios que evidenciam tanto a utilidade dos modelos desenvolvidos aos objetivos tratados quanto a potencialidade de aplicação. Ressaltando que a metodologia apresentada também pode ser aplicada e estendida a outros modelos de mistura.

Ano

2018

Creators

Ana Paula Zerbeto

Locally stationary processes with stable and tempered stable innovations

In the literature, the class of locally stationary processes assumes that there is a time-varying spectral representation, i.e. the existence of finite second moment. In this work, we first propose the stable locally stationary process by modifying the innovations into stable distributions, which has heavy tail, and the indirect inference to estimate this type of model. Due to the infinite variance, some of interesting properties such as time-varying autocorrelation cannot be defined. However, since the stable family of distributions, as a generalization of the Gaussian distribution, is closed under linear combination, which includes the possibility of handling asymmetry and thicker tails, the proposed model presents the same tail behavior throughout the time. We carry out simulations to study the performance of the indirect inference and compare it to the existing methodology, blocked Whittle estimation. When the process has stable innovations, the indirect inference presents more promising results than the existing methodology because of infinite variance. Next, we consider the locally stationary process with tempered stable innovations, whose center is similar to that of a stable distribution, but its tails are lighter (semi-heavy tail) and all moments are finite. We present some theoretical results of this model and propose a two-step estimation to estimate the parametric form of the model. Simulations suggest that the time-varying structure can be estimated well, but the parameters related to the innovation are biased for small time series length. However, the bias disappears when time series length increases. Finally, an empirical application is illustrated.

Ano

2020

Creators

Shu Wei Chou Chen

Some Bayesian generalizations of the integer-valued autoregressive model

In this thesis, we develop Bayesian generalized models for analyzing time series of counts. In our first proposal, we use a finite mixture to define the marginal distribution of the innovation process, in order to potentially account for overdispersion in the time series. Our second contribution uses a Dirichlet process at the distribution of the time-varying innovation rates, which are softly clustered through time. Finally, we examine issues of prior sensitivity in a semi-parametric extended model in which the distribution of the innovation rates follows a Pitman-Yor process. A graphical criterion to choose the Pitman-Yor base measure hyperparameters is proposed, showing explicitly that the Pitman-Yor discount parameter and the concentration parameter can interact with the chosen base measure to yield robust inferential results. The posterior distribution of the models parameters is obtained through data-augmentation schemes which allows us to obtain tractable full conditional distributions. The prediction performance of the proposed models are put to test in the analysis of two real data sets, with favorable results.

Ano

2020

Creators

Helton Graziadei de Carvalho