RCAAP Repository

Avaliação do desempenho de modelos preditivos no contexto de análise de sobrevivência

Modelos estatísticos com objetivos preditivos são frequentemente aplicados como ferramentas no processo de tomadas de decisão em diversas áreas. Uma classe importante de modelos estatísticos é composta por modelos de análise de sobrevivência. Duas quantidades são de interesse nessa classe: o tempo até o instante do evento de interesse ou o status para um determinado instante de tempo fixado. Aplicações importantes desses modelos incluem a identificação de novos marcadores para certas doenças e definição de qual terapia será mais adequada de acordo com o paciente. Os marcadores utilizados podem ser dados por biomarcadores, assim como por marcadores baseados em modelos de regressão. Um exemplo de marcador baseado em modelos de regressão é dado pelo preditor linear. Ainda que a utilização de modelos de sobrevivência com objetivos preditivos seja de suma importância, a literatura nesse assunto é muito esparsa e não há consenso na forma de se avaliar o desempenho preditivo desses. Esse trabalho pretende reunir e comparar diferentes abordagens de se avaliar o desempenho preditivo de modelos de sobrevivência. Essa avaliação é feita principalmente utilizando-se funções de perda para o tempo de sobrevivência e quantidades associadas a diferentes definições de curva ROC para o status. Para a comparação dessas diferentes metodologias foi feito um estudo de simulação e no final aplicou-se essas técnicas em um conjunto de dados de um estudo do Instituto do Câncer de São Paulo.

Year

2022-12-06T14:52:58Z

Creators

Tiago Mendonça dos Santos

Estimação e comparação de curvas de sobrevivência sob censura informativa.

A principal motivação desta dissertação é um estudo realizado pelo Instituto do Câncer do Estado de São Paulo (ICESP), envolvendo oitocentos e oito pacientes com câncer em estado avançado. Cada paciente foi acompanhado a partir da primeira admissão em uma unidade de terapia intensiva (UTI) pelo motivo de câncer, por um período de no máximo dois anos. O principal objetivo do estudo é avaliar o tempo de sobrevivência e a qualidade de vida desses pacientes através do uso de um tempo ajustado pela qualidade de vida (TAQV). Segundo Gelber et al. (1989), a combinação dessas duas informações, denominada TAQV, induz a um esquema de censura informativa; consequentemente, os métodos tradicionais de análise para dados censurados, tais como o estimador de Kaplan-Meier (Kaplan e Meier, 1958) e o teste de log-rank (Peto e Peto, 1972), tornam-se inapropriados. Visando sanar essa deficiência, Zhao e Tsiatis (1997) e Zhao e Tsiatis (1999) propuseram novos estimadores para a função de sobrevivência e, em Zhao e Tsiatis (2001), foi desenvolvido um teste análogo ao teste log-rank para comparar duas funções de sobrevivência. Todos os métodos considerados levam em conta a ocorrência de censura informativa. Neste trabalho avaliamos criticamente esses métodos, aplicando-os para estimar e testar curvas de sobrevivência associadas ao TAQV no estudo do ICESP. Por fim, utilizamos um método empírico, baseado na técnica de reamostragem bootstrap, a m de propor uma generalização do teste de Zhao e Tsiatis para mais do que dois grupos.

Year

2022-12-06T14:52:58Z

Creators

Raony Cassab Castro Cesar

Estimação de cópulas via ondaletas

Cópulas tem se tornado uma importante ferramenta para descrever e analisar a estrutura de dependência entre variáveis aleatórias e processos estocásticos. Recentemente, surgiram alguns métodos de estimação não paramétricos, utilizando kernels e ondaletas. Neste contexto, sabendo que cópulas podem ser escritas como expansão em ondaletas, foi proposto um estimador não paramétrico via ondaletas para a função cópula para dados independentes e de séries temporais, considerando processos alfa-mixing. Este estimador tem como característica principal estimar diretamente a função cópula, sem fazer suposição alguma sobre a distribuição dos dados e sem ajustes prévios de modelos ARMA - GARCH, como é feito em ajuste paramétrico para cópulas. Foram calculadas taxas de convergência para o estimador proposto em ambos os casos, mostrando sua consistência. Foram feitos também alguns estudos de simulação, além de aplicações a dados reais.

Year

2022-12-06T14:52:58Z

Creators

Francyelle de Lima e Silva

Análise longitudinal de coinfecções por HPV em pacientes HIV-positivas

Avaliamos a incidência e o clareamento para o vírus do papiloma humano (HPV) dos tipos oncogênicos e não-oncogênicos em uma coorte aberta com 202 mulheres portadoras do vírus da imunodeficiência humana (HIV), e identificamos alguns fatores de risco e proteção associados a cada desfecho utilizando modelos de fragilidade Gama. No modelo de incidência, foram estudados os tempos até incidência de HPV oncogênicos e não-oncogênicos para cada mulher; no modelo de clareamento, foram estudados os correspondentes tempos até clareamento. Comparamos os erros-padrões estimados pela matriz de informação observada com os erros-padrões bootstrap para ambos os modelos e verificamos que a proposta de Verweij & Houwelingen (1994) para a matriz de variâncias e covariâncias dos parâmetros é a mais apropriada. Para a incidência de HPV oncogênicos, identificamos como fator de risco o uso de drogas em que a taxa de incidência para as pacientes que usam drogas é 1.88 (IC 90%, 1.01; 3.5) vezes aquela correspondente a mulheres que não usam e como fator de proteção a renda em que a taxa de incidência de pacientes com renda igual ou superior a 3 salários mínimos é 0.62 (IC 90%, 0.38; 1.00) vezes a taxa referente àquelas com renda menor que 3 salários mínimos. Para a incidência de HPV não-oncogênicos identificamos como fatores de risco a escolaridade e o total de gestações, em que, para a última, a taxa de incidência para as mulheres que tiveram mais do que uma gestação é 1.76 (IC 90%, 1.09; 2.86) vezes a taxa referente àquelas que tiveram uma ou nenhuma. Para o clareamento de HPV oncogênicos identificamos como fatores que indicam um clareamento mais rápido a renda, a idade e o tratamento antirretroviral (ARV), em que, para a última, supondo mulheres com fragilidades iguais, a taxa de clareamento para as pacientes que eram tratadas com o esquema inibidor de protease (IP) é 1.79 (IC 90%, 1.1; 2.9) vezes aquela correspondente a mulheres que não foram tratadas com nenhum tratamento ARV e como fator que indicam um clareamento mais lento o número de parceiros sexuais no último ano, em que, as pacientes com mais de um parceiro tiveram taxa de clareamento 0.39 (IC 90%, 0.16; 0.98) vezes a taxa de clareamento referente à uma mulher que teve um parceiro ou menos. Para o clareamento de HPV não-oncogênicos tivemos como fator que indica um clareamento mais lento o hábito tabagista em que, supondo fragilidades iguais, pacientes fumantes tem a taxa de clareamento 0.53 (IC 90%, 0.32; 0.87) vezes a taxa referente à uma mulher que não fuma.

Year

2022-12-06T14:52:58Z

Creators

Marcel de Souza Borges Quintana

Modelos de regressão com coeficientes funcionais para séries temporais

Nesta tese, consideramos o ajuste de modelos de regressão com coeficientes funcionais para séries temporais, por meio de splines, ondaletas clássicas e ondaletas deformadas. Consideramos os casos em que os erros do modelo são independentes e correlacionados. Através das três abordagens de estimação, obtemos taxas de convergência a zero para distâncias médias entre as funções do modelo e seus respectivos estimadores, propostos neste trabalho. No caso das abordagens de ondaletas (clássicas e deformadas), obtemos também resultados assintóticos em situações mais específicas, nas quais as funções do modelo pertencem a espaços de Sobolev e espaços de Besov. Além disso, estudos de simulação de Monte Carlo e aplicações a dados reais são apresentados. Por meio desses estudos numéricos, fazemos comparações entre as três abordagens de estimação propostas, e comparações entre outras abordagens já conhecidas na literatura, onde verificamos desempenhos satisfatórios, no sentido das abordagens propostas fornecerem resultados competitivos, quando comparados aos resultados oriundos de metodologias já utilizadas na literatura.

Year

2022-12-06T14:52:58Z

Creators

Michel Helcias Montoril

Statistical inference on random graphs and networks

In this thesis we study two probabilistic models defined on graphs: the Stochastic Block model and the Exponential Random Graph. Therefore, this thesis is divided in two parts. In the first part, we introduce the Krichevsky-Trofimov estimator for the number of communities in the Stochastic Block Model and prove its eventual almost sure convergence to the underlying number of communities, without assuming a known upper bound on that quantity. In the second part of this thesis we address the perfect simulation problem for the Exponential random graph model. We propose an algorithm based on the Coupling From The Past algorithm using a Glauber dynamics. This algorithm is efficient in the case of monotone models. We prove that this is the case for a subset of the parametric space. We also propose an algorithm based on the Backward and Forward algorithm that can be applied for monotone and non monotone models. We prove the existence of an upper bound for the expected running time of both algorithms.

Year

2022-12-06T14:52:58Z

Creators

Andressa Cerqueira

Preservação das classes de distribuições não-paramétricas e desigualdades estocásticas entre os D-espectros de networks para seus respectivos tempos de vidas

Este trabalho reporta sobre a avaliação da confiabilidade de networks, uma representação analítica para diversos sistemas de engenharia e de comunicação, cujas falhas de seus componentes (links) ocorrem segundo um Processo de Poisson Não Homogêneo. Concluiremos que, na comparação de dois networks com a mesma quantidade de links, as desigualdades estocásticas de seus D-espectros serão preservadas em seus tempos de vidas e a preservação das classes de distribuições do D-espectro para o tempo de vida de um network ocorrerá com restrições na função de risco do Processo de Poisson Não Homogêneo.

Year

2022-12-06T14:52:58Z

Creators

Pedro Minoru Saito

O problema de Monge-Kantorovich para duas medidas de probabilidade sobre um conjunto finito

Apresentamos o problema do transporte ótimo de Monge-Kantorovich com duas medidas de probabilidade conhecidas e que possuem suporte em um conjunto de cardinalidade finita. O objetivo é determinar condições que permitam construir um acoplamento destas medidas que minimiza o valor esperado de uma função de custo conhecida e que assume valor nulo apenas nos elementos da diagonal. Apresentamos também um resultado relacionado com a solução do problema de Monge-Kantorovich em espaços produto finitos quando conhecemos soluções para o problema nos espaços marginais.

Year

2022-12-06T14:52:58Z

Creators

Estefano Alves de Souza

Assinaturas dinâmicas de um sistema coerente com aplicações

O objetivo da dissertação é analisar a assinatura em um contexto geral que considera a dinâmica no tempo e a dependência estocástica, utilizando a teoria de martingais para processos pontuais.

Year

2022-12-06T14:52:58Z

Creators

José Alberto Ramos Flor

Efeitos da especificação incorreta da função de ligação no modelo de regressão beta

O ajuste de modelos de regressão beta requer a especificação de uma função de ligação. Algumas funções de ligação úteis são: logito, probito, complemento log-log e log-log. Usualmente, a ligação logito é utilizada pois permite interpretação simples para os parâmetros de regressão. O principal objetivo deste trabalho é avaliar o impacto da especificação incorreta da função de ligação em regressão beta. Estudos de simulação serão usados com esse prop´osito. Amostras da variável resposta serão geradas assumindo uma função de ligação conhecida (verdadeira) e o modelo de regressão beta será ajustado usando a função de ligação verdadeira (correta) e algumas funções de ligação incorretas. Resultados numéricos serão comparados para avaliar o efeito da especificação incorreta da função de ligação sobre as inferências em regressão beta. Adicionalmente, será introduzido um modelo de regressão beta com função de ligação de Aranda-Ordaz, a qual depende de um parâmetro que pode ser estimado através dos dados.

Year

2022-12-06T14:52:58Z

Creators

Augusto Cesar Giovanetti de Andrade

Métodos de diagnóstico em modelos autoregressivos simétricos

Os modelos autoregressivos simétricos são modelos de regressão em que os erros são correlacionados -- AR(1) -- e pertencem à classe de distribuições simétricas. O objetivo deste trabalho é discutir métodos de diagnóstico de influência para esses modelos. Para ilustrar a metodologia, são apresentados exemplos do modelo de precificação de ativos (CAPM).

Year

2022-12-06T14:52:58Z

Creators

Marcio Jose de Medeiros

Modelos mistos no mapeamento genético de fatores de risco cardiovascular em famílias brasileiras usando dados de SNPs

O estudo de doenças complexas, tais como hipertensão e glicemia, é de grande importância na área médica, pois essas doenças afetam muitas pessoas no mundo e seu padrão de variação envolve componentes ambientais, genéticos e suas possíveis interações. Para o mapeamento de genes a amostragem do genoma humano é feita por meio de plataformas de marcadores moleculares e, em geral, destacam-se duas classes de marcadores: os do tipo microsatélites e os SNPs (do inglês, Single Nucleotide Polimorphisms). Os dados de famílias são comumente analisados via modelos mistos e marcadores microsatélites de efeitos aleatórios, sendo que os estudos caso-controle com indivíduos não relacionados têm sido vinculados a dados de SNPs. Neste contexto, surge a problemática de como modelar o SNP em dados de famílias, pois o mesmo pode ser modelado como um fator fixo ou aleatório. Com a finalidade de trazer contribuições a esta discussão, um dos objetivos deste trabalho é propor um exercício de simulação e análise de dados genéticos que facilite o ensino e o entendimento de conceitos de genética e do mapeamento de genes modelados a partir de efeitos fixos ou aleatórios utilizando o software R. Além disso, na análise de dados envolvendo mapas densos de SNPs é necessário contornar o problema de múltiplos testes, e a proposta em multiestágios de Aulchenko et al. (2007) é uma alternativa de análise, na qual o efeito do SNP é modelado como um fator fixo e associado a um componente residual. Logo, surge também como desafio deste trabalho, aplicar o modelo em multiestágios para o mapeamento dos genes e discutir suas vantagens e limitações.

Year

2022-12-06T14:52:58Z

Creators

Mirian de Souza

Implementação no software estatístico R de modelos de regressão normal com parametrização geral

Este trabalho objetiva o desenvolvimento de um pacote no software estatístico R com a implementação de estimadores em modelos de regressão normal univariados com parametrização geral, uma particularidade do modelo definido em Patriota e Lemonte (2011). Essa classe contempla uma ampla gama de modelos conhecidos, tais como modelos de regressão não lineares e heteroscedásticos. São implementadas correções nos estimadores de máxima verossimilhança e na estatística de razão de verossimilhanças. Tais correções são efetivas quando o tamanho amostral é pequeno. Para a correção do estimador de máxima verossimilhança, considerou-se a correção do viés de segunda ordem, enquanto que para a estatística da razão de verossimilhanças aplicou-se a correção desenvolvida em Skovgaard (2001). Todas as funcionalidades do pacote são descritas detalhadamente neste trabalho. Para avaliar a qualidade do algoritmo desenvolvido, realizaram-se simulações de Monte Carlo para diferentes cenários, avaliando taxas de convergência, erros da estimação e eficiência das correções de viés e de Skovgaard.

Year

2022-12-06T14:52:58Z

Creators

André Casagrandi Perette

Análise de dados categorizados com omissão

Neste trabalho aborda-se aspectos teóricos, computacionais e aplicados de análises clássicas de dados categorizados com omissão. Uma revisão da literatura é apresentada enquanto se introduz os mecanismos de omissão, mostrando suas características e implicações nas inferências de interesse por meio de um exemplo considerando duas variáveis respostas dicotômicas e estudos de simulação. Amplia-se a modelagem descrita em Paulino (1991, Brazilian Journal of Probability and Statistics 5, 1-42) da distribuição multinomial para a produto de multinomiais para possibilitar a inclusão de variáveis explicativas na análise. Os resultados são desenvolvidos em formulação matricial adequada para a implementação computacional, que é realizada com a construção de uma biblioteca para o ambiente estatístico R, a qual é disponibilizada para facilitar o traçado das inferências descritas nesta dissertação. A aplicação da teoria é ilustrada por meio de cinco exemplos de características diversas, uma vez que se ajusta modelos estruturais lineares (homogeneidade marginal), log-lineares (independência, razão de chances adjacentes comum) e funcionais lineares (kappa, kappa ponderado, sensibilidade/especificidade, valor preditivo positivo/negativo) para as probabilidades de categorização. Os padrões de omissão também são variados, com omissões em uma ou duas variáveis, confundimento de células vizinhas, sem ou com subpopulações.

Year

2022-12-06T14:52:58Z

Creators

Frederico Zanqueta Poleto

Modelos estocásticos e propriedades estatísticas em mercados de alta frequência

Neste trabalho, apresentamos um conjunto de fatos empíricos e propriedades estatística de negociações em alta frequência, e discutimos algumas questões gerais comuns a dados de alta frequência tais: como discretização, espaçamento temporal irregular, durações correlacionadas, periodicidade diária, correlações temporais e as propriedades estatísticas dos fluxos de ordens. Logo apresentamos dois modelos da literatura,estilizados para a dinâmica do limit order book. No primeiro modelo os fluxo de ordens é descrito por processos de Poisson independentes, propomos para ele uma forma alternativa da prova de ergodicidade basejada em funções de Lyapunov. O segundo modelo é um modelo reduzido que toma em consideração dinâmicas tipo difusão para os tamanhos do bid e ask, e se foca só nas ordens como melhores preços, e modela explicitamente as cotações do bid e ask na presença de liquidez oculta. E por ultimo, propomos um modelo alternativo para a dinâmica do preço e do spread no limit order book, estudamos o comportamento assintótico do modelo e estabelecemos condições de ergodicidade e transitoridade. Além disso, consideramos a uma família de cadeias de Markov definidos nas sequências de caracteres (strings, ou palavras) com infinito alfabeto e para alguns exemplos inspirados nos modelos de negociações em alta frequência, obtemos condições para ergodicidade, transitoriedade e recorrência nula, para a qual usamos as técnicas de construção de funções Lyapunov.

Year

2022-12-06T14:52:58Z

Creators

Helder Alan Rojas Molina

Approximate local influence in generalized linear mixed models

Non-Gaussian correlated data are frequent in longitudinal and repeated measure studies. Generalized linear mixed models (GLMMs) are a powerful tool for the analysis and treatment of this kind of data. Residual and sensitivity analysis are useful diagnostic procedures to verify the assumptions made on these models and the adequacy to the data. Among the techniques included in the sensitivity analysis is the local influence, which allows to discriminate observations with a undue weight in the parameter estimates of any statistical model. In this work we present approximated analytical structures for local influence measurements in generalized linear mixed models. These structures were obtained through Laplace approximations for usual perturbation schemes in order to discriminate observations and subjects with excessive influence on the parameter estimates. These measures, which are presented in closed forms for the generalized linear mixed models, have a relatively low computational cost and have been shown to be effective in detection of influential observations and subjects as evidenced by simulation studies and analyses of three real data sets.

Year

2022-12-06T14:52:58Z

Creators

Sergio Alexander Gomez Noguera

Predição de fator de simultaneidade através de modelos de regressão para proporções contínuas

O fator de simultaneidade é fundamental no planejamento de redes de distribuição de gás natural. Trata-se de um multiplicador entre 0 e 1 que ajusta o consumo total teórico de um número de aparelhos de utilização em condições reais. Em 2005 o Instituto de Pesquisas Tecnológicas (IPT) e a Companhia de Gás de São Paulo (COMGÁS) realizaram um estudo no qual determinou-se o fator de simultaneidade em um conjunto de edificações residenciais. Um modelo de regressão foi proposto para expressar o fator de simultaneidade em termos da potência total instalada. O modelo ajustado pode ser utilizado para predizer o fator de simultaneidade em novas edificações. O modelo em questão é um modelo de regressão linear normal no qual a variável resposta é o logaritmo do fator de simultaneidade. Nesta dissertação, o objetivo é investigar outras possibilidades de modelos de regressão adequados aos dados obtidos pelo IPT e pela COMGÁS. Especial atenção é dada ao modelo de regressão beta proposto por Ferrari e Cribari-Neto (Journal of Applied Statistics, 2004) por possuir vantagens sobre o modelo de regressão linear normal. O modelo de regressão beta assume que, dadas as covariáveis, a variável resposta possui distribuição beta, sendo adequado para modelar dados observados no intervalo unitário. Desta forma, a transformação na variável resposta - o fator de simultaneidade - é desnecessária. Além disso, é proposta uma nova abordagem para a predição do fator de simultaneidade, diferente de todas as abordagens pesquisadas na literatura, utilizando a técnica de bootstrap.

Year

2022-12-06T14:52:58Z

Creators

Luiz Fernando Molinari Zerbinatti

Critérios robustos de seleção de modelos de regressão e identificação de pontos aberrantes

A Regressão Robusta surge como uma alternativa ao ajuste por mínimos quadrados quando os erros são contaminados por pontos aberrantes ou existe alguma evidência de violação das suposições do modelo. Na regressão clássica existem critérios de seleção de modelos e medidas de diagnóstico que são muito conhecidos. O objetivo deste trabalho é apresentar os principais critérios robustos de seleção de modelos e medidas de detecção de pontos aberrantes, assim como analisar e comparar o desempenho destes de acordo com diferentes cenários para determinar quais deles se ajustam melhor a determinadas situações. Os critérios de validação cruzada usando simulações de Monte Carlo e o Critério de Informação Bayesiano são conhecidos por desenvolver-se de forma adequada na identificação de modelos. Na dissertação confirmou-se este fato e além disso, suas alternativas robustas também destacam-se neste aspecto. A análise de resíduos constitui uma forte ferramenta da análise diagnóstico de um modelo, no trabalho detectou-se que a análise clássica de resíduos sobre o ajuste do modelo de regressão linear robusta, assim como a análise das ponderações das observações, são medidas de detecção de pontos aberrantes eficientes. Foram aplicados os critérios e medidas analisados ao conjunto de dados obtido da Estação Meteorológica do Instituto de Astronomia, Geofísica e Ciências Atmosféricas da Universidade de São Paulo para detectar quais variáveis meteorológicas influem na temperatura mínima diária durante o ano completo, e ajustou-se um modelo que permite identificar os dias associados à entrada de sistemas frontais.

Year

2022-12-06T14:52:58Z

Creators

Alia Garrudo Guirado

Árvores de decisão: a evolução do CART ao BART

O objetivo deste trabalho é apresentar a evolução do uso dos modelos de Árvore de Decisão cuja linhagem remonta ao modelo CART (Classication And RegressionTrees) apresentado na publica- ção seminal Breiman et al. (1984). O modelo CART gerou uma sequência frutífera de modelos a partir da ideia de replicação da amostra disponível (via bootstrap) e/ou multiplicação no número de árvores (ensembles) para compor um resultado nal. Passando pelo Bagging com replicação de amostras seguido das Florestas Aleatórias com a soma de múltiplas de árvores, apresentamos os modelos baseados em boosting: AdaBoost, Gradiente Boost e XGBoost. Surgidos a partir da utilização dos modelos aditivos, árvores são ajustadas em sequência onde cada árvore subsequente procura diminuir o erro cometido pela precedente e ao mesmo tempo maximizar uma função de perda que engloba o conjunto de árvores como um todo, o resultado nal é a soma de todas árvores geradas. Os modelos de árvores Bayesianas também são apresentados: árvores Bayesianas CART e árvores Bayesianas BART. Para cada modelo desenvolvemos, segundo aplicável, como a árvore é construída, estimativas de erro, funções de perda adequadas, medidas de importância de variáveis, algoritmo de cálculo e uma ilustração para entendimento. No nal mostramos resultados de simula ção e aplicações em dados reais.

Year

2022-12-06T14:52:58Z

Creators

Cleber Batista de Souza

Um estudo de métodos bayesianos para dados de sobrevivência com omissão nas covariáveis

O desenvolvimento de métodos para o tratamento de omissões nos dados é recente na estatística e tem sido alvo de muitas pesquisas. A presença de omissões em covariáveis é um problema comum na análise estatística e, em particular nos modelos de análise de sobrevivência, ocorrendo com freqüência em pesquisas clínicas, epidemiológicas e ambientais. Este trabalho apresenta propostas bayesianas para a análise de dados de sobrevivência com omissões nas covariáveis considerando modelos paramétricos da família Weibull e o modelo semi-paramétrico de Cox. Os métodos estudados foram avaliados tanto sob o enfoque paramétrico quanto o semiparamétrico considerando um conjunto de dados de portadores de insuficiência cardíaca. Além disso, é desenvolvido um estudo para avaliar o impacto de diferentes proporções de omissão.

Year

2022-12-06T14:52:58Z

Creators

Demerson Andre Polli