RCAAP Repository

Melhor preditor empírico aplicado aos modelos beta mistos

Os modelos beta mistos são amplamente utilizados na análise de dados que apresentam uma estrutura hierárquica e que assumem valores em um intervalo restrito conhecido. Com o objetivo de propor um método de predição dos componentes aleatórios destes, os resultados previamente obtidos na literatura para o preditor de Bayes empírico foram estendidos aos modelos de regressão beta com intercepto aleatório normalmente distribuído. O denominado melhor preditor empírico (MPE) proposto tem aplicação em duas situações diferentes: quando se deseja fazer predição sobre os efeitos individuais de novos elementos de grupos que já fizeram parte da base de ajuste e quando os grupos não pertenceram à tal base. Estudos de simulação foram delineados e seus resultados indicaram que o desempenho do MPE foi eficiente e satisfatório em diversos cenários. Ao utilizar-se da proposta na análise de dois bancos de dados da área da saúde, observou-se os mesmos resultados obtidos nas simulações nos dois casos abordados. Tanto nas simulações, quanto nas análises de dados reais, foram observados bons desempenhos. Assim, a metodologia proposta se mostrou promissora para o uso em modelos beta mistos, nos quais se deseja fazer predições.

Year

2022-12-06T14:52:58Z

Creators

Ana Paula Zerbeto

Distribuições de probabilidade no intervalo unitário

A distribuição beta é a mais frequentemente utilizada para a modelagem de dados contínuos observados no intervalo unitário, como taxas e proporções. Embora seja flexível, admitindo formas variadas, tais como J, J invertido, U e unimodal, não é adequada em todas as situações práticas. Nesta dissertação fazemos uma revisão sobre distribuições contínuas no intervalo unitário englobando as distribuições beta, Kumaraswamy, simplex, gama unitária e beta retangular. Também abordamos uma ampla classe de distribuições obtida por transformações (Smithson e Merkle, 2013). Em particular, focamos em duas subclasses, uma apresentada e estudada por Lemonte e Bazán (2015), que chamaremos de classe de distribuições logito, e outra que chamaremos de classe de distribuições logito skew. Todas as distribuições consideradas são aplicadas a conjuntos de dados do Banco Mundial.

Year

2022-12-06T14:52:58Z

Creators

Francimário Alves de Lima

Análise de dados categorizados com omissão em variáveis explicativas e respostas

Nesta tese apresentam-se desenvolvimentos metodológicos para analisar dados com omissão e também estudos delineados para compreender os resultados de tais análises. Escrutinam-se análises de sensibilidade bayesiana e clássica para dados com respostas categorizadas sujeitas a omissão. Mostra-se que as componentes subjetivas de cada abordagem podem influenciar os resultados de maneira não-trivial, independentemente do tamanho da amostra, e que, portanto, as conclusões devem ser cuidadosamente avaliadas. Especificamente, demonstra-se que distribuições \\apriori\\ comumente consideradas como não-informativas ou levemente informativas podem, na verdade, ser bastante informativas para parâmetros inidentificáveis, e que a escolha do modelo sobreparametrizado também tem um papel importante. Quando há omissão em variáveis explicativas, também é necessário propor um modelo marginal para as covariáveis mesmo se houver interesse apenas no modelo condicional. A especificação incorreta do modelo para as covariáveis ou do modelo para o mecanismo de omissão leva a inferências enviesadas para o modelo de interesse. Trabalhos anteriormente publicados têm-se dividido em duas vertentes: ou utilizam distribuições semiparamétricas/não-paramétricas, flexíveis para as covariáveis, e identificam o modelo com a suposição de um mecanismo de omissão não-informativa, ou empregam distribuições paramétricas para as covariáveis e permitem um mecanismo mais geral, de omissão informativa. Neste trabalho analisam-se respostas binárias, combinando um mecanismo de omissão informativa com um modelo não-paramétrico para as covariáveis contínuas, por meio de uma mistura induzida pela distribuição \\apriori\\ de processo de Dirichlet. No caso em que o interesse recai apenas em momentos da distribuição das respostas, propõe-se uma nova análise de sensibilidade sob o enfoque clássico para respostas incompletas que evita suposições distribucionais e utiliza parâmetros de sensibilidade de fácil interpretação. O procedimento tem, em particular, grande apelo na análise de dados contínuos, campo que tradicionalmente emprega suposições de normalidade e/ou utiliza parâmetros de sensibilidade de difícil interpretação. Todas as análises são ilustradas com conjuntos de dados reais.

Year

2022-12-06T14:52:58Z

Creators

Frederico Zanqueta Poleto

Estudos sobre um modelo estocástico para a evolução de uma espécie

Apresentamos um modelo estocástico para a evolução de uma espécie pelo processo de seleção natural. Compreender bem o processo evolutivo é de fundamental importância para a biologia, pois é através dele que as espécies e a vida se transformaram ao longo do tempo até chegarmos no mundo como conhecemos hoje. Detalhamos um resultado encontrado na literatura, e também introduzimos algumas variações e sugestões para aprimorar a modelagem original. O modelo proposto é interessante por conta de sua simplicidade e capacidade de capturar aspectos qualitativos esperados segundo as teorias biológicas.

Year

2022-12-06T14:52:58Z

Creators

Renata Stella Khouri

Utilização de análise de componentes principais em séries temporais

Um dos principais objetivos da análise de componentes principais consiste em reduzir o número de variáveis observadas em um conjunto de variáveis não correlacionadas, fornecendo ao pesquisador subsídios para entender a variabilidade e a estrutura de correlação dos dados observados com uma menor quantidade de variáveis não correlacionadas chamadas de componentes principais. A técnica é muito simples e amplamente utilizada em diversos estudos de diferentes áreas. Para construção, medimos a relação linear entre as variáveis observadas pela matriz de covariância ou pela matriz de correlação. Entretanto, as matrizes de covariância e de correlação podem deixar de capturar importante informações para dados correlacionados sequencialmente no tempo, autocorrelacionados, desperdiçando parte importante dos dados para interpretação das componentes. Neste trabalho, estudamos a técnica de análise de componentes principais que torna possível a interpretação ou análise da estrutura de autocorrelação dos dados observados. Para isso, exploramos a técnica de análise de componentes principais para o domínio da frequência que fornece para dados autocorrelacionados um resultado mais específico e detalhado do que a técnica de componentes principais clássica. Pelos métodos SSA (Singular Spectrum Analysis) e MSSA (Multichannel Singular Spectrum Analysis), a análise de componentes principais é baseada na correlação no tempo e entre as diferentes variáveis observadas. Essas técnicas são muito utilizadas para dados atmosféricos na identificação de padrões, tais como tendência e periodicidade.

Year

2022-12-06T14:52:58Z

Creators

Sérgio Coichev Teixeira

Modelos de regressão beta-binomial/poisson para contagens bivariadas

Propomos um modelo Beta-Binomial/Poisson para dados provenientes de um estudo com doentes de Parkinson, que consistiu em contar durante um minuto quantas tarefas foram realizadas e destas, quantas de maneira correta, antes e depois de um treinamento. O objetivo era verificar se o treinamento aumentava o número de tentativas e a porcentagem de acerto, o que destaca o aspecto bivariado do problema. Esse modelo considera tal aspecto, usa uma distribuição mais adequada a dados de contagem e ainda suporta a sobredispersão presente nos dados. Obtemos estimadores de máxima verossimilhança dos parâmetros utilizando um algoritmo de Newton-Raphson. Ilustramos a aplicação da metodologia desenvolvida aos dados do estudo.

Year

2022-12-06T14:52:58Z

Creators

Mayra Ivanoff Lora

Taxas exponenciais de convergência na lei multidimensional dos grandes números: uma abordagem construtiva

Neste trabalho apresentamos condições suficientes para a obtenção de taxas exponenciais de convergência na lei multidimensional dos grandes números para campos aleatórios definidos em R^Z_d. Dentre possíveis aplicações do resultado apresentamos medidas não-gibbsianas e não-FKG (limites de saturaçãoo de processos de estacionamento) e medidas estacionárias originárias de sistemas de partículas (rede com perdas, incluindo o caso onde há interação de longo alcance com cauda pesada).

Year

2022-12-06T14:52:58Z

Creators

Geraldine Góes Bosco

Ajustes para o teste da razão de verossimilhanças em modelos de regressão beta

O presente trabalho considera o problema de fazer inferência com acurácia para pequenas amostras, tomando por base a estatística da razão de verossimilhanças em modelos de regressão beta. Estes, por sua vez, são úteis para modelar proporções contínuas que são afetadas por variáveis independentes. Deduzem-se as estatísticas da razão de verossimilhanças ajustadas de Skovgaard (Scandinavian Journal of Statistics 28 (2001) 3-32) nesta classe de modelos. Os termos do ajuste, que têm uma forma simples e compacta, podem ser implementados em um software estatístico. São feitas simulações de Monte Carlo para mostrar que a inferência baseada nas estatísticas ajustadas propostas é mais confiável do que a inferência usual baseada na estatística da razão de verossimilhanças. Aplicam-se os resultados a um conjunto real de dados.

Year

2022-12-06T14:52:58Z

Creators

Eliane Cantinho Pinheiro

FBST seqüencial

O FBST (Full Bayesian Significance Test) é um instrumento desenvolvido por Pereira e Stern (1999) com o objetivo de apresentar uma alternativa bayesiana aos testes de hipóteses precisas. Desde sua introdução, o FBST se mostrou uma ferramenta muito útil para a solução de problemas para os quais não havia soluções freqüentistas. Esse teste, contudo, depende de que a amostra seja coletada uma única vez, após o que a distribuição a posteriori dos parâmetros é obtida e a medida de evidência, calculada. Ensejadas por esse aspecto, são apresentadas abordagens analíticas e computacionais para a extensão do FBST ao contexto de decisão seqüencial (DeGroot, 2004). É apresentado e analisado um algoritmo para a execução do FBST Seqüencial, bem como o código-fonte de um software baseado nesse algoritmo.

Year

2022-12-06T14:52:58Z

Creators

Marcelo Leme de Arruda

Um modelo Bayesiano semi-paramétrico para o monitoramento ``on-line\" de qualidade de Taguchi para atributos

Este modelo contempla o cenário em que a sequência de frações não-conformes no decorrer de um ciclo do processo de produção aumenta gradativamente (situação comum, por exemplo, quando o desgaste de um equipamento é gradual), diferentemente dos modelos de Taguchi, Nayebpour e Woodall e Nandi e Sreehari (1997), que acomodam sequências de frações não-conformes assumindo no máximo três valores, e de Nandi e Sreehari (1999) e Trindade, Ho e Quinino (2007) que contemplam funções de degradação mais simples. O desenvolvimento é baseado nos trabalhos de Ferguson e Antoniak para o cálculo da distribuição a posteriori de uma medida P desconhecida, associada a uma função de distribuição F desconhecida que representa a sequência de frações não-conformes ao longo de um ciclo, supondo, a priori, mistura de Processos Dirichlet. A aplicação consiste na estimação da função de distribuição F e as estimativas de Bayes são analisadas através de alguns casos particulares

Year

2022-12-06T14:52:58Z

Creators

Miriam Harumi Tsunemi

Regressão quantílica para dados censurados

A regressão quantílica para dados censurados é uma extensão dos modelos de regressão quantílica que, por levar em consideração a informação das observações censuradas na modelagem, e por apresentar propriedades bastante satisfatórias, pode ser vista como uma abordagem complementar às metodologias tradicionais em Análise de Sobrevivência, com a vantagem de permitir que as conclusões inferenciais sejam tomadas facilmente em relação aos tempos de sobrevivência propriamente ditos, e não em relação à taxa de riscos ou a uma função desse tempo. Além disso, em alguns casos, pode ser vista também como metodologia alternativa aos modelos clássicos quando as suposições destes são violadas ou quando os dados são heterogêneos. Apresentam-se nesta dissertação três técnicas para modelagem com regressão quantílica para dados censurados, que se diferenciam em relação às suas suposições e forma de estimação dos parâmetros. Um estudo de simulação para comparação das três técnicas para dados com distribuição normal, Weibull e log-logística é apresentado, em que são avaliados viés, erro padrão e erro quadrático médio. São discutidas as vantagens e desvantagens de cada uma das técnicas e uma delas é aplicada a um conjunto de dados reais do Instituto do Coração do Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo.

Year

2022-12-06T14:52:58Z

Creators

Louise Rossi Rasteiro

Utilidade para testes de significância

Neste trabalho discutimos os principais argumentos da inferência bayesiana subjetivista. Posteriormente, a partir de uma revisão da literatura dos testes de hipóteses, os principais testes são analisados sob a ótica da teoria da decisão, particularmente no que tange às hipóteses precisas. Adicionalmente, funções de perda para testes de significância, seguindo a proposta de Fisher e do FBST, são analisadas e comparadas.

Year

2022-12-06T14:52:58Z

Creators

Nathália Demetrio Vasconcelos Moura

Modelagem de dados de longa duração baseada em processos de nascimento e morte latentes

Esse trabalho contribui com o desenvolvimento de um novo modelo para dados de sobrevivência com sobreviventes de longo termo visando uma formulação e interpretação mais realista do que a apresentada pelos modelos com fração de curados usuais. Motivados pelo estudo do tempo de sobrevivência residual para pacientes oncológicos, o modelo usa o processo de nascimento e morte para permitir a variação do número de fatores de risco latentes durante um período precedente ao acompanhamento médico, considerando, então, um cenário de riscos competitivos para obtenção da função da sobrevivência (imprópria) dos pacientes. Simulações a aplicações à dados do Instituto do Câncer do Estado de São Paulo mostraram vantagens sobre o modelo de tempos de promoção.

Year

2022-12-06T14:52:58Z

Creators

Victor Silva Ritter

Análise discriminante com mistura de variáveis categóricas e contínuas

O objetivo do trabalho é apresentar os métodos mais consagrados de Análise Discriminante quando temos uma mistura de variáveis categóricas e contínuas.

Year

2022-12-06T14:52:58Z

Creators

Rene Sanda

Métodos de predição para modelo logístico misto com k efeitos aleatórios

A predição de uma observação futura para modelos mistos é um problema que tem sido extensivamente estudado. Este trabalho trata o problema de atribuir valores para os efeitos aleatórios e/ou variável resposta de novos grupos para o modelo logístico misto, cujo objetivo é predizer respostas futuras com base em parâmetros estimados previamente. Na literatura, existem alguns métodos de predição para este modelo que considera apenas o intercepto aleatório. Para a regressão logística mista com k efeitos aleatórios, atualmente não há métodos propostos para a predição dos efeitos aleatórios de novos grupos. Portanto, foram propostas novas abordagens baseadas no método da média zero, no melhor preditor empírico (MPE), na regressão linear e nos modelos de regressão não-paramétricos. Todos os métodos de predição foram avaliados usando os seguintes métodos de estimação: aproximação de Laplace, quadratura adaptativa de Gauss-Hermite e quase-verossimilhança penalizada. Os métodos de estimação e predição foram analisados por meio de estudos de simulação, com base em sete cenários, com comparações de diferentes valores para: o tamanho de grupo, os desvios-padrão dos efeitos aleatórios, a correlação entre os efeitos aleatórios, e o efeito fixo. Os métodos de predição foram aplicados em dois conjuntos de dados reais. Em ambos os problemas os conjuntos de dados apresentaram estrutura hierárquica, cujo objetivo foi predizer a resposta para novos grupos. Os resultados indicaram que o método MPE apresentou o melhor desempenho em termos de predição, entretanto, apresentou alto custo computacional para grandes bancos de dados. As demais metodologias apresentaram níveis de predição semelhantes ao MPE, e reduziram drasticamente o esforço computacional.

Year

2022-12-06T14:52:58Z

Creators

Karin Ayumi Tamura

Considerações sobre o procedimento de regressão em cristas

Em modelos de regressão, o método de Regressão em Cristas é uma alternativa ao método de mínimos quadrados em situações em que há multicolinearidade, consequência da existência de relações lineares entre as variáveis explicativas. Essa dissertação tem como objetivo apresentar atualizações ao trabalho realizado por (Oishi, 1983) sobre Regressão em Cristas. Inicialmente, é apresentado o procedimento de Regressão em Cristas, que consiste na adição de uma constante k denotada por parâmetro das cristas, na diagonal principal da matriz X^X, as propriedades e uma generalização do método. Em seguida, serão apresentadas diferentes maneiras de estimação de k e uma discussão sobre inferência para os coeficientes de regressão e também é realizado um estudo de simulação para testar a eficiência dos intervalos de confiança para os coeficientes construídos através do método de bootstrap. Por último, é feita uma aplicação dos procedimentos descritos em um conjunto de dados reais.

Year

2022-12-06T14:52:58Z

Creators

Robert Plant Pinto Santos

Finite mixture of regression models

This dissertation consists of three articles, proposing extensions of finite mixtures in regression models. Here we consider a flexible class of both univariate and multivariate distributions, which allow adequate modeling of asymmetric data that have multimodality, heavy tails and outlying observations. This class has special cases such as skew-normal, skew-t, skew-slash and skew normal contaminated distributions, as well as symmetric cases. Initially, a model is proposed based on the assumption that the errors follow a finite mixture of scale mixture of skew-normal (FM-SMSN) distribution rather than the conventional normal distribution. Next, we have a censored regression model where we consider that the error follows a finite mixture of scale mixture of normal (SMN) distribution. Next, we propose a censored regression model where we consider that the error follows a finite mixture of scale mixture of normal (SMN) distribution. Finally, we consider a finite mixture of multivariate regression where the error has a multivariate SMSN distribution. For all proposed models, two R packages were developed, which are reported in the appendix.

Year

2022-12-06T14:52:58Z

Creators

Luis Enrique Benites Sánchez

Modelos INAR e RCINAR, estimação e aplicação

Neste trabalho primeiramente apresentamos um modelo para uma sequência estacionária de valores inteiros (processo de contagem) autoregressivo de ordem p (INAR(p)). Depois disso, mos- traremos uma extensão desse processo, chamado modelo autoregressivo inteiro com coeficientes aleatórios (RCINAR(p)) . Para ambos os modelos, apresentamos suas propriedades assim como diferentes métodos de estimação de seus parâmetros. Os resultados da simulação e comparação dos estimadores são mostrados. Finalmente os modelos são aplicados em dois conjuntos de dados reais: Número mensal de empresas em falência; Número mensal de consultas no bureau de crédito.

Year

2022-12-06T14:52:58Z

Creators

Tiago de Almeida Cerqueira Lima

Detecção de anomalias, interpolação e previsão em tempo real de séries temporais para operação de reservatórios e distribuição de água

Desenvolvemos uma solução via análise de séries temporais visando resolver um problema recorrente em Centros de Controle Operacionais de distribuição de água: anomalias em dados recebidos das estações de telemetria em tempo real para tomadas de decisão. A solução desenvolvida consiste em fazer detecção de outliers, reconstrução de valores omissos e previsão. Para tanto, foram utilizadas séries temporais geradas por equipamentos de medição de nível, vazões de entrada e de saídas do reservatório e de pressões a montante e a jusante de válvulas que controlam o fluxo de água. Os dados, referentes ao sistema de distribuição de água da cidade de Peruíbe, foram fornecidos pela Sabesp da Baixada Santista e sua amostragem temporal é a cada hora, indo das 1:00 do dia 1º de janeiro de 2017 até às 23:00 do dia 31 de dezembro de 2018. Para a detecção de outliers e preenchimento de valores omissos, foram propostos procedimentos que usam três técnicas principais: ajuste de curvas via regressão, decomposição clássica junto a regressão e decomposição STL. Já para previsão, foram utilizadas técnicas de rolling analysis em combinação com modelos SARIMA, modelos de regressão com erros auto correlacionados e modelos BATS e TBATS. Os resultados demonstraram que os métodos propostos, tanto para detecção de outliers e preenchimento de valores omissos, como para a previsão, possuem desempenhos muito bons para a maioria das séries.

Year

2022-12-06T14:52:58Z

Creators

Leonardo Fonseca Larrubia

Equação de estimação generalizada e influência local para modelos de regressão beta com medidas repetidas

Utilizando a teoria de função de estimação linear ótima (Crowder, 1987), propomos equações de estimação generalizadas para modelos de regressão beta (Ferrari e Cribari-Neto, 2004) com medidas repetidas. Além disso, apresentamos equações de estimação generalizadas para modelos de regressão simplex baseadas nas propostas de Song e Tan (2000) e Song et al. (2004) e equações de estimação generalizadas para modelos lineares generalizados com medidas repetidas baseadas nas propostas de Artes e Jorgensen (2000) e Liang e Zeger (1986). Todas essas equações de estimação são desenvolvidas sob os enfoques da modelagem da média com homogeneidade da dispersão e da modelagem conjunta da média e da dispersão com intuito de incorporar ao modelo uma possível heterogeneidade da dispersão. Como técnicas de diagnóstico, desenvolvemos uma generalização de algumas medidas de diagnóstico quando abordamos quaisquer equações de estimação definidas tanto para modelagem do parâmetro de posição considerando a homogeneidade do parâmetro de dispersão como para modelagem conjunta dos parâmetros de posição e dispersão. Entre essas medidas, destacamos a proposta da influência local (Cook, 1986) desenvolvida para equações de estimação. Essa medida teve um bom desempenho, em simulações, para destacar corretamente pontos influentes. Por fim, realizamos aplicações a conjuntos de dados reais.

Year

2022-12-06T14:52:58Z

Creators

Maria Kelly Venezuela