RCAAP Repository

Modelo fatorial com cargas funcionais para séries temporais

No contexto dos modelos fatoriais existem diferentes metodologias para abordar a modelagem de séries temporais multivariadas que exibem uma estrutura não estacionária de segunda ordem, co- movimentos e transições no tempo. Modelos com mudanças estruturais abruptas e restrições rigorosas (muitas vezes irreais) nas cargas fatoriais, quando elas são funções determinísticas no tempo, foram propostos na literatura para lidar com séries multivariadas que possuem essas características. Neste trabalho, apresentamos um modelo fatorial com cargas variando continuamente no tempo para modelar séries temporais não estacionárias e um procedimento para sua estimação que consiste em dois estágios. No primeiro, os fatores latentes são estimados empregando os componentes principais das séries observadas. Em um segundo estágio, tratamos estes componentes principais como co-variáveis e as cargas funcionais são estimadas através de funções de ondaletas e mínimos quadrados generalizados. Propriedades assintóticas dos estimadores de componentes principais e de mínimos quadrados dos coeficientes de ondaletas são apresentados. O desempenho da metodologia é ilustrado através de estudos de simulação. Uma aplicação do modelo proposto no mercado spot de energia do Nord Pool é apresentado.

Year

2018

Creators

Duvan Humberto Cataño Salazar

Monitoramento de séries de contagem por meio de gráficos de controle

Na área da saúde, várias abordagens nos últimos anos têm sido propostas baseadas nos gráficos de controle CUSUM para a detecção de epidemias infecciosas em que a caraterística a ser monitorada é uma série temporal de dados de contagem, como o número de internações. Neste trabalho foram implementados os modelos lineares generalizados (MLG) no monitoramento, por meio dos gráficos CUSUM e Shewhart, da série do número diário de internações por causas respiratórias para pessoas com 65 anos ou mais residentes no município de São Paulo. Por meio de simulações, avaliaram-se a eficiência de cinco estatísticas diferentes para detectar mudanças na média em séries de contagem. Uma das abordagens consistiu na implementação de três transformações normalizadoras simples que dependem unicamente dos parâmetros das distribuições Poisson e binomial negativa: a transformação Rossi para dados com distribuição Poisson, a transformação Jorgensen para dados com distribuição binomial negativa e os sesíduos de Anscombe para modelos lineares generalizados. As duas últimas estatísticas já foram propostas como gráficos CUSUM: o Método Rogerson e Yamada (2004) é apresentado para dados com distribuição Poisson e neste trabalho foi proposto um novo parâmetro kt para dados binomial negativa; já o método proposto por Hohle (2007) é baseado na função de verossimilhança da distribuição binomial negativa. Utilizando limites de controle para obter um valor ARL0 = 500 sob normalidade, monitorou-se via simulação a série de interesse, implementando as transformações normalizadoras. Entretanto, utilizando-se esses limiares observa-se um maior número de alarmes falsos para as três estatísticas. Modificando o parâmetro k do gráfico CUSUM permitindo que variasse ao longo do tempo a série foi monitorada e foram obtidos valores ARL0 próximos a 500. Os gráficos CUSUM baseados no método Rogerson e Yamada e na estatística da razão de verossimilhanças para dados com distribuição binomial negativa mostraram, via simulação, bons resultados para detectar mudanças na média. As suposições de normalidade e independência das estatísticas normalizadoras, em geral omitidas em trabalhos publicados na literatura, foram avaliadas e comprova-se que as transformações não normalizam os dados, porém são independentes e estacionárias. Analisando os dados reais, as estatísticas apresentaram autocorrelação significativa no lag 7. Devido à persistência desta autocorrelação, foi proposta uma abordagem baseada no ajuste do modelo GARMA.

Year

2014

Creators

Orlando Yesid Esparza Albarracin

Diagnóstico em regressão L1

Este texto apresenta um método alternativo de regressão que é denominado regressão L1. Este método é robusto com relação a outliers na variável Y enquanto o método tradicional, mínimos quadrados, não oferece robustez a este tipo de outlier. Neste trabalho reanalisaremos os dados sobre imóveis apresentados por Narula e Wellington (1977) à luz da regressão L1. Ilustraremos os principais resultados inferenciais como: interpretação do modelo, construção de intervalos de confiança e testes de hipóteses para os parâmetros, análise de medidas de qualidade do ajuste do modelo e também utilizaremos medidas de diagnóstico para destacar observações influentes. Dentre as medidas de influência utilizaremos a diferença de verossimilhanças e a diferença de verossimilhanças condicional.

Year

2019

Creators

Kévin Allan Sales Rodrigues

Estudos de simetria na associação genética usando dados de trios

O grande desafio da Epidemiologia Genética, atualmente, é identificar, em um espaço de variáveis preditoras de alta dimensão e esparso, fatores de risco genéticos para doenças complexas. Um delineamento amostral útil nestes estudos é coletar dados de trios, que são pequenos núcleos familiares (pai e mãe, livres da doença, e filho afetado) e, em cada indivíduo, obter dados do genótipo de marcadores moleculares, sendo a plataforma de marcadores do tipo SNPs (do inglês, Single Nucleotide Polymorphism), com cerca de 1 milhão de variáveis preditoras genéticas, a mais adotada. Neste trabalho é proposto um procedimento em múltiplos estágios para identificar SNPs associados com a doença em dados de trios. A primeira etapa do procedimento é baseada em uma série de análises unilocos (para cada variável preditora), usando um teste de simetria em tabelas de contingência 2 x 2 (conhecido, em Genética, como teste TDT, do inglês, Transmission Disequilibrium Test). Em um segundo estágio da análise, os resultados destes testes são usados para construir uma estatística de somas acumuladas padronizadas (CUSUM) que permite a seleção de conjuntos de SNPs (isto é, conjuntos de variáveis preditoras), possivelmente associados com a doença. Como um terceiro passo da análise, nas regiões selecionadas no passo dois, são realizadas análises de simetria via testes exatos considerando tabelas 2 x 2 e 4 x 4 (pares de SNPs). A formulação do TDT em termos de testes de simetria é uma inovação na área de Genética e facilita a extensão do caso uniloco para o multilocos. A contribuição deste trabalho reside ainda na formulação exata do teste que é útil em situações de amostras pequenas que ocorrem com frequência em dados de trios. Neste caso inferências parciais foram realizadas a partir de decomposições apropriadas da função de verossimilhança. A modelagem do problema em termos do modelo logístico permitiu concluir que não é necessário corrigir a associação para o efeito de covariáveis avaliadas nos pais. O procedimento é implementado usando recursos dos aplicativos PLINK e R. A aplicação é realizada utilizando dados de 71 trios da população brasileira, em que os indivíduos caso (filhos) foram definidos em termos da ocorrência de uma cardiopatia e, em cada um dos 213 indivíduos, estão disponíveis dados genéticos de uma plataforma de SNPs.

Year

2011

Creators

Maria Jacqueline Batista

Análise de normalização e significância em experimentos baseados em Proteômica

A análise de dados ômicos vem se expandindo nos últimos anos e com isso tornou-se necessário desenvolver técnicas estatísticas para análise desse tipo de dados. Pensando nos estudos proteômicos, baseados na análise de espectrometria de massas, nota-se que com a grande quantidade de informação coletada a utilização de técnicas de normalização e significância são fundamentais para comparação e identificação de variáveis com comportamento diferencial, podendo auxiliar no desenvolvimento de novos tratamentos. Este trabalho teve como objetivo propor novas técnicas de normalização e significância que levem em consideração a estrutura em que os dados foram coletados para comparar diferentes métodos de preparação de amostras (os quais serão então analisadas para quantificação das proteínas e peptídeos) em busca do mais preciso, além de interpretar as diferentes fontes de variação impostas pelo delineamento do experimento. Como resultados do estudo observou-se que as técnicas propostas neste trabalho foram eficazes na normalização dos dados e na identificação de variáveis significantes, observando ainda diferenças entre os resultados obtidos pelas técnicas propostas com os resultados baseados na metodologia de normalização TIC. Além disso, notou-se que o método IGD (em gel) no geral apresentou as menores quantificações e o método ISD (em solução) se mostrou o mais preciso.

Year

2021

Creators

Ana Carolina da Cruz

Análise geoestatística multi-pontos

Estimativa e simulação baseados na estatística de dois pontos têm sido usadas desde a década de 1960 na análise geoestatístico. Esses métodos dependem do modelo de correlação espacial derivado da bem conhecida função semivariograma. Entretanto, a função semivariograma não pode descrever a heterogeneidade geológica encontrada em depósitos minerais e reservatórios de petróleo. Assim, ao invés de usar a estatística de dois pontos, a geoestatística multi-pontos, baseada em distribuições de probabilidade de múltiplo pontos, tem sido considerada uma alternativa confiável para descrição da heterogeneidade geológica. Nessa tese, o algoritmo multi-ponto é revisado e uma nova solução é proposta. Essa solução é muito melhor que a original, pois evita usar as probabilidades marginais quando um evento que nunca ocorre é encontrado no template. Além disso, para cada realização a zona de incerteza é ressaltada. Uma base de dados sintética foi gerada e usada como imagem de treinamento. A partir dessa base de dados completa, uma amostra com 25 pontos foi extraída. Os resultados mostram que a aproximação proposta proporciona realizações mais confiáveis com zonas de incerteza menores.

Year

2013

Creators

Joan Neylo da Cruz Rodriguez

Alguns métodos de amostragem para populações raras e agrupadas 

Em diversos levantamentos científicos, nos deparamos com a dificuldade de coletar os dados devido ao objeto em estudo ser de difícil observação, como por exemplo em estudos com indivíduos portadores de doenças raras, ou dotados de um comportamento evasivo, ou ainda indivíduos que distribuem-se de maneira geograficamente esparsa. Neste trabalho estudamos esquemas de amostragem voltados para populações raras com especial atenção às populações raras e agrupadas. Nos aprofundamos nas técnicas de amostragem por conglomerados adaptativos e amostragem seqüencial em dois estágios, fornecendo ao leitor subsídio teórico para entender os fundamentos das técnicas, bem como compreender a eficácia de seus estimadores apresentada em estudos de simulações. Em nossos estudos de simulação, mostramos que a técnica de amostragem seqüencial em dois estágios não apresenta perdas de eficiência quando o agrupamento dos elementos é menor. Entretanto, os estudos comparativos revelam que quando a população é rara e agrupada, a eficiência para a amostragem por conglomerados adaptativos é maior na maioria das parametrizações utilizadas. Ao final deste trabalho, fornecemos recomendações para as situações a respeito do conhecimento da raridade e agrupamento da população em estudo.

Year

2008

Creators

Luis Henrique Teixeira Alves Affonso

Alguns métodos robustos para detectar outliers multivariados

Observações ou outliers estão quase sempre presentes em qualquer conjunto de dados, seja ele grande ou pequeno. Isso pode ocorrer por erro no armazenamento dos dados ou por existirem realmente alguns pontos diferentes dos demais. A presença desses pontos pode causar distorções nos resultados de modelos e estimativas. Por isso, a sua detecção é muito importante e deve ser feita antes do início de uma análise mais profunda dos dados. Após esse diagnóstico, pode-se tomar uma decisão a respeito dos pontos atípicos. Uma possibilidade é corrigi-los caso tenha ocorrido erro na transcrição dos dados. Caso sejam pontos válidos, eles devem ser tratados de forma diferente dos demais, seja com uma ponderação, seja com uma análise especial. Nos casos univariado e bivariado, o outlier pode ser detectado analisando-se o gráfico de dispersão que mostra o comportamento de cada observação do conjunto de dados de interesse. Se houver pontos distantes da massa de dados, eles devem ser considerados atípicos. No caso multivariado, a detecção por meio de gráficos torna-se um pouco mais complexa porque a análise deveria ser feita observando-se duas variáveis por vez, o que tornaria o processo longo e pouco confiável, pois um ponto pode ser atípico com relação a algumas variáveis e não ser com relação a outras, o que faria com que o resultado ficasse mascarado. Neste trabalho, alguns métodos robustos para detecção de outliers em dados multivariados são apresentados. A aplicação de cada um dos métodos é feita para um exemplo. Além disso, os métodos são comparados de acordo com o resultado que cada um apresentar para o exemplo em questão e via simulação.

Year

2008

Creators

Fabíola Rocha de Santana Giroldo

Utilização de "softwares" estatísticos na interpretação de hipóteses com dados desbalanceados

Este trabalho teve como objetivo a estruturação de hipóteses e somas de quadrados a elas associadas, com dados desbalanceados, visando orientar a utilização de alguns pacotes estatísticos por usuários não iniciados em estatística. Para tanto, foram revistos métodos de análise de dados desbalanceados, e adotado o modelo estatístico: y = Xe + e, com e sem interação. No desenvolvimento da metodologia, foram estabelecidas as expressões analíticas correspondentes às hipóteses e somas de quadrados associadas, sobre linhas, colunas e interações, bem como, sobre os métodos computacionais envolvidos nas mesmas. Ainda nesse tópico, foram descritos doze pacotes estatísticos, e suas principais características relativamente a tais hipóteses e somas de quadrados foram apresentadas. Através de exemplo numérico, mostrou-se o desempenho desses pacotes no trato com dados desbalanceados, com algumas caselas vazias, expondo-se suas hipóteses e somas de quadrados associadas; e apresentou-se uma comparação entre os resultados por eles fornecidos.

Year

1994

Creators

Eufrazio de Souza Santos

Modelos de mudanças markovianas de regimes aplicados a séries temporais financeiras

O presente trabalho investiga como os modelos de mudanças markovianas de regimes podem ser aplicados ao estudo de séries temporais financeiras. Como será mostrado, os modelos de mudanças markovianas de regimes conseguem captar características peculiares que são encontradas nas séries financeiras, intimamemte associadas à hipótese de não linearidade das séries financeiras. Estas características seriam impossíveis de serem descritas através da abordagem linear gaussiana tradicional

Year

1998

Creators

Luiz Alberto Rabi Junior

Autômato celular probabilista, modelos unidimensionais de trânsito e teoria de filas

Modelos de trânsito de partículas aparecem na vida real e têm se convertido numa área de pesquisa muito ativa. embora bastante estudados, desde 1992, com a publicação do artigo de Nagel-Schreckembrg, por meio de simulações computacionais e por diversos métodos teóricos aproximados como os modelos de campo médio, existem poucos resultados rigorosos.Mostramos resultados rigorosos para vários modelos de trânsito. Provamos a existência de transição de fase e propriedades assintóticas para o autômato celular 184 e para o modelo de Fukui-Ishibashi, que generaliza o autômato 184, permitindo movimento de partículas velozes. Introduzimos um autômato celular probabilista que resgata as propriedades dos modelos de Schadschneider-Schreckenberg, conhecidos como autômatos com regras slow-to-star. Provamos a existência de transição de fase, encontramos o fluxo assintótico. Introduzimos o autômato celular probabilista com distribuição inicial a medida produto de Bernoulli de densidade p e de dinâmica de evolução dada por: cada partícula espera um tempo aleatório que tem distribuição geométrica de parâmetro p para mover-se pela primeira vez. Após este tempo, as partículas movem-se com velocidade 1 para sempre ou, em caso contrário, se deterão (várias partículas podem ocupar o mesmo sítio) se encontrarem alguma partícula parada na sua frente que bloqueie seu movimento. Neste caso as velocidades das partículas voltarão para 0 e as partículas ficarão bloqueadas até que a partícula ou as partículas que bloqueiam seus caminhos tenham partido. A partir deste instante, a partícula não bloqueada espera mais um tempo aleatório com distribuição geométrica para mover-se. Finalmente, introduziremos um modelo de trânsito de partículas que é contínuo no tempo e no espaço, que denominaremos Modelo Pontual.

Year

2005

Creators

Fredy Walter Castellares Cáceres

Calibração controlada aplicada na química analítica

O modelo de calibração usual, utilizado para estimar a concentração de um elemento químico presente em uma amostra, supõe que a variável independente é fixada e isenta de erro. No entanto, em aplicações na química analítica, essa variável está sujeita a erros proveninetes do processo de preparação das soluções-padrão. Neste trabalho, propomos modelos de calibração homoscedástico e heterocedástico que além de incorporar o erro na variável consideram observações controladas. Apresentamos métodos para a obtenção de incertezas expandidas associadas à concentração das soluções-padrão. Ilustramos e comparamos os modelos propostos com o modelo usual por meio de estudos de simulação e aplicações utilizando conjunto de dados reai

Year

2005

Creators

Betsabé Grimalda Blas Achic