Repositório RCAAP

Implementação em R de modelos de regressão binária com ligação paramétrica

A análise de dados binários é usualmente feita através da regressão logística, mas esse modelo possui limitações. Modificar a função de ligação da regressão permite maior flexibilidade na modelagem e diversas propostas já foram feitas nessa área. No entanto, não se sabe de nenhum pacote estatístico capaz de estimar esses modelos, o que dificulta sua utilização. O presente trabalho propõe uma implementação em R de quatro modelos de regressão binária com função de ligação paramétrica usando tanto a abordagem frequentista como a Bayesiana.

Ano

2013

Creators

Bernardo Pereira dos Santos

Modelagem de dados de resposta ao item sob efeito de speededness

Em testes nos quais uma quantidade considerável de indivíduos não dispõe de tempo suciente para responder todos os itens temos o que é chamado de efeito de Speededness. O uso do modelo unidimensional da Teoria da Resposta ao Item (TRI) em testes com speededness pode nos levar a uma série de interpretações errôneas uma vez que nesse modelo é suposto que os respondentes possuem tempo suciente para responder todos os itens. Nesse trabalho, desenvolvemos uma análise Bayesiana do modelo tri-dimensional da TRI proposto por Wollack e Cohen (2005) considerando uma estrutura de dependência entre as distribuições a priori dos traços latentes a qual modelamos com o uso de cópulas. Apresentamos um processo de estimação para o modelo proposto e fazemos um estudo de simulação comparativo com a análise realizada por Bazan et al. (2010) na qual foi utilizada distribuições a priori independentes para os traços latentes. Finalmente, fazemos uma análise de sensibilidade do modelo em estudo e apresentamos uma aplicação levando em conta um conjunto de dados reais proveniente de um subteste do EGRA, chamado de Nonsense Words, realizado no Peru em 2007. Nesse subteste os alunos são avaliados por via oral efetuando a leitura, sequencialmente, de 50 palavras sem sentidos em 60 segundos o que caracteriza a presença do efeito speededness.

Ano

2016

Creators

Joelson da Cruz Campos

Análise Bayesiana de modelos de mistura finita com dados censurados

Misturas finitas são modelos paramétricos altamente flexíveis, capazes de descrever diferentes características dos dados em vários contextos, especialmente na análise de dados heterogêneos (Marin, 2005). Geralmente, nos modelos de mistura finita, todas as componentes pertencem à mesma família paramétrica e são diferenciadas apenas pelo vetor de parâmetros associado a essas componentes. Neste trabalho, propomos um novo modelo de mistura finita, capaz de acomodar observações censuradas, no qual as componentes são as densidades das distribuições Gama, Lognormal e Weibull (mistura GLW). Essas densidades são reparametrizadas, sendo reescritas em função da média e da variância, uma vez que estas quantidades são mais difundidas em diversas áreas de estudo. Assim, construímos o modelo GLW e desenvolvemos a análise de tal modelo sob a perspectiva bayesiana de inferência. Essa análise inclui a estimação, através de métodos de simulação, dos parâmetros de interesse em cenários com censura e com fração de cura, a construção de testes de hipóteses para avaliar efeitos de covariáveis e pesos da mistura, o cálculo de medidas para comparação de diferentes modelos e estimação da distribuição preditiva de novas observações. Através de um estudo de simulação, avaliamos a capacidade da mistura GLW em recuperar a distribuição original dos tempos de falha utilizando testes de hipóteses e estimativas do modelo. Os modelos desenvolvidos também foram aplicados no estudo do tempo de seguimento de pacientes com insuficiência cardíaca do Instituto do Coração da Faculdade de Medicina da Universidade de São Paulo. Nesta aplicação, os resultados mostram uma melhor adequação dos modelos de mistura em relação à utilização de apenas uma distribuição na modelagem dos tempos de seguimentos. Por fim, desenvolvemos um pacote para o ajuste dos modelos apresentados no software R.

Ano

2017

Creators

Brian Alvarez Ribeiro de Melo

Non-asymptotic exact distribution for hitting times

The time elapsed until the first occurrence of an observable in a realization of a stochastic process is a classic object of study. It is a known result that the distribution of the hitting time, when properly rescaled, converges to an exponential law. In this work, we present the exact form of the distribution of the hitting time of a fixed finite sequence in an independent and identically distributed process, which is defined over a finite or countable alphabet. That is, we get the result that is not just asymptotic. We show that the exact distribution of the hitting time is a sum of exponentials. We prove that this sum has a dominant term and that the others converge to zero.

Ano

2020

Creators

Julia Faria Codas

O problema generalizado do dominó

Em um jogo de dominó clássico, com 7 símbolos possíveis e 2 símbolos por peça, qual a probabilidade de que duas peças escolhidas ao acaso e sem reposição se encaixem? A resolução desse problema prevê separar o conjunto de peças entre aquelas que possuem dois símbolos iguais (chamaremos de simétricas) e as que possuem símbolos distintos (não-simétricas) e calcular a probabilidade em cada caso. Numa generalização do problema, temos uma quantidade a de símbolos possíveis tomados de um conjunto finito A qualquer e peças constituídas já não de 2, mas de n símbolos tomados desse conjunto. Estamos interessados em encontrar, dadas duas peças escolhidas sem reposição, o tamanho máximo do encaixe entre elas.

Ano

2020

Creators

Kayo Douglas da Silva

Análise bayesiana do modelo fatorial dinâmico para um vetor de séries temporais usando distribuições elípticas.

A análise fatorial é uma importante ferramenta estatística que tem amplas aplicações práticas e explica a correlação entre um grande número de variáveis observáveis em termos de um pequeno número de variáveis não observáveis, conhecidas como variáveis latentes. A proposta deste trabalho é fazer a análise Bayesiana, que incorpora à análise o conhecimento que se tenha sobre os parâmetros antes da coleta dos dados, do modelo fatorial dinâmico na classe de modelos elípticos multivariados, assumindo que a um vetor de q séries temporais pode-se ajustar um modelo fatorial com k < q fatores mais um ruído branco, e que a parte latente segue um modelo vetorial auto-regressivo. A classe de modelos elípticos citada acima é rica em distribuições simétricas com caudas mais pesadas que as da distribuição normal, característica importante na análise de séries financeiras. Essa classe inclui as distribuições t de Student, exponencial potência, normal contaminada, entre outras. A inferência sobre os parâmetros foi feita utilizando métodos de Monte Carlo via Cadeias de Markov, com os algoritmos Metropolis-Hastings e Griddy-Gibbs, através da obtenção das distribuições a posteriori dos parâmetros e dos fatores. A determinação da convergência do processo foi feita por técnicas gráficas e pelos métodos de Geweke (1992), de Heidelberger e Welch (1983) e Half-Width. O método foi ilustrado usando dados reais e simulados.

Ano

2008

Creators

Livia Costa Borges

Testes para avaliação das previsões do valor em risco

Neste trabalho, apresentamos alguns métodos para avaliação das previsões do Valor em Risco (VaR). Estes métodos testam um tipo de eficiência, denominada cobertura condicional correta. O poder empírico e a probabilidade do erro de tipo I são comparados através de simulações de Monte Carlo. Além disso, avaliamos um novo método de previsão do VaR, o qual é aplicado nos retornos diários do Ibovespa. Os resultados obtidos mostram que a nova classe de testes, baseados em uma regressão Weibull discreta, em muitos casos, tem poder empírico maior comparando com outros métodos apresentados neste trabalho.

Ano

2015

Creators

Jaime Enrique Lincovil Curivil

Evolução de espécies: modelos estocásticos para seleção natural por meio de competição e mutação

Apresentamos nesse trabalho uma proposta de dois modelos aleatórios para a evolução de espécies. O primeiro para a evolução via seleção natural por meio de competição entre espécies e o segundo por mutação. No primeiro caso consideramos uma versão do modelo proposto por Guiol, Machado e Schinazi no caso subcrítico. Para tal modelo derivamos a distribuição da aptidão de sobrevivência ao meio do indivíduo mais forte ao longo de uma excursão ao zero. Para o segundo modelo proposto, consideramos a mutação como uma estratégia para sobrevivência ao meio e provamos condições para sobrevivência e morte quando o modelo evolui sobre a árvore binária orientada com raiz, provando a existência de transição de fase no modelo.

Ano

2016

Creators

Carolina Bueno Grejo

Predições estatísticas para dados politômicos

Este trabalho generaliza a partição da distribuição de Bernoulli multivariada em distribuições de Bernoulli e como esta partição leva a um modelo de regressão e a um classificador para dados politômicos. Como ponto de partida, desejamos explicitar a função de ligação para os modelos de regressão multinomial e escrevê-la a partir de funções de distribuição, como feito no caso binomial, a fim de flexibilizá-la para além da logito usual. Para isso, estudamos as fatorações da Bernoulli multivariada em Bernoullis, bem como a multinomial em binomiais, a fim de explicitar como as funções de distribuição podem desempenhar um papel na ligação entre o espaço das covariáveis e o vetor de probabilidades. Basu & Pereira (1982) exploram tais fatorações em um problema de não resposta e Pereira & Stern (2008) as generalizam para uma classe de fatorações. Este trabalho propõe uma simplificação tanto da regressão multinomial - agregando a flexibilidade do caso binomial -, quanto da classificação politômica, no sentido de decompor o problema politômico em dicotômicos através da generalização da classe de fatorações. Um problema computacional surge pois tal classe pode ter um número muito grande de elementos distintos de acordo com o número de categorias e, assim, duas propostas são feitas para buscar uma que minimiza os riscos de classificação binomial envolvidos, passo-a-passo. A motivação para este trabalho é apresentada a fim de se estudar as performances de tais modelos de regressão e classificadores. Partimos de um problema da área médica, mais especificamente em transtorno obsessivo-compulsivo, em que desejamos classificar um indivíduo a fim de obter um fenótipo mais puro de tal transtorno e de modelá-lo a fim de buscar as covariáveis que estão relacionadas com tal fenótipo, a partir de um conjunto de dados reais.

Ano

2018

Creators

Guaraci de Lima Requena

Uma introdução ao processo de nascimento e assassinato

Esse texto tem como foco passar pelos resultados apresentados por Aldous e Krebs sobre o Processo de Nascimento e Assassinato, dando atenção nas passagens omitidas por esses autores. Junto a isso, por motivos didáticos, passaremos por alguns resultados importantes do Processo de Ramificação com o intuito de trazer intuição para os resultados postos para o Processo de Nascimento e Assassinato. Com isso posto, apresentaremos o principal resultado a respeito da criticidade do Processo de Nascimento e Assassinato, e faremos então uma demonstração para esse resultado. Seguindo com o texto, iremos então passar a tratar de 4 casos particulas desse resultado, para quando temos a distribuição de assassinato fixadas.

Ano

2021

Creators

Adriano Gonçalves Lima

Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos

A corrupção no Brasil afeta diretamente o bem-estar dos cidadãos ao diminuir os investimentos públicos na saúde, na educação, em infraestrutura, segurança, habitação, entre outros direitos essenciais à vida. A democratização da internet e a evolução da ciência de dados nos permitiu avaliar a relação de irregularidades administrativas, no caso deste trabalho palavras negativas, e mudanças em indicadores sociais sobre municípios. Desenvolvemos um algoritmo (web scraper) que automatiza a captura dos relatórios da auditoria da CGU e analisamos a polaridade das palavras presentes nos relatórios separadamente. Obtivemos os dados socioeconômicos no censo do IBGE em dois períodos e criamos modelos de aprendizado de máquina para predição do percentual de polaridade negativa por município baseado nos dados do IBGE. Para se avaliar a qualidade de um modelo complexo é importante ter um modelo simples como parâmetro de desempenho base, realizamos o treinamento de três modelos (regressão linear, random forest e xgboost) sobre a base de dados criada. As principais contribuições deste trabalho foram a extração automatizada dos dados governamentais, encontrar evidência estatística da relação entre os dados dos relatórios e dos dados socioeconômicos de fontes distintas e modelos de aprendizado de máquina funcionais para o problema proposto.

Ano

2020

Creators

Lucas Peinado Bruscato

Modelos de regressão quantílica

Este trabalho trata de modelos de regressão quantílica. Foi feita uma introdução a essa classe de modelos para motivar a discussão. Em seguida, conceitos inferenciais, como estimação, intervalos de confiança, testes de hipóteses para os parâmetros são discutidos, acompanhados de alguns estudos de simulação. Para analisar a qualidade do ajuste, são apresentados o coeficiente de determinação e um teste de falta de ajuste para modelos de regressão quantílica. Também é proposta a utilização de gráficos para análise da qualidade do ajuste considerando a distribuição Laplace Assimétrica. Uma aplicação utilizando um banco de dados com informação sobre renda no Brasil foi utilizado para exemplificar os tópicos discutidos durante o texto.

Ano

2012

Creators

Bruno Ramos dos Santos

Teste de hipóteses para grafos aleatórios com aplicação à neurociência

Recentemente, a teoria de grafos aleatórios vem sendo aplicada para modelar interações neurais do cérebro. Enquanto as propriedades dos grafos aleatórios vem sendo vastamente estudadas na literatura, o desenvolvimento de métodos de inferência estatística para essa classe de objetos tem recebido menos atenção. Nesse trabalho propomos um teste de hipóteses não paramétrico para testar se duas amostras de grafos aleatórios provém da mesma distribuição de probabilidade. Nós provamos como computar de maneira eficiente a estatística do teste e estudamos o desempenho do teste em dados simulados de grafos. A principal motivação deste trabalho é a aplicação do teste proposto em dados de eletroencefalograma.

Ano

2014

Creators

Andressa Cerqueira

Refinamentos assintóticos em modelos lineares generalizados heteroscedáticos

Nesta tese, desenvolvemos refinamentos assintóticos em modelos lineares generalizados heteroscedásticos (Smyth, 1989). Inicialmente, obtemos a matriz de covariâncias de segunda ordem dos estimadores de máxima verossimilhança corrigidos pelos viés de primeira ordem. Com base na matriz obtida, sugerimos modificações na estatística de Wald. Posteriormente, derivamos os coeficientes do fator de correção tipo-Bartlett para a estatística do teste gradiente. Em seguida, obtemos o coeficiente de assimetria assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Finalmente, exibimos o coeficiente de curtose assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Analisamos os resultados obtidos através de estudos de simulação de Monte Carlo.

Ano

2017

Creators

Fabiana Uchôa Barros

Inferência para o modelo Bernoulli na presença de adversários

A teoria da decisão com adversários se originou na tentativa de solucionar problemas na área de aprendizado de máquina. Nessa teoria, supõe-se a existência de adversários que têm como intuito a perturbação dos dados (ou do mecanismo gerador dos mesmos). Uma vez que ela é baseada em inferência bayesiana, a todas as incertezas são atreladas medidas de probabilidade, inclusive às possíveis ações realizadas por adversários. No entanto, pela natureza aplicada da teoria, ela foi criada e estudada com enfoque na teoria da decisão, sem muita preocupação com formalismos na área de estatística. Assim, o objetivo desse trabalho foi estudar elementos inferenciais importantes, como a estimação pontual e o teste de hipóteses para o modelo Bernoulli na presença de adversários. Ilustramos como essas alterações impactam a estimativa pontual e o teste de hipótese bayesiano, além da própria distribuição dos dados observáveis e de componentes importantes, como o comportamento do risco bayesiano e regiões críticas.

Ano

2021

Creators

Victor Junji Takara

Transformações em dados composicionais para a aplicação da análise de componentes principais

A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais.

Ano

2016

Creators

Ricardo Matioli Messias

Uma abordagem bayesiana para o método de controle on-line de Taguchi para atributos

Nesse trabalho, apresentaremos o método econômico desenvolvido por Taguchi para monitoramento on line da qualidade para atributos. O propósito deste método é obter o intervalo de inspeção que minimiza o custo esperado por item produzido em um processo industrial. Em seguida, mostraremos o modelo alternativo proposto por Nayebpour e Woodall (1993) e a derivação dos estimadores de máxima verossimilhança e de Bayes desenvolvida por Borges, Esteves e Wechsler (2005). Finalmente, apresentaremos uma nova solução para o problema de determinação do intervalo de inspeção ótimo sob a perspectiva da Teoria de Decisão Bayesiana. A última solução será ilustrada com alguns exemplos.

Ano

2008

Creators

Leyla Costa Ramos

Estimação de medidas de risco utilizando modelos CAViaR e CARE

Neste trabalho são definidos, discutidos e estimados o Valor em Risco e o Expected Shortfall. Estas são medidas de Risco Financeiro de Mercado muito utilizadas por empresas e investidores para o gerenciamento do risco, aos quais podem estar expostos. O objetivo foi apresentar e utilizar vários métodos e modelos para a estimação dessas medidas e estabelecer qual o modelo mais adequado dentro de determinados cenários.

Ano

2010

Creators

Francyelle de Lima e Silva

Análise de campo médio para um modelo epidêmico via passeios aleatórios em um grafo

Estudamos sistemas de passeios aleatórios sobre os vértices de um grafo completo. Inicialmente há uma partícula em cada vértice do grafo das quais somente uma está ativa, as outras estão inativas. A partícula ativa realiza um passeio aleatório simples a tempo discreto com tempo de vida que depende do passado do processo, movendo-se ao longo de elos. Quando uma partícula ativa encontra uma inativa, esta se ativa; quando salta sobre um vértice já visitado, morre. O objetivo desta dissertação é estudar a cobertura do grafo completo, ou seja, a proporção de vértices visitados ao fim do processo, quando o número $n$ de vértices tende ao infinito. Analisamos as equações de campo médio para o processo descrito acima, comparando os seus resultados com os do modelo aleatório. Aqui, os resultados do campo médio parecem reproduzir os do modelo aleatório. Depois, apresentamos um estudo similar entre o modelo estocástico e as equações de campo médio para o caso em que cada partícula possui 2 vidas. Finalmente, observamos a cobertura do grafo completo para as equações de campo médio quando o número de vidas por partículas é maior que dois.

Ano

2007

Creators

Renato Jacob Gava

Verossimilhança hierárquica em modelos de fragilidade

Os métodos de estimação para modelos de fragilidade vêm sendo bastante discutidos na literatura estatística devido a sua grande utilização em estudos de Análise de Sobrevivência. Vários métodos de estimação de parâmetros dos modelos foram desenvolvidos: procedimentos de estimação baseados no algoritmo EM, cadeias de Markov de Monte Carlo, processos de estimação usando verossimilhança parcial, verossimilhança penalizada, quasi-verossimilhança, entro outros. Uma alternativa que vem sendo utilizada atualmente é a utilização da verossimilhança hierárquica. O objetivo principal deste trabalho foi estudar as vantagens e desvantagens da verossimilhança hierárquica para a inferência em modelos de fragilidade em relação a verossimilhança penalizada, método atualmente mais utilizado. Nós aplicamos as duas metodologias a um banco de dados real, utilizando os pacotes estatísticos disponíveis no software R, e fizemos um estudo de simulação, visando comparar o viés e o erro quadrático médio das estimativas de cada abordagem. Pelos resultados encontrados, as duas metodologias apresentaram estimativas muito próximas, principalmente para os termos fixos. Do ponto de vista prático, a maior diferença encontrada foi o tempo de execução do algoritmo de estimação, muito maior na abordagem hierárquica.

Ano

2015

Creators

William Nilson de Amorim