Repositório RCAAP
Testes para avaliação das previsões do valor em risco
Neste trabalho, apresentamos alguns métodos para avaliação das previsões do Valor em Risco (VaR). Estes métodos testam um tipo de eficiência, denominada cobertura condicional correta. O poder empírico e a probabilidade do erro de tipo I são comparados através de simulações de Monte Carlo. Além disso, avaliamos um novo método de previsão do VaR, o qual é aplicado nos retornos diários do Ibovespa. Os resultados obtidos mostram que a nova classe de testes, baseados em uma regressão Weibull discreta, em muitos casos, tem poder empírico maior comparando com outros métodos apresentados neste trabalho.
2015
Jaime Enrique Lincovil Curivil
Evolução de espécies: modelos estocásticos para seleção natural por meio de competição e mutação
Apresentamos nesse trabalho uma proposta de dois modelos aleatórios para a evolução de espécies. O primeiro para a evolução via seleção natural por meio de competição entre espécies e o segundo por mutação. No primeiro caso consideramos uma versão do modelo proposto por Guiol, Machado e Schinazi no caso subcrítico. Para tal modelo derivamos a distribuição da aptidão de sobrevivência ao meio do indivíduo mais forte ao longo de uma excursão ao zero. Para o segundo modelo proposto, consideramos a mutação como uma estratégia para sobrevivência ao meio e provamos condições para sobrevivência e morte quando o modelo evolui sobre a árvore binária orientada com raiz, provando a existência de transição de fase no modelo.
Predições estatísticas para dados politômicos
Este trabalho generaliza a partição da distribuição de Bernoulli multivariada em distribuições de Bernoulli e como esta partição leva a um modelo de regressão e a um classificador para dados politômicos. Como ponto de partida, desejamos explicitar a função de ligação para os modelos de regressão multinomial e escrevê-la a partir de funções de distribuição, como feito no caso binomial, a fim de flexibilizá-la para além da logito usual. Para isso, estudamos as fatorações da Bernoulli multivariada em Bernoullis, bem como a multinomial em binomiais, a fim de explicitar como as funções de distribuição podem desempenhar um papel na ligação entre o espaço das covariáveis e o vetor de probabilidades. Basu & Pereira (1982) exploram tais fatorações em um problema de não resposta e Pereira & Stern (2008) as generalizam para uma classe de fatorações. Este trabalho propõe uma simplificação tanto da regressão multinomial - agregando a flexibilidade do caso binomial -, quanto da classificação politômica, no sentido de decompor o problema politômico em dicotômicos através da generalização da classe de fatorações. Um problema computacional surge pois tal classe pode ter um número muito grande de elementos distintos de acordo com o número de categorias e, assim, duas propostas são feitas para buscar uma que minimiza os riscos de classificação binomial envolvidos, passo-a-passo. A motivação para este trabalho é apresentada a fim de se estudar as performances de tais modelos de regressão e classificadores. Partimos de um problema da área médica, mais especificamente em transtorno obsessivo-compulsivo, em que desejamos classificar um indivíduo a fim de obter um fenótipo mais puro de tal transtorno e de modelá-lo a fim de buscar as covariáveis que estão relacionadas com tal fenótipo, a partir de um conjunto de dados reais.
2018
Guaraci de Lima Requena
Uma introdução ao processo de nascimento e assassinato
Esse texto tem como foco passar pelos resultados apresentados por Aldous e Krebs sobre o Processo de Nascimento e Assassinato, dando atenção nas passagens omitidas por esses autores. Junto a isso, por motivos didáticos, passaremos por alguns resultados importantes do Processo de Ramificação com o intuito de trazer intuição para os resultados postos para o Processo de Nascimento e Assassinato. Com isso posto, apresentaremos o principal resultado a respeito da criticidade do Processo de Nascimento e Assassinato, e faremos então uma demonstração para esse resultado. Seguindo com o texto, iremos então passar a tratar de 4 casos particulas desse resultado, para quando temos a distribuição de assassinato fixadas.
Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
A corrupção no Brasil afeta diretamente o bem-estar dos cidadãos ao diminuir os investimentos públicos na saúde, na educação, em infraestrutura, segurança, habitação, entre outros direitos essenciais à vida. A democratização da internet e a evolução da ciência de dados nos permitiu avaliar a relação de irregularidades administrativas, no caso deste trabalho palavras negativas, e mudanças em indicadores sociais sobre municípios. Desenvolvemos um algoritmo (web scraper) que automatiza a captura dos relatórios da auditoria da CGU e analisamos a polaridade das palavras presentes nos relatórios separadamente. Obtivemos os dados socioeconômicos no censo do IBGE em dois períodos e criamos modelos de aprendizado de máquina para predição do percentual de polaridade negativa por município baseado nos dados do IBGE. Para se avaliar a qualidade de um modelo complexo é importante ter um modelo simples como parâmetro de desempenho base, realizamos o treinamento de três modelos (regressão linear, random forest e xgboost) sobre a base de dados criada. As principais contribuições deste trabalho foram a extração automatizada dos dados governamentais, encontrar evidência estatística da relação entre os dados dos relatórios e dos dados socioeconômicos de fontes distintas e modelos de aprendizado de máquina funcionais para o problema proposto.
Modelos de regressão quantílica
Este trabalho trata de modelos de regressão quantílica. Foi feita uma introdução a essa classe de modelos para motivar a discussão. Em seguida, conceitos inferenciais, como estimação, intervalos de confiança, testes de hipóteses para os parâmetros são discutidos, acompanhados de alguns estudos de simulação. Para analisar a qualidade do ajuste, são apresentados o coeficiente de determinação e um teste de falta de ajuste para modelos de regressão quantílica. Também é proposta a utilização de gráficos para análise da qualidade do ajuste considerando a distribuição Laplace Assimétrica. Uma aplicação utilizando um banco de dados com informação sobre renda no Brasil foi utilizado para exemplificar os tópicos discutidos durante o texto.
Teste de hipóteses para grafos aleatórios com aplicação à neurociência
Recentemente, a teoria de grafos aleatórios vem sendo aplicada para modelar interações neurais do cérebro. Enquanto as propriedades dos grafos aleatórios vem sendo vastamente estudadas na literatura, o desenvolvimento de métodos de inferência estatística para essa classe de objetos tem recebido menos atenção. Nesse trabalho propomos um teste de hipóteses não paramétrico para testar se duas amostras de grafos aleatórios provém da mesma distribuição de probabilidade. Nós provamos como computar de maneira eficiente a estatística do teste e estudamos o desempenho do teste em dados simulados de grafos. A principal motivação deste trabalho é a aplicação do teste proposto em dados de eletroencefalograma.
Refinamentos assintóticos em modelos lineares generalizados heteroscedáticos
Nesta tese, desenvolvemos refinamentos assintóticos em modelos lineares generalizados heteroscedásticos (Smyth, 1989). Inicialmente, obtemos a matriz de covariâncias de segunda ordem dos estimadores de máxima verossimilhança corrigidos pelos viés de primeira ordem. Com base na matriz obtida, sugerimos modificações na estatística de Wald. Posteriormente, derivamos os coeficientes do fator de correção tipo-Bartlett para a estatística do teste gradiente. Em seguida, obtemos o coeficiente de assimetria assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Finalmente, exibimos o coeficiente de curtose assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Analisamos os resultados obtidos através de estudos de simulação de Monte Carlo.
Inferência para o modelo Bernoulli na presença de adversários
A teoria da decisão com adversários se originou na tentativa de solucionar problemas na área de aprendizado de máquina. Nessa teoria, supõe-se a existência de adversários que têm como intuito a perturbação dos dados (ou do mecanismo gerador dos mesmos). Uma vez que ela é baseada em inferência bayesiana, a todas as incertezas são atreladas medidas de probabilidade, inclusive às possíveis ações realizadas por adversários. No entanto, pela natureza aplicada da teoria, ela foi criada e estudada com enfoque na teoria da decisão, sem muita preocupação com formalismos na área de estatística. Assim, o objetivo desse trabalho foi estudar elementos inferenciais importantes, como a estimação pontual e o teste de hipóteses para o modelo Bernoulli na presença de adversários. Ilustramos como essas alterações impactam a estimativa pontual e o teste de hipótese bayesiano, além da própria distribuição dos dados observáveis e de componentes importantes, como o comportamento do risco bayesiano e regiões críticas.
Transformações em dados composicionais para a aplicação da análise de componentes principais
A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais.
2016
Ricardo Matioli Messias
Uma abordagem bayesiana para o método de controle on-line de Taguchi para atributos
Nesse trabalho, apresentaremos o método econômico desenvolvido por Taguchi para monitoramento on line da qualidade para atributos. O propósito deste método é obter o intervalo de inspeção que minimiza o custo esperado por item produzido em um processo industrial. Em seguida, mostraremos o modelo alternativo proposto por Nayebpour e Woodall (1993) e a derivação dos estimadores de máxima verossimilhança e de Bayes desenvolvida por Borges, Esteves e Wechsler (2005). Finalmente, apresentaremos uma nova solução para o problema de determinação do intervalo de inspeção ótimo sob a perspectiva da Teoria de Decisão Bayesiana. A última solução será ilustrada com alguns exemplos.
Estimação de medidas de risco utilizando modelos CAViaR e CARE
Neste trabalho são definidos, discutidos e estimados o Valor em Risco e o Expected Shortfall. Estas são medidas de Risco Financeiro de Mercado muito utilizadas por empresas e investidores para o gerenciamento do risco, aos quais podem estar expostos. O objetivo foi apresentar e utilizar vários métodos e modelos para a estimação dessas medidas e estabelecer qual o modelo mais adequado dentro de determinados cenários.
2010
Francyelle de Lima e Silva
Análise de campo médio para um modelo epidêmico via passeios aleatórios em um grafo
Estudamos sistemas de passeios aleatórios sobre os vértices de um grafo completo. Inicialmente há uma partícula em cada vértice do grafo das quais somente uma está ativa, as outras estão inativas. A partícula ativa realiza um passeio aleatório simples a tempo discreto com tempo de vida que depende do passado do processo, movendo-se ao longo de elos. Quando uma partícula ativa encontra uma inativa, esta se ativa; quando salta sobre um vértice já visitado, morre. O objetivo desta dissertação é estudar a cobertura do grafo completo, ou seja, a proporção de vértices visitados ao fim do processo, quando o número $n$ de vértices tende ao infinito. Analisamos as equações de campo médio para o processo descrito acima, comparando os seus resultados com os do modelo aleatório. Aqui, os resultados do campo médio parecem reproduzir os do modelo aleatório. Depois, apresentamos um estudo similar entre o modelo estocástico e as equações de campo médio para o caso em que cada partícula possui 2 vidas. Finalmente, observamos a cobertura do grafo completo para as equações de campo médio quando o número de vidas por partículas é maior que dois.
Verossimilhança hierárquica em modelos de fragilidade
Os métodos de estimação para modelos de fragilidade vêm sendo bastante discutidos na literatura estatística devido a sua grande utilização em estudos de Análise de Sobrevivência. Vários métodos de estimação de parâmetros dos modelos foram desenvolvidos: procedimentos de estimação baseados no algoritmo EM, cadeias de Markov de Monte Carlo, processos de estimação usando verossimilhança parcial, verossimilhança penalizada, quasi-verossimilhança, entro outros. Uma alternativa que vem sendo utilizada atualmente é a utilização da verossimilhança hierárquica. O objetivo principal deste trabalho foi estudar as vantagens e desvantagens da verossimilhança hierárquica para a inferência em modelos de fragilidade em relação a verossimilhança penalizada, método atualmente mais utilizado. Nós aplicamos as duas metodologias a um banco de dados real, utilizando os pacotes estatísticos disponíveis no software R, e fizemos um estudo de simulação, visando comparar o viés e o erro quadrático médio das estimativas de cada abordagem. Pelos resultados encontrados, as duas metodologias apresentaram estimativas muito próximas, principalmente para os termos fixos. Do ponto de vista prático, a maior diferença encontrada foi o tempo de execução do algoritmo de estimação, muito maior na abordagem hierárquica.
2015
William Nilson de Amorim
Modelos de regressão para variáveis categóricas ordinais com aplicações ao problema de classificação
Neste trabalho, apresentamos algumas metodologias para analisar dados que possuem variável resposta categórica ordinal. Descrevemos os principais Modelos de Regressão conhecidos atualmente que consideram a ordenação das categorias de resposta, entre eles: Modelos Cumulativos e Modelos Sequenciais. Discutimos também o problema de discriminação e classificação de elementos em grupos ordinais, comentando sobre os preditores mais comuns para dados desse tipo. Apresentamos ainda a técnica de Análise Discriminante Ótima e sua versão aprimorada, baseada na utilização de métodos bootstrap. Por fim, aplicamos algumas das técnicas descritas a dados reais da área financeira, com o intuito de classificar possíveis clientes, no momento da aquisição de um cartão de crédito, como futuros bons, médios ou maus pagadores. Para essa aplicação, discutimos as vantagens e desvantagens dos modelos utilizados em termos de qualidade da classificação.
2008
Roberta Irie Sumi Okura
Estatística gradiente: teoria assintótica de alta ordem e correção tipo-Bartlett
Obtemos uma expansão assintótica da função de distribuição sob a hipótese nula da estatística gradiente para testar hipóteses nulas compostas na presença de parâmetros de perturbação. Esta expansão é derivada utilizando uma rota Bayesiana baseada no argumento de encolhimento descrito em Ghosh e Mukerjee (1991). Usando essa expansão, propomos uma estatística gradiente corrigida por um fator de correção tipo-Bartlett, que tem distribuição qui-quadrado até um erro de ordem o(n-1) sob a hipótese nula. A partir disso, determinamos fórmulas matriciais e algébricas que auxiliam na obtenção da estatística gradiente corrigida em modelos lineares generalizados com dispersão conhecida e desconhecida. Simulações de Monte Carlo são apresentadas. Finalmente, discutimos a obtenção de regiões de credibilidade via inversão da estatística gradiente. Caracterizamos as densidades a priori, matching priors, que asseguram propriedades de cobertura frequentista acuradas para essas regiões.
Comparação e escolha de agrupamentos: uma proposta utilizando a entropia
A análise de agrupamentos (cluster analysis) é o conjunto de ferramentas estatísticas de análise multivariada para encontrar ou revelar a existência de grupos em uma amostra. A literatura apresenta muitos métodos para particionar um conjunto de dados. Porém, ao utilizá-los, o pesquisador muitas vezes se depara com o problema de decidir em quantos grupos deverá ser feita essa divisão, bem como comparar agrupamentos obtidos por diferentes métodos estabelecendo quão semelhantes eles são. Neste trabalho é feita uma revisão dos principais métodos de comparação de agrupamentos e é apresentada uma nova técnica para a escolha do número ideal de grupos, baseada na diferença de entropias. Afim de avaliá-la, estudos de simulação foram realizados comparando-a com outras técnicas conhecidas: a estatística Gap e a silhueta média. Os resultados indicaram que a nova proposta é tão ou mais eficiente que as demais, no sentido de encontrar o número correto de grupos. Além disso, ela também é computacionalmente mais rápida e de simples implementação. Duas aplicações a dados reais são apresentadas, ambas na área de genética.
2007
Estevão Freitas de Souza
Modelos mistos aditivos semiparamétricos de contornos elípticos
Neste trabalho estendemos os modelos mistos semiparamétricos propostos por Zhang et al. (1998) para uma classe mais geral de modelos, a qual denominamos modelos mistos aditivos semiparamétricos com erros de contornos elípticos. Com essa nova abordagem, flexibilizamos a curtose da distribuição dos erros possibilitando a escolha de distribuições com caudas mais leves ou mais pesadas do que as caudas da distribuição normal padrão. Funções de verossimilhança penalizadas são aplicadas para a obtenção das estimativas de máxima verossimilhança com os respectivos erros padrão aproximados. Essas estimativas, sob erros de caudas pesadas, são robustas no sentido da distância de Mahalanobis contra observações aberrantes. Curvaturas de influência local são obtidas segundo alguns esquemas de perturbação e gráficos de diagnóstico são propostos. Exemplos ilustrativos são apresentados em que ajustes sob erros normais são comparados, através das metodologias de sensibilidade desenvolvidas no trabalho, com ajustes sob erros de contornos elípticos.
2009
Germán Mauricio Ibacache Pulgar
Directed wavelet covariance for locally stationary processes
The main goal of this study is to propose a methodology that measures directed relations between locally stationary processes. Unlike stationary processes, locally stationary processes may present sudden pattern changes and have local characteristics in specific intervals. This behavior causes instability in measures based on Fourier transforms. The relevance of this study relies on considering these processes and propose robust methodologies that are not affected by outliers, sudden pattern changes or local behavior. We start reviewing the Partial Directed Coherence (PDC) and the Wavelet Coherence. PDC measures the directed relation between components of a multivariate stationary Vector Autoregressive (VAR) model in the frequency domain, while Wavelet Coherence is based on complex wavelets decomposition. We then propose a causal wavelet decomposition of the covariance structure for bivariate locally stationary processes: the Directed Wavelet Covariance (DWC). Compared to Fourier-based quantities, wavelet-based estimators are more appropriate for non-stationary processes and processes with local patterns, outliers and rapid regime changes like in EEG experiments with the introduction of stimuli. We then propose its estimators and calculate its expectation and analyze its variance. Next we propose a decomposition for the variance of multivariate processes with more than two components: the Partial Directed Wavelet Covariance (pDWC). Considering a N-variate locally stationary process, the pDWC calculates the Directed Wavelet Covariance of X_1(t) with X_2(t) eliminating the effect of the other components X_3(t), ... ,X_N(t). We propose two approaches to this situation. First we filter the multivariate process to remove all the exogenous influences and then we calculate the directed relation between the components. In the second case, as in Partial Directed Coherence, we consider the multivariate process as a time-varying Vector Autoregressive Model (tv-VAR) and use its coefficients in the decomposition of the covariance function to isolate the effects of the other components. We also compare results of the PDC, Wavelet Coherence and Directed Wavelet Covariance with simulated data. Finally, we present an application of the proposed Directed Wavelet Covariance and Partial Directed Wavelet Covariance on EEG data. Simulation results show that the proposed measures capture the simulated relations. The pDWC with linear filter has shown more stable estimations than the proposed pDWC considering the tv-VAR. Future studies will discuss the DWC\'s and pDWC\'s asymptotic distributions and significance tests. The proposed Directed Wavelet Covariance decomposition is a different approach to deal with non-stationary processes in the context of causality. The use of wavelets is a gain and adds to the number of studies that can be addressed when Fourier transform does not apply. The pDWC is an alternative for multivariate processes and it removes linear influences from observed external components.
2018
Kim Samejima Mascarenhas Lopes
Programação genética: operadores de crossover, blocos construtivos e emergência semântica
Os algoritmos evolutivos são métodos heurísticos utilizados para a solução de problemas de otimização e que possuem mecanismos de busca inspirados nos conceitos da Teoria de Evolução das Espécies. Entre os algoritmos evolutivos mais populares, estão os Algoritmos Genéticos (GA) e a Programação Genética (GP). Essas duas técnicas possuem como ponto em comum o uso pesado do operador de recombinação, ou \"crossover\" - mecanismo pelo qual novas soluções são geradas a partir da combinação entre soluções existentes. O que as diferencia é a flexibilidade - enquanto que nos algoritmos genéticos as soluções são representadas por códigos binários, na programação genética essa representação é feita por algoritmos que podem assumir qualquer forma ou extensão. A preferência pelo operador de crossover não é simplesmente uma característica em comum das duas técnicas supracitadas, mas um poderoso diferencial. Na medida em que os indivíduos (as soluções) são selecionados de acordo com a respectiva qualidade, o uso do operador crossover tende a aumentar mais rapidamente a qualidade média da população se as partes boas de cada solução combinada (os \"building blocks\") forem preservadas. Holland [1975] prova matematicamente que sob determinadas condições esse efeito ocorrerá em algoritmos genéticos, em um resultado que ficou conhecido como \"Schema Theorem of GAs\". Entretanto, a implementação prática de GA (e, em especial, de GP) geralmente não ocorre segundo as condições supostas neste teorema. Diversos estudos têm mostrado que a extensão variável das estruturas utilizadas em GP dão um caráter de mutação ao operador de crossover, na medida em que a seleção aleatória dos pontos de combinação pode levar à destruição dos building blocks. Este trabalho propõe um novo operador de crossover, baseado em uma técnica de meta-controle que orienta a seleção dos pontos para a recombinação das soluções, respeitando o histórico de recombinação de cada ponto e a compatibilidade semântica entre as \"partes\" de cada solução que são \"trocadas\" neste processo. O método proposto é comparado ao crossover tradicional em um estudo empírico ligado à área Financeira, no qual o problema apresentado consiste em replicar a carteira de um fundo de investimentos setorial. Os resultados mostram que o método proposto possui performance claramente superior ao crossover tradicional, além de proporcionar a emergência de semântica entre as soluções ótimas.