Repositório RCAAP

Calibração linear assimétrica

A presente tese aborda aspectos teóricos e aplicados da estimação dos parâmetros do modelo de calibração linear com erros distribuídos conforme a distribuição normal-assimétrica (Azzalini, 1985) e t-normal-assimétrica (Gómez, Venegas e Bolfarine, 2007). Aplicando um modelo assimétrico, não é necessário transformar as variáveis a fim de obter erros simétricos. A estimação dos parâmetros e das variâncias dos estimadores do modelo de calibração foram estudadas através da visão freqüentista e bayesiana, desenvolvendo algoritmos tipo EM e amostradores de Gibbs, respectivamente. Um dos pontos relevantes do trabalho, na óptica freqüentista, é a apresentação de uma reparametrização para evitar a singularidade da matriz de informação de Fisher sob o modelo de calibração normal-assimétrico na vizinhança de lambda = 0. Outro interessante aspecto é que a reparametrização não modifica o parâmetro de interesse. Já na óptica bayesiana, o ponto forte do trabalho está no desenvolvimento de medidas para verificar a qualidade do ajuste e que levam em consideração a assimetria do conjunto de dados. São propostas duas medidas para medir a qualidade do ajuste: o ADIC (Asymmetric Deviance Information Criterion) e o EDIC (Evident Deviance Information Criterion), que são extensões da ideia de Spiegelhalter et al. (2002) que propôs o DIC ordinário que só deve ser usado em modelos simétricos.

Ano

2009

Creators

Cléber da Costa Figueiredo

Ordenação das páginas do Google - \"Page Rank\"

Grande parte do sucesso do Google provêm do algoritmo Page Rank, que avalia quantitativamente a importância de cada página na web. Esta ordenação é obtida através do vetor estacionário de uma matriz estocástica específica, utilizando o Método das Potências. A velocidade de convergência deste método será avaliada em detalhe, já que se trata de uma resposta imediata da pesquisa do usuário. Afim de entender as diferentes situações que o modelo pode enfrentar, diversas simulações são apresentadas neste trabalho. Em particular, estamos interessados nos fatores que influenciam a velocidade de convergência. Para tanto, o número de páginas total e de cada conjunto fechado, bem como o número de conjuntos fechados e de nós pendentes foram estudados.

Ano

2009

Creators

Mariana Pereira de Melo

A teia Browniana radial

Introduzimos uma familia de trajetorias aleatorias coalescentes com certo tipo de comportamento radial a qual chamaremos de Teia Poissoniana radial discreta. Mostramos que o limite fraco na escala difusiva desta familia e uma familia de trajetorias aleatorias coalescentes que chamaremos de Teia Browniana radial. Por m, caraterizamos o objeto limite como um mapeamento continuo da Teia Browniana restrita num subconjunto de R2.

Ano

2012

Creators

León Alexander Valencia Henao

Modelos baseados em agentes aplicados à dinâmica de preços do mercado imobiliário

Um dos aspectos regulatórios fundamentais para o mercado imobiliário no Brasil são os limites para obtenção de financiamento no Sistema Financeiro de Habitação. Esses limites podem ser definidos de forma a aumentar ou reduzir a oferta de crédito neste mercado, alterando o comportamento dos seus agentes e, com isso, o preço de mercado dos imóveis. Neste trabalho, propomos um modelo de formação de preços no mercado imobiliário brasileiro com base no comportamento dos agentes que o compõem. Os agentes vendedores têm comportamento heterogêneo e são influenciados pela demanda histórica, enquanto que os agentes compradores têm o seu comportamento determinado pela disponibilidade de crédito. Esta disponibilidade de crédito, por sua vez, é definida pelos limites para concessão de financiamento no Sistema Financeiro de Habitação. Verificamos que o processo markoviano que descreve preço de mercado converge para um sistema dinâmico determinístico quando o número de agentes aumenta, e analisamos o comportamento deste sistema dinâmico. Mostramos qual é a família de variáveis aleatórias que representa o comportamento dos agentes vendedores de forma que o sistema apresente um preço de equilíbrio não trivial, condizente com a realidade. Verificamos ainda que o preço de equilíbrio depende não só das regras de concessão de financiamento no Sistema Financeiro de Habitação, como também do preço de reserva dos compradores e da memória e da sensibilidade dos vendedores a alterações na demanda. A memória e a sensibilidade dos vendedores podem levar a oscilações de preços acima ou abaixo do preço de equilíbrio (típicas de processos de formação de bolhas); ou até mesmo a uma bifurcação de Neimark-Sacker, quando o sistema apresenta dinâmica oscilatória estável.

Ano

2016

Creators

Manuella de Oliveira Antunes

Modelo multi-estados markoviano não homogêneo com efeitos dinâmicos

Modelos multi-estados têm sido utilizados para descrever o comportamento de unidades amostrais cuja principal resposta é o tempo necessário para a ocorrência de seqüências de eventos. Consideramos um modelo multi-estados markoviano, não homogêneo, que incorpora covariáveis cujos efeitos podem variar ao longo do tempo (efeitos dinâmicos), o que permite a generalização dos modelos usualmente empregados. Resultados assintóticos mostram que procedimentos de estimação baseados no método histograma crivo convergem para um processo gaussiano. A metodologia proposta mostra-se adequada na modelagem de dados reais para comparação de desenvolvimento de recém-nascidos pré-termo com os a termo. Estudos com dados gerados artificialmente confirmam os resultados teóricos obtidos.

Ano

2008

Creators

Iracema Hiroko Iramina Arashiro

Genotipagem de poliplóides: um modelo de urnas e bolas

Desde os primórdios da agricultura e pecuária, o homem seleciona indivíduos com características desejáveis para reprodução e aumento da proporção de novos indivíduos com tais qualidades. Com o conhecimento da estrutura de DNA e o advento da engenharia genética, a identificação e caracterização de espécies e indivíduos conta com novas tecnologias para auxiliar no desenvolvimento de novas variedades de plantas e animais para diversos fins. Tais tecnologias envolvem procedimentos bioquímicos e físicos cada vez mais apurados que produzem medidas cada vez mais precisas, um exemplo disso são as técnicas que empregam a espectometria de massa para comparar polimorfismos de base única (SNPs). Nas plantas é comum a ocorrência de poliploidia, que consiste na presença de mais de dois cromossomos num mesmo grupo de homologia. A determinação do nível de ploidia é fundamental para a correta genotipagem e por consequência maior eficiência no estudo e aprimoramento genético de plantas. Neste trabalho caracterizamos o fenômeno da poliploidia com modelos probabilísticos de urnas e bolas, propondo um método eficiente e adequado de simulação, assim como uma técnica simples para inferir níveis de ploidia e classificar amostras bialélicas aproveitando características geométricas do problema. Análises de dados simulados e reais provenientes de um experimento de cana-de-açúcar foram realizadas com diferentes medidas de separação entre agrupamentos e diferentes condições experimentais. Para os dados reais, métodos gráficos descritivos evidenciam a corretude e coerência do método proposto, que pode ser generalizado para a genotipagem de locos multialélicos poliplóides. Encerramos o trabalho comparando nossos resultados com a abordagem SuperMASSA [Serang2012] que trouxe excelentes resultados ao problema. Todo código desenvolvido em linguagem R está disponibilizado com o texto.

Ano

2012

Creators

Silvio Rodrigues de Faria Junior

Modelagem estocástica de sequências de disparos de um conjunto de neurônios

O presente trabalho constitui um primeiro esforço por modelar disparos de neurônios usando cadeias estocásticas de memória de alcance variável. Esses modelos foram introduzidos por Rissanen (1983). A ideia principal deste tipo de modelos consiste em que a definição probabilística de cada símbolo depende somente de uma porção finita do passado e o comprimento dela é função do passado mesmo, tal porção foi chamada de \"contexto\" e o conjunto de contextos pode ser representado através de uma árvore. No passado vários métodos de estimação foram propostos, nos quais é necessário especificar algumas constantes, de forma que Galves et al.(2012) apresentaram o \"critério do menor maximizador\" (SMC), sendo este um algoritmo consistente que independe de qualquer constante. De outro lado na área da neurociência vem tomando força a ideia de que o processamento de informação do cérebro é feito de forma probabilística, por esta razão foram usados os dados coletados por Sidarta Ribeiro e sua equipe, correspondentes à atividade neuronal em ratos, para estimar as árvores de contextos que caracterizam os disparos de quatro neurônios do hipocampo e identificar possíveis associações entre eles, também foram feitas comparações de acordo com o estado comportamental do rato (Vigília / Sono), em todos os casos foi usado o algoritmo SMC para a estimação das árvores de contexto. Por último, é aberta uma discussão sobre o tamanho de amostra necessário para a implementação deste tipo de análise.

Ano

2013

Creators

Azrielex Andres Arias Rodriguez

Incorporação de indicadores categóricos ordinais em modelos de equações estruturais

A modelagem de equações estruturais é uma técnica estatística multivariada que permite analisar variáveis que não podem ser medidas diretamente, mas que podem ser estimadas através de indicadores. Dado o poder que esta técnica tem em acomodar diversas situações em um único modelo, sua aplicação vem crescendo nas diversas áreas do conhecimento. Diante disto, este trabalho teve por objetivo avaliar a incorporação de indicadores categóricos ordinais em modelos de equações estruturais, fazendo um resumo dos principais procedimentos teóricos e subjetivos presentes no processo de estimação de um modelo, avaliando as suposições violadas quando indicadores ordinais são utilizados para estimar variáveis latentes e criando diretrizes que devem ser seguidas para a correta estimação dos parâmetros do modelo. Mostramos que as correlações especiais (correlação tetracórica, correlação policórica, correlação biserial e correlação poliserial) são as melhores escolhas como medida de associação entre indicadores, que estimam com maior precisão a correlação entre duas variáveis, em comparação à correlação de Pearson, e que são robustas a desvios de simetria e curtose. Por fim aplicamos os conceitos apresentados ao longo deste estudo a dois modelos hipotéticos com o objetivo de avaliar as diferenças entre os parâmetros estimados quando um modelo é ajustado utilizando a matriz de correlações especiais em substituição à matriz de correlação de Pearson.

Ano

2010

Creators

Bruno Cesar Bistaffa

Melhor preditor empírico aplicado aos modelos beta mistos

Os modelos beta mistos são amplamente utilizados na análise de dados que apresentam uma estrutura hierárquica e que assumem valores em um intervalo restrito conhecido. Com o objetivo de propor um método de predição dos componentes aleatórios destes, os resultados previamente obtidos na literatura para o preditor de Bayes empírico foram estendidos aos modelos de regressão beta com intercepto aleatório normalmente distribuído. O denominado melhor preditor empírico (MPE) proposto tem aplicação em duas situações diferentes: quando se deseja fazer predição sobre os efeitos individuais de novos elementos de grupos que já fizeram parte da base de ajuste e quando os grupos não pertenceram à tal base. Estudos de simulação foram delineados e seus resultados indicaram que o desempenho do MPE foi eficiente e satisfatório em diversos cenários. Ao utilizar-se da proposta na análise de dois bancos de dados da área da saúde, observou-se os mesmos resultados obtidos nas simulações nos dois casos abordados. Tanto nas simulações, quanto nas análises de dados reais, foram observados bons desempenhos. Assim, a metodologia proposta se mostrou promissora para o uso em modelos beta mistos, nos quais se deseja fazer predições.

Ano

2014

Creators

Ana Paula Zerbeto

Distribuições de probabilidade no intervalo unitário

A distribuição beta é a mais frequentemente utilizada para a modelagem de dados contínuos observados no intervalo unitário, como taxas e proporções. Embora seja flexível, admitindo formas variadas, tais como J, J invertido, U e unimodal, não é adequada em todas as situações práticas. Nesta dissertação fazemos uma revisão sobre distribuições contínuas no intervalo unitário englobando as distribuições beta, Kumaraswamy, simplex, gama unitária e beta retangular. Também abordamos uma ampla classe de distribuições obtida por transformações (Smithson e Merkle, 2013). Em particular, focamos em duas subclasses, uma apresentada e estudada por Lemonte e Bazán (2015), que chamaremos de classe de distribuições logito, e outra que chamaremos de classe de distribuições logito skew. Todas as distribuições consideradas são aplicadas a conjuntos de dados do Banco Mundial.

Ano

2018

Creators

Francimário Alves de Lima

Análise de dados categorizados com omissão em variáveis explicativas e respostas

Nesta tese apresentam-se desenvolvimentos metodológicos para analisar dados com omissão e também estudos delineados para compreender os resultados de tais análises. Escrutinam-se análises de sensibilidade bayesiana e clássica para dados com respostas categorizadas sujeitas a omissão. Mostra-se que as componentes subjetivas de cada abordagem podem influenciar os resultados de maneira não-trivial, independentemente do tamanho da amostra, e que, portanto, as conclusões devem ser cuidadosamente avaliadas. Especificamente, demonstra-se que distribuições \\apriori\\ comumente consideradas como não-informativas ou levemente informativas podem, na verdade, ser bastante informativas para parâmetros inidentificáveis, e que a escolha do modelo sobreparametrizado também tem um papel importante. Quando há omissão em variáveis explicativas, também é necessário propor um modelo marginal para as covariáveis mesmo se houver interesse apenas no modelo condicional. A especificação incorreta do modelo para as covariáveis ou do modelo para o mecanismo de omissão leva a inferências enviesadas para o modelo de interesse. Trabalhos anteriormente publicados têm-se dividido em duas vertentes: ou utilizam distribuições semiparamétricas/não-paramétricas, flexíveis para as covariáveis, e identificam o modelo com a suposição de um mecanismo de omissão não-informativa, ou empregam distribuições paramétricas para as covariáveis e permitem um mecanismo mais geral, de omissão informativa. Neste trabalho analisam-se respostas binárias, combinando um mecanismo de omissão informativa com um modelo não-paramétrico para as covariáveis contínuas, por meio de uma mistura induzida pela distribuição \\apriori\\ de processo de Dirichlet. No caso em que o interesse recai apenas em momentos da distribuição das respostas, propõe-se uma nova análise de sensibilidade sob o enfoque clássico para respostas incompletas que evita suposições distribucionais e utiliza parâmetros de sensibilidade de fácil interpretação. O procedimento tem, em particular, grande apelo na análise de dados contínuos, campo que tradicionalmente emprega suposições de normalidade e/ou utiliza parâmetros de sensibilidade de difícil interpretação. Todas as análises são ilustradas com conjuntos de dados reais.

Ano

2011

Creators

Frederico Zanqueta Poleto

Estudos sobre um modelo estocástico para a evolução de uma espécie

Apresentamos um modelo estocástico para a evolução de uma espécie pelo processo de seleção natural. Compreender bem o processo evolutivo é de fundamental importância para a biologia, pois é através dele que as espécies e a vida se transformaram ao longo do tempo até chegarmos no mundo como conhecemos hoje. Detalhamos um resultado encontrado na literatura, e também introduzimos algumas variações e sugestões para aprimorar a modelagem original. O modelo proposto é interessante por conta de sua simplicidade e capacidade de capturar aspectos qualitativos esperados segundo as teorias biológicas.

Ano

2013

Creators

Renata Stella Khouri

Utilização de análise de componentes principais em séries temporais

Um dos principais objetivos da análise de componentes principais consiste em reduzir o número de variáveis observadas em um conjunto de variáveis não correlacionadas, fornecendo ao pesquisador subsídios para entender a variabilidade e a estrutura de correlação dos dados observados com uma menor quantidade de variáveis não correlacionadas chamadas de componentes principais. A técnica é muito simples e amplamente utilizada em diversos estudos de diferentes áreas. Para construção, medimos a relação linear entre as variáveis observadas pela matriz de covariância ou pela matriz de correlação. Entretanto, as matrizes de covariância e de correlação podem deixar de capturar importante informações para dados correlacionados sequencialmente no tempo, autocorrelacionados, desperdiçando parte importante dos dados para interpretação das componentes. Neste trabalho, estudamos a técnica de análise de componentes principais que torna possível a interpretação ou análise da estrutura de autocorrelação dos dados observados. Para isso, exploramos a técnica de análise de componentes principais para o domínio da frequência que fornece para dados autocorrelacionados um resultado mais específico e detalhado do que a técnica de componentes principais clássica. Pelos métodos SSA (Singular Spectrum Analysis) e MSSA (Multichannel Singular Spectrum Analysis), a análise de componentes principais é baseada na correlação no tempo e entre as diferentes variáveis observadas. Essas técnicas são muito utilizadas para dados atmosféricos na identificação de padrões, tais como tendência e periodicidade.

Ano

2013

Creators

Sérgio Coichev Teixeira

Modelos de regressão beta-binomial/poisson para contagens bivariadas

Propomos um modelo Beta-Binomial/Poisson para dados provenientes de um estudo com doentes de Parkinson, que consistiu em contar durante um minuto quantas tarefas foram realizadas e destas, quantas de maneira correta, antes e depois de um treinamento. O objetivo era verificar se o treinamento aumentava o número de tentativas e a porcentagem de acerto, o que destaca o aspecto bivariado do problema. Esse modelo considera tal aspecto, usa uma distribuição mais adequada a dados de contagem e ainda suporta a sobredispersão presente nos dados. Obtemos estimadores de máxima verossimilhança dos parâmetros utilizando um algoritmo de Newton-Raphson. Ilustramos a aplicação da metodologia desenvolvida aos dados do estudo.

Ano

2004

Creators

Mayra Ivanoff Lora

Taxas exponenciais de convergência na lei multidimensional dos grandes números: uma abordagem construtiva

Neste trabalho apresentamos condições suficientes para a obtenção de taxas exponenciais de convergência na lei multidimensional dos grandes números para campos aleatórios definidos em R^Z_d. Dentre possíveis aplicações do resultado apresentamos medidas não-gibbsianas e não-FKG (limites de saturaçãoo de processos de estacionamento) e medidas estacionárias originárias de sistemas de partículas (rede com perdas, incluindo o caso onde há interação de longo alcance com cauda pesada).

Ano

2006

Creators

Geraldine Góes Bosco

Ajustes para o teste da razão de verossimilhanças em modelos de regressão beta

O presente trabalho considera o problema de fazer inferência com acurácia para pequenas amostras, tomando por base a estatística da razão de verossimilhanças em modelos de regressão beta. Estes, por sua vez, são úteis para modelar proporções contínuas que são afetadas por variáveis independentes. Deduzem-se as estatísticas da razão de verossimilhanças ajustadas de Skovgaard (Scandinavian Journal of Statistics 28 (2001) 3-32) nesta classe de modelos. Os termos do ajuste, que têm uma forma simples e compacta, podem ser implementados em um software estatístico. São feitas simulações de Monte Carlo para mostrar que a inferência baseada nas estatísticas ajustadas propostas é mais confiável do que a inferência usual baseada na estatística da razão de verossimilhanças. Aplicam-se os resultados a um conjunto real de dados.

Ano

2009

Creators

Eliane Cantinho Pinheiro

FBST seqüencial

O FBST (Full Bayesian Significance Test) é um instrumento desenvolvido por Pereira e Stern (1999) com o objetivo de apresentar uma alternativa bayesiana aos testes de hipóteses precisas. Desde sua introdução, o FBST se mostrou uma ferramenta muito útil para a solução de problemas para os quais não havia soluções freqüentistas. Esse teste, contudo, depende de que a amostra seja coletada uma única vez, após o que a distribuição a posteriori dos parâmetros é obtida e a medida de evidência, calculada. Ensejadas por esse aspecto, são apresentadas abordagens analíticas e computacionais para a extensão do FBST ao contexto de decisão seqüencial (DeGroot, 2004). É apresentado e analisado um algoritmo para a execução do FBST Seqüencial, bem como o código-fonte de um software baseado nesse algoritmo.

Ano

2012

Creators

Marcelo Leme de Arruda

Um modelo Bayesiano semi-paramétrico para o monitoramento ``on-line\" de qualidade de Taguchi para atributos

Este modelo contempla o cenário em que a sequência de frações não-conformes no decorrer de um ciclo do processo de produção aumenta gradativamente (situação comum, por exemplo, quando o desgaste de um equipamento é gradual), diferentemente dos modelos de Taguchi, Nayebpour e Woodall e Nandi e Sreehari (1997), que acomodam sequências de frações não-conformes assumindo no máximo três valores, e de Nandi e Sreehari (1999) e Trindade, Ho e Quinino (2007) que contemplam funções de degradação mais simples. O desenvolvimento é baseado nos trabalhos de Ferguson e Antoniak para o cálculo da distribuição a posteriori de uma medida P desconhecida, associada a uma função de distribuição F desconhecida que representa a sequência de frações não-conformes ao longo de um ciclo, supondo, a priori, mistura de Processos Dirichlet. A aplicação consiste na estimação da função de distribuição F e as estimativas de Bayes são analisadas através de alguns casos particulares

Ano

2009

Creators

Miriam Harumi Tsunemi

Regressão quantílica para dados censurados

A regressão quantílica para dados censurados é uma extensão dos modelos de regressão quantílica que, por levar em consideração a informação das observações censuradas na modelagem, e por apresentar propriedades bastante satisfatórias, pode ser vista como uma abordagem complementar às metodologias tradicionais em Análise de Sobrevivência, com a vantagem de permitir que as conclusões inferenciais sejam tomadas facilmente em relação aos tempos de sobrevivência propriamente ditos, e não em relação à taxa de riscos ou a uma função desse tempo. Além disso, em alguns casos, pode ser vista também como metodologia alternativa aos modelos clássicos quando as suposições destes são violadas ou quando os dados são heterogêneos. Apresentam-se nesta dissertação três técnicas para modelagem com regressão quantílica para dados censurados, que se diferenciam em relação às suas suposições e forma de estimação dos parâmetros. Um estudo de simulação para comparação das três técnicas para dados com distribuição normal, Weibull e log-logística é apresentado, em que são avaliados viés, erro padrão e erro quadrático médio. São discutidas as vantagens e desvantagens de cada uma das técnicas e uma delas é aplicada a um conjunto de dados reais do Instituto do Coração do Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo.

Ano

2017

Creators

Louise Rossi Rasteiro

Utilidade para testes de significância

Neste trabalho discutimos os principais argumentos da inferência bayesiana subjetivista. Posteriormente, a partir de uma revisão da literatura dos testes de hipóteses, os principais testes são analisados sob a ótica da teoria da decisão, particularmente no que tange às hipóteses precisas. Adicionalmente, funções de perda para testes de significância, seguindo a proposta de Fisher e do FBST, são analisadas e comparadas.

Ano

2014

Creators

Nathália Demetrio Vasconcelos Moura