Repositório RCAAP
Estimação e precisão no modelo de regressão linear com erros nas variáveis e mensurações replicadas
Nesta tese apresentamos procedimentos baseados em replicações para o problema da falta de identificação em modelos com erros nas variáveis. Discutimos procedimentos para os casos estrutural e funcional. Os procedimentos considerados são baseados nos métodos de momentos e de máxima verossimilhança. Os modelos considerados apresentam extensões para resultados publicados na literatura. A utilização do método de máxima verossimilhança no caso funcional não está na literatura
Contribuições ao estudo de modelos com erros nas variáveis
Neste trabalho estudamos alguns modelos com erros nas variáveis. Consideramos um modelo de análise de covariância (ANCOVA) em que temos variáveis explicativas medidas com erros aditivos e também variáveis explicativas contaminadas por erros multiplicativos. Dois estimadores para os efeitos dos tratamentos são comparados em termos de eficiência relativa assintótica. Mostramos que o estimador de mínimos quadrados ordinários (que ignora os erros de medição) é o mais eficiente. Um estudo de simulação compara os méritos relativos dos dois estimadores em amostras de tamanho pequeno a moderado. Em seguida, uma abordagem de influência local para detectar os efeitos de pequenas perturbações dos dados ou do modelo é aplicada aos modelos de calibração comparativa. Tais modelos são usados tipicamente para comparar vários instrumentos ou métodos de medição e podem ser vistos tanto em uma versão funcional quanto em uma versão estrutural, como acontece com os modelos com erros nas variáveis usuais. Diferentes esquemas de perturbação são considerados e dois exemplos com dados reais ilustram a metodologia desenvolvida. Por último, estendemos o modelo de regressão linear simples para situações mais gerais onde temos erro de medição na variável explicativa e duas ou mais populações estão presentes. Identificabilidade, estimação, um teste de ajuste e influência local são investigadas. Um conjunto de dados reais é analisado de acordo com os métodos propostos
2001
Mário de Castro Andrade Filho
Fortalecimentos de representações de algumas sequências permutáveis
Neste trabalho, consideramos três problemas de caracterização de sequências de variáveis aleatórias (ou vetores) permutáveis. Apresentamos, primeiramente, teoremas do tipo de De Finetti (formas finita e infinita) para algumas distribuições uniformes bivariadas dependentes de um único parâmetro. Estes resultados fornecem uma representação preditivista, no sentido de De Finetti, para os modelos paramétricos bivariados. Na sequência, caracterizamos vetores aleatórios cujas densidades de probabilidade podem ser expressas como função do mínimo e do máximo ou do máximo das somas das componentes. Provamos que independência e específicas condições de simetria caracterizam modelos uniformes conhecidos (discretos e contínuos, univariados e bivariados). Finalmente, introduzimos uma nova versão do modelo de urna de Pólya-Eggenberger, considerando uma distribuição de probabilidade para a composição inicial da urna, isto é, para os números de bolas brancas e pretas inicialmente na urna. Determinamos também quando um processo permutável com valores em {0,1} pode ser bem aproximado por um adequado processo de Pólya com configuração inicial desconhecida
Análise não-paramétrica de dados ordinais com medidas repetidas
Neste trabalho comparamos duas metodologias de análise de dados ordinais coletados em experimenos com medidas repetidas. A primeira considera a atribuição de escores às categorias de resposta e a utilização de modelos paramétricos para comparar as médias destes escores. Esta técnica é amplamente utilizada uma vez que a metodologia de Análise de Variância para Medidas Repetidas na qual se baseia é bastante difundida e vários pacotes estatísticos disponibilizam rotinas de ajuste e análise. No entanto, sua utilização é criticada devido às suposições bastante restritivas dessa classe de modelos, como a continuidade da variável resposta, distribuição normal dos dados e estruturas especiais para as matrizes de covariância. Por essas razões, uma metodologia alternativa, baseada em técnicas não-paramétricas que apresenta suposições menos restritivas é descrita. Esta metodologia utiliza os postos das observações para estudar os efeitos dos fatores na distribuição da variável resposta. Os procedimentos utilizados para investigar as hipóteses de interesse são baseados na distribuição assintótica das estatísticas propostas e a exatidão das aproximações pode ser insatisfatória no caso de experimentos com amostras pequenas. Por intermédio de estudos de simulação, comparamos as taxas de erro Tipo-I e o poder dos testes para as técnicas paramétrica e não-paramétrica, sob planejamentos balanceados. Conclusões similares são obtidas utilizando modelos paramétricos para escores equiespaçados e a estatística tipo-ANOVA para o modelo não-paramétrico. Indicam ainda diferenças nas conclusões da análise paramétrica quando vários sistemas de pontuação para a mesma variável ordinal são utilizados
Comportamento assintótico de estimadores da entropia para cadeias de ordem inifnita com perda de memória exponencial
Nesta tese, apresentaremos resultados sobre as flutuações de dois estimadores da entropia para uma classe de cadeias de ordem infinita. Consideraremos uma cadeia estacionária de ordem infinita, isto é, na qual as probabilidades de transição dependem de todo o passado. Faremos a hipótese habitual em teoria de informação que a cadeia assume valores no alfabeto finito. Duponhamos também que a memória do passado decresce com velocidade exponencial. A partir de uma amostra finita da cadeia, de comprimento n, consideraremos a k-ésima distribuição empírica de um cilindro de comprimento k como sendo a freqüência relativa do cilindro na amostra. Nesta tese, será estudado caso em que esse comprimento k é uma função crescente do comprimento da amostra, isto é, k=k(n). Consideraremos dois estimadores da entropia. O primeiro deles é a k-ésima entropia empírica. Ele é definido como a razão entre a esperança, com respeito á distribuição empírica do logaritmo da probabilidade dos k-cilindros e o próprio comprimento k. O segundo deles é a k-ésima entropia empírica condicionada. Ele é definido considerando-se a esperança, com respeito à distribuição empírica do logaritmo da probabilidade condicional empírica. No capítulo 4 se encontram as condições originais desta tese. Os resultados principais são os Teoremas 4.6.4 e 4.6.5. Demonstramos no Teorema 4.6.4. que a k-ésima entropia empírica condicionada tem flutuações gaussianas em torno da verdadeir entropia do processo. Demonstramos também, no Teorema 4.6.5, que o mesmo não acontece com a entropia empírica de ordem k. Nossos resultados valem se k(n) , 1 sobre 2 log A log n. Esta é uma condição natural, já que log A é majorante da entropia do processo e que, em um contexto de aplicação concreta, a entropia do processo não é conhcida a priori. Os teoremas 4.6.4 e 4.6.5 respondem a uma questão deixada em aberto desde o artigo de Iosifescu (1965). Em particular o Teorema 4.6.5 ) aponta para uma diferença crucial entre cadeias de Markov e cadeias de ordem infinita
Modelos não-lineares com resposta binomial negativa
Técnicas de diagnóstico têm se constituído numa ferramenta muito popular na avaliação de afastamentos sérios das suposições feitas para os modelos de regressão. Uma das técnicas mais modernas, denominada influência local, avalia a robustez dos resultados produzidos pelo modelo contra pequenas perturbações feitas pelo próprio modelo. Essa técnica é investigada neste trabalho em modelos de regressão com resposta binomial negativa. Tais modelos têm sido utilizados quando os modelos com resposta de Poisson mostram-se inadequados. Assumimos, em princípio, uma função de ligação geral com preditor linear, porém com ênfase para os modelos log-lineares. Posteriormente, assumimos que o preditor possui uma forma não-linear nos prâmetros e por último consideramos a inclusão de um parâmetro na função de ligação. Em todos os casos discutimos a estimação e propriedades assintóticas dos estimadores de máxima verossimilhança dos parâmetros de interesse. Desenvolvemos também estudos de Monte Carlo para avaliar a distribuição empírica do resíduo componente de desvio e apresentamos vários modelos
2002
Carolina Fabiana Svetliza
Avaliação do teste logrank em experimentos seqüenciais agrupados
Testes seqüenciais são usados em estudos de longa duração de modo a possibilitar o término antecipado de um experimento. Na metodologia desenvolvida para lidar com esquemas seqüenciais, destacam-se os procedimentos de Pocock (1977) e de O¦Brien and Fleming (1979) cujos testes são efetuados cada vez que um grupo de tamanho fixo é acrescido na amostra. Pocock sugere que em estudos de análise de sobrevivência, esses testes sejam executados em função do aumento do número de falhas observado, que deve ser fixo e pré-determinado em todas as etapas de análise. Entretanto, é comum que as unidades experimentais sejam avaliadas repetidas vezes, a tempos pré-fixados do calendário, desta forma, em cada etapa podem ser observadas quantidades diferentes de falhas. Este trabalho apresenta uma avaliação da metodologia baseada nos limites de rejeição de Pocock e O¦Brien and Fleming, quando testes seqüenciais são executados a tempos pré-fixados, independentemente do número de falhas observado em cada instante. Resultados teóricos são estudados e simulações realizadas para avaliar o poder do teste logrank seqüencial, considerando-se também, a possibilidade da ocorrência de censuras aleatórias. As simulações sugerem que os testes seqüenciais executados desta forma produzem tamanho e poder próximos a seus níveis nominais, dando respaldo ao uso desta metodologia em problemas práticos
2002
Iracema Hiroko Iramina Arashiro
Modelos de efeitos aleatórios e populações finitas
Neste trabalho discutimos problemas de inferência em populações finitas focando nossa atenção em estimadores ótimos sob modelos probabilísticos baseados no planejamento, incluindo amostragens com um e dois estágios. Os parâmetros de interesse são combinações lineares das variáveis envolvidas nos modelos probabilísticos e os estimadores são combinações lineares das variáveis observáveis após a amostragem. A metodologia desenvolvida permite obter estimadores ótimos da mesma forma que o enfoque baseado em superpopulações. A introdução de erro gaussiano no modelo posiciona o problema no mesmo contexto dos modelos lineares clássicos e, em situações onde é possível observar várias vezes uma mesma unidade, a teoria de modelos mistos pode ser empregada. Resolvemos a controvérsia nos modelos mistos definições dos efeitos de interesse que levam em consideração as deiferentes fontes de aleatoriedade e que podem ser aplicadas também no caso infinito. Discutimos a possibilidade de avaliar inexistência de efeito principal do fator aleatório sob os modelos propostos e em situações de dados desbalanceados, salientamos a existência de testes F exatos para avaliar a anulação de componentes de variância e estudamos o poder dos mesmos para diferentes níveis de desbalanceamento
2002
Viviana Beatriz Lencina
Aproximações markovianas e reamostragem para cadeias de ordem infinita com aplicação à Lingüística
Nesta tese apresentamos um novo método de reamostragem para cadeias de ordem infinita assumindo valores em um alfabeto finito. O nosso objetivo é desenvolver uma metodologia que nos permita fazer inferência para a média de uma função real em cadeias de ordem infinita com decaimento exponencial. A base matemática que justifica o procedimento de reamostragem que propomos é um Teorema Central do Limite da Reamostragem para cadeias de ordem infinita. A demonstração deste teorema é baseada em um outro resultado original que é um Teorema Limite Central de Reamostragem para seqüências de cadeias de Markov de ordens crescentes.Como aplicação, utilizamos nosso Teorema Limite Central da Reamostragem para construir intervalos de confiança assintóticos para a média da sonoridade em oito línguas naturais. Fazemos isto para classificar as línguas consideradas em grupos de acordo com a sonoridade
2003
Denise Duarte Scarpa Magalhães Alves
Modelos aditivos binomiais negativos
Os modelos lineares generalizados (MLG) são uma ampla classe de modelos de regressão. No entanto, as suposições impostas por esses modelos não são adequadas, por exemplo, para a análise de dados de contagem superdispersos. Um dos modelos de superdispersão muito utilizado é o modelo de regressão binomial negativo. Se um certo parâmetro desse modelo é conhecido, ele faz parte da classe dos MLG¦s. No entanto, a suposição de que tal parâmetro é conhecido é geralmente irreal e métodos adequados de inferência nesses modelos estão descritos na literatura. Os MLG¦s impõem uma restrição adicional: uma função estritamente monótona da resposta média, a função de ligação, deve estar relacionada a um preditor linear, que envolve parâmetros desconhecidos e as covariáveis. Os modelos aditivos generalizados (MAG) estendem a classe dos MLG¦s permitindo não linearidade na relação entre uma função da resposta média e as covariáveis, que é modelada através de funções alisadoras não especificadas. Embora MAG¦s constituam uma classe mais ampla que os MLG¦s, eles também não são adequados para a análise de contagens superdispersas. Recentemente, os MAG¦s foram estendidos para englobar respostas binomiais negativas. Nessa dissertação apresentamos esta extensão e sua implementação computacional. Apresentamos também uma aplicação desse modelo a dados reais, com ênfase no estudo da relação entre poluição atmosférica e saúde humana na cidade de São Paulo
2003
Jacqueline Sant' Eufemia David Planas
Modelos auto-regressivos com limiares
O modelo auto-regressivo com limiares é um dos possíveis modelos de séries temporais não lineares encontradas na literatura. Ele foi inicialmente proposto por Tong e discutido em detalhes por Tong e Lim. Este trabalho tem como objetivo apresentar as metodologias, para o caso univariado, propostas por Tong e Tsay e, no caso multivariado, proposta por Tsay. Nas aplicações utilizaremos dados epidemiológicos e de poluição na cidade de São Paulo
Modelos CAPM com observações faltando: uma aplicação de regressão com parâmetros variando no tempo
Este trabalho tem por objetivo o estudo do preenchimento de valores ausentes em séries históricas de preços no mercado acionário, utilizando o modelo CAPM com parâmetro variando ao longo do tempo. Para a estimação do parâmetro variante no tempo foi usado o filtro de Kalman, que permite fazer previsões e suavizamento de modelos escritos em espaço de estado. A conclusão geral é que a estimação dos valores ausentes utilizando este modelo com parâmetro variante no tempo é superior ao modelo de regressão com parâmetro fixo
2003
Pedro Abreu Pessoa de Mendonça
Uma comparação de regressão logística, árvores de classificação e redes neurais: analisando dados de crédito
Este trabalho tem como finalidade comparar quatro técnicas: Redes Neurais Artificiais, Árvore de Classificação Binária, Real Attribute Learning Algorithm (REAL) e Regressão Logística, aplicadas para definir um modelo de classificação que permita avaliar o risco do cliente de uma dada instituição financeira se tornar inadimplente. Para construção desses modelos foram utilizadas variáveis cadastrais e de utilização, ou seja, são modelos baseados não somente nas características do cliente, mas também no seu perfil de comportamento quanto à utilização de conta-corrente e cheque especial. Tais modelos têm sido utilizados por empresas que concedem crédito massificado, para classificar clientes quanto ao nível de risco e conceder novos créditos ou definir limites em função desse risco. Como resultado do estudo, foi observado que as Redes Neurais Artificiais e a Regressão Logística tiveram acerto superior às demais técnicas
Data Mining em grandes redes: superfícies de coesão sobre base multidimensionalmente escalonada
Tendo como motivação o desenvolvimento de uma representação gráfica de redes com grande número de vértices, útil para aplicações de Filtro Colaborativo, este trabalho propõe a utilização de superfícies de coesão sobre uma base temática multidimensionalmente escalonada. Para isso, utiliza uma combinação de Escalonamento Multidimensional Clássico e Análise de Procrustes, em algoritmo iterativo [sic] que encaminha soluções parciais, depois combinadas numa solução global. Aplicando a um exemplo de transações de empréstimo de livros pela biblioteca Karl A. Boedecker, o algoritmo proposto produz saídas interpretáveis e coerentes tematicamente, e apresenta um stress menor que a solução por Escalonamento Clássico
2003
Francisco José Espósito Aranha Filho
Análise de diagnóstico em regressão logística
Este trabalho tem por objetivo apresentar a análise de ajuste de modelos de regressão logística. Inicialmente, dedicamo-nos ao estudo de técnicas que propiciam uma análise global do ajuste do modelo. Numa etapa seguinte, introduzimos as principais medidas de diagnóstico para a detecção de pontos discrepantes e um estudo dos principais gráficos para esse tipo de análise. Concluímos o trabalho com a aplicação das técnicas descritas a um conjunto de dados reais
2003
Cecilia Aparecida Vaiano Farhat
Ajustes para a verossimilhança perfilada em modelos lineares generalizados
Inferência acerca de um vetor paramétrico na presença de parâmetros de perturbação é freqüentemente baseada na função de verossimilhança perfilada. Entretanto, esta não se comporta como uma função de verossimilhança genuína e diversos ajustes para a função de verossimilhançan perfilada têm sido propostos. Nesta tese, consideramos um ajuste aditivo que reduz os viéses da função escore e da informação obtidas da função de verossimilhança perfilada de O(1) para O('N POT. -1'). O ajuste foi originalmente proposto a Stern (1997) mas mostramos que seu resultado contém erros. Um objetivo desta tese é obter a expressão correta para o ajuste de Stern. Deve ser enfatizado que este ajuste é aplicável em ampla generalidade pois permite que tanto o parâmetro de interesse quanto o de perturbação sejam multidimensionais. Nosso segundo objetivo é derivar a correção de Bartlett para a estatística do teste da razão de verossimilhanças perfiladas ajustadas. Obtemos também expressões simples em forma fechada para o ajuste de Stern e a correspondente correção de Bartlett na classe dos modelos lineares generalizados. Um estudo de simulação é realizado para comparar o desempenho do teste da razão de verossimilhanças perfiladas ajustadas e os correspondentes testes corrigidos via correção de Bartlett
2003
Fernando Lucambio Perez
Alguns resultados sobre modelagem do fenômeno de dependência através de cópulas
O objeto dessa dissertação é o estudo da deendência entre variáveis aleatórias, com um enfoque na aplicação do conceito de cópulas na modelagem do fenômeno de dependência. Um resumo dos principais conceitos e propriedades referentes às cópulas será feito, de modo a propiciar uma base de conhecimentos técnicos que serão aplicados ao longo deste texto. Também serão estudadas algumas medidas de dependência, bem como suas propriedades. Em seguida serão tratados alguns problemas levantados por Nelsen et al. (2001) a respeito de funções de variáveis aleatórias dependentes, tendo como base a teoria de cópulas. Uma generalização dos resultados obtidos por este será apresentada. Um tópico mais específico desse texto será o estudo de variáveis aleatórias binárias permutáveis. Os conceitos de cópulas e distribuições binárias generalizadas embasarão este estudo. As formas de dependência entre essas variáveis serão estudadas com a maior profundidade. Será apresentado um algoritmo de geração dessas variáveis aleatórias com estrutura de correlação esoecificada, incluindo a possibilidade de valores nagativos, o que até então não havia recebido um tratamento adequado. Por fim será estudada uma distribuição conjunta de probabilidade específica dessas variáveis aleatórias, aplicando-se os conceitos de ordem superaditiva de dependência, mostrando-se ser esta a distribuição menos superaditiva dependente, o que até então constituía-se num problema em aberto
Modelos aditivos generalizados com defasagens distribuídas
Existem algumas situações onde a variável resposta é observada repetidamente ao longo do tempo, e o impacto de uma variável preditora em um determinado instante é distribuído sobre várias medidas subsequentes da variável resposta. Por outro lado, outras variáveis preditoras no modelo podem se relacionar com a resposta de forma não linear. Para construir um modelo de regressão adequado para esta situação combinamos duas técnicas: modelos aditivos generalizados e modelos com defasagens distribuídas. Os modelos aditivos generalizados são uma extensão dos modelos lineares generalizados no qual variáveis preditoras contínuas são modeladas por funções não especificadas. Já os modelos com defasagens distribuídas relacionam a variável resposta com valores defasados de uma variável preditora dependente do tempo. A combinação dessas duas técnicas de modelagem resulta nos chamados modelos aditivos generalizados com defasagens distribuídas. A estimação é feita pelo método de máxima verossimilhança penalizada de acordo com a supodição da distribuição da variável resposta. As estimativas são então obtidas combinando o método de mínimos quadrados reponderados iterativamente com a técnica de suavização P-spline. Esta metodologia é aplicada a dados ambientais da cidade de São Paulo para investigar a distribuição do efeito da poluição do ar sobre a natimortalidade e para quantificar o denominado efeito colheita
2003
Alberto Pereira de Barros
Análise Bayesiana de referência para modelos de calibração
No presente trabalho apresentamos o método de construção de prioris de referência desenvolvido por Berger and Bernardo (1989, 1992a, 1992b) e o aplicamos aos modelos estatísticos de regressão binária, regressão binomial, calibração binomial e calibração linear. Obtivemos prioris de referência próprias para os modelos de regressão binária, regressão binomial e calibração binomial. Provamos que a distribuição a posteriori de referência associada ao modelo de calibração çinear é própria e que a distribuição marginal a posteriori de x sub-indíce 0 só possui momentos finitos até a ordem p - 1. Apresentamos esquemas computacionais para a implementação da inferência a posteriori para todos os modelos, assim como um estudo de simulação para avaliar o desempenho da priori de referência associada ao modelo de calibração binomial
Modelo de análise R/S: aplicação a séries temporais de arritmias cardíacas
O estudo de arritmias cardíacas por métodos não-invasivos tem sido desenvolvido com base na monitorização ambulatorial pelo sistema Holter, em um período único de 24 horas. Esta dissertação operacionaliza um tratamento estatístico à metodologia alternativa de monitorização fragmentada no tempo, proposta por Kortas. Foram analisados dados de exames via Holter de 12 pacientes que compreendiam as formas ventriculares (Extra-sístoles Isoladas, Extra-sístoles Pareadas e Taquicardias), coletados durante um período de sete dias consecutivos. Este procedimento mostrou uma efetiva potencialidade de melhoria no diagnóstico clínico, em virtude da detecção de uma componente estatística denominada persistência. Este indicador, obtido através do Modelo de Análise R/S ou 'Rescaled Range', desenvolvido por Harnold Edwin Hurst, revelou a presença de ciclos não periódicos de episódios arrítmicos ao longo das séries. Esta metodologia mostra que a coleta de dados em um único dia pode deixar de captar episódios arrítmicos de grande malignidade, tendo em vista a possibilidade de ocorrência destes episódios em períodos anteriores ou posteriores ao da monitoração convencional. Por meio da fragmentação, esta situação tem maior possibilidade de ser identificada, uma vez que o comportamento persistente da série foi detectado através do método de Hurst. Os resultados alcançados em uma amostra restrita a 12 pacientes evidenciam a possibilidade de utilização da coleta fragmentada como forma de melhoria do diagnóstico clínico. A contribuição deste estudo, portanto, reside no tratamento estatístico da proposição da fragmentação da coleta dos dados apoiada na análise das séries temporais, conforme a teoria desenvolvida por Hurst
2003
Nancy Christiane Ferreira