Repositório RCAAP
Avaliação do teste logrank em experimentos seqüenciais agrupados
Testes seqüenciais são usados em estudos de longa duração de modo a possibilitar o término antecipado de um experimento. Na metodologia desenvolvida para lidar com esquemas seqüenciais, destacam-se os procedimentos de Pocock (1977) e de O¦Brien and Fleming (1979) cujos testes são efetuados cada vez que um grupo de tamanho fixo é acrescido na amostra. Pocock sugere que em estudos de análise de sobrevivência, esses testes sejam executados em função do aumento do número de falhas observado, que deve ser fixo e pré-determinado em todas as etapas de análise. Entretanto, é comum que as unidades experimentais sejam avaliadas repetidas vezes, a tempos pré-fixados do calendário, desta forma, em cada etapa podem ser observadas quantidades diferentes de falhas. Este trabalho apresenta uma avaliação da metodologia baseada nos limites de rejeição de Pocock e O¦Brien and Fleming, quando testes seqüenciais são executados a tempos pré-fixados, independentemente do número de falhas observado em cada instante. Resultados teóricos são estudados e simulações realizadas para avaliar o poder do teste logrank seqüencial, considerando-se também, a possibilidade da ocorrência de censuras aleatórias. As simulações sugerem que os testes seqüenciais executados desta forma produzem tamanho e poder próximos a seus níveis nominais, dando respaldo ao uso desta metodologia em problemas práticos
2002
Iracema Hiroko Iramina Arashiro
Modelos de efeitos aleatórios e populações finitas
Neste trabalho discutimos problemas de inferência em populações finitas focando nossa atenção em estimadores ótimos sob modelos probabilísticos baseados no planejamento, incluindo amostragens com um e dois estágios. Os parâmetros de interesse são combinações lineares das variáveis envolvidas nos modelos probabilísticos e os estimadores são combinações lineares das variáveis observáveis após a amostragem. A metodologia desenvolvida permite obter estimadores ótimos da mesma forma que o enfoque baseado em superpopulações. A introdução de erro gaussiano no modelo posiciona o problema no mesmo contexto dos modelos lineares clássicos e, em situações onde é possível observar várias vezes uma mesma unidade, a teoria de modelos mistos pode ser empregada. Resolvemos a controvérsia nos modelos mistos definições dos efeitos de interesse que levam em consideração as deiferentes fontes de aleatoriedade e que podem ser aplicadas também no caso infinito. Discutimos a possibilidade de avaliar inexistência de efeito principal do fator aleatório sob os modelos propostos e em situações de dados desbalanceados, salientamos a existência de testes F exatos para avaliar a anulação de componentes de variância e estudamos o poder dos mesmos para diferentes níveis de desbalanceamento
2002
Viviana Beatriz Lencina
Aproximações markovianas e reamostragem para cadeias de ordem infinita com aplicação à Lingüística
Nesta tese apresentamos um novo método de reamostragem para cadeias de ordem infinita assumindo valores em um alfabeto finito. O nosso objetivo é desenvolver uma metodologia que nos permita fazer inferência para a média de uma função real em cadeias de ordem infinita com decaimento exponencial. A base matemática que justifica o procedimento de reamostragem que propomos é um Teorema Central do Limite da Reamostragem para cadeias de ordem infinita. A demonstração deste teorema é baseada em um outro resultado original que é um Teorema Limite Central de Reamostragem para seqüências de cadeias de Markov de ordens crescentes.Como aplicação, utilizamos nosso Teorema Limite Central da Reamostragem para construir intervalos de confiança assintóticos para a média da sonoridade em oito línguas naturais. Fazemos isto para classificar as línguas consideradas em grupos de acordo com a sonoridade
2003
Denise Duarte Scarpa Magalhães Alves
Modelos aditivos binomiais negativos
Os modelos lineares generalizados (MLG) são uma ampla classe de modelos de regressão. No entanto, as suposições impostas por esses modelos não são adequadas, por exemplo, para a análise de dados de contagem superdispersos. Um dos modelos de superdispersão muito utilizado é o modelo de regressão binomial negativo. Se um certo parâmetro desse modelo é conhecido, ele faz parte da classe dos MLG¦s. No entanto, a suposição de que tal parâmetro é conhecido é geralmente irreal e métodos adequados de inferência nesses modelos estão descritos na literatura. Os MLG¦s impõem uma restrição adicional: uma função estritamente monótona da resposta média, a função de ligação, deve estar relacionada a um preditor linear, que envolve parâmetros desconhecidos e as covariáveis. Os modelos aditivos generalizados (MAG) estendem a classe dos MLG¦s permitindo não linearidade na relação entre uma função da resposta média e as covariáveis, que é modelada através de funções alisadoras não especificadas. Embora MAG¦s constituam uma classe mais ampla que os MLG¦s, eles também não são adequados para a análise de contagens superdispersas. Recentemente, os MAG¦s foram estendidos para englobar respostas binomiais negativas. Nessa dissertação apresentamos esta extensão e sua implementação computacional. Apresentamos também uma aplicação desse modelo a dados reais, com ênfase no estudo da relação entre poluição atmosférica e saúde humana na cidade de São Paulo
2003
Jacqueline Sant' Eufemia David Planas
Modelos auto-regressivos com limiares
O modelo auto-regressivo com limiares é um dos possíveis modelos de séries temporais não lineares encontradas na literatura. Ele foi inicialmente proposto por Tong e discutido em detalhes por Tong e Lim. Este trabalho tem como objetivo apresentar as metodologias, para o caso univariado, propostas por Tong e Tsay e, no caso multivariado, proposta por Tsay. Nas aplicações utilizaremos dados epidemiológicos e de poluição na cidade de São Paulo
Modelos CAPM com observações faltando: uma aplicação de regressão com parâmetros variando no tempo
Este trabalho tem por objetivo o estudo do preenchimento de valores ausentes em séries históricas de preços no mercado acionário, utilizando o modelo CAPM com parâmetro variando ao longo do tempo. Para a estimação do parâmetro variante no tempo foi usado o filtro de Kalman, que permite fazer previsões e suavizamento de modelos escritos em espaço de estado. A conclusão geral é que a estimação dos valores ausentes utilizando este modelo com parâmetro variante no tempo é superior ao modelo de regressão com parâmetro fixo
2003
Pedro Abreu Pessoa de Mendonça
Uma comparação de regressão logística, árvores de classificação e redes neurais: analisando dados de crédito
Este trabalho tem como finalidade comparar quatro técnicas: Redes Neurais Artificiais, Árvore de Classificação Binária, Real Attribute Learning Algorithm (REAL) e Regressão Logística, aplicadas para definir um modelo de classificação que permita avaliar o risco do cliente de uma dada instituição financeira se tornar inadimplente. Para construção desses modelos foram utilizadas variáveis cadastrais e de utilização, ou seja, são modelos baseados não somente nas características do cliente, mas também no seu perfil de comportamento quanto à utilização de conta-corrente e cheque especial. Tais modelos têm sido utilizados por empresas que concedem crédito massificado, para classificar clientes quanto ao nível de risco e conceder novos créditos ou definir limites em função desse risco. Como resultado do estudo, foi observado que as Redes Neurais Artificiais e a Regressão Logística tiveram acerto superior às demais técnicas
Data Mining em grandes redes: superfícies de coesão sobre base multidimensionalmente escalonada
Tendo como motivação o desenvolvimento de uma representação gráfica de redes com grande número de vértices, útil para aplicações de Filtro Colaborativo, este trabalho propõe a utilização de superfícies de coesão sobre uma base temática multidimensionalmente escalonada. Para isso, utiliza uma combinação de Escalonamento Multidimensional Clássico e Análise de Procrustes, em algoritmo iterativo [sic] que encaminha soluções parciais, depois combinadas numa solução global. Aplicando a um exemplo de transações de empréstimo de livros pela biblioteca Karl A. Boedecker, o algoritmo proposto produz saídas interpretáveis e coerentes tematicamente, e apresenta um stress menor que a solução por Escalonamento Clássico
2003
Francisco José Espósito Aranha Filho
Análise de diagnóstico em regressão logística
Este trabalho tem por objetivo apresentar a análise de ajuste de modelos de regressão logística. Inicialmente, dedicamo-nos ao estudo de técnicas que propiciam uma análise global do ajuste do modelo. Numa etapa seguinte, introduzimos as principais medidas de diagnóstico para a detecção de pontos discrepantes e um estudo dos principais gráficos para esse tipo de análise. Concluímos o trabalho com a aplicação das técnicas descritas a um conjunto de dados reais
2003
Cecilia Aparecida Vaiano Farhat
Ajustes para a verossimilhança perfilada em modelos lineares generalizados
Inferência acerca de um vetor paramétrico na presença de parâmetros de perturbação é freqüentemente baseada na função de verossimilhança perfilada. Entretanto, esta não se comporta como uma função de verossimilhança genuína e diversos ajustes para a função de verossimilhançan perfilada têm sido propostos. Nesta tese, consideramos um ajuste aditivo que reduz os viéses da função escore e da informação obtidas da função de verossimilhança perfilada de O(1) para O('N POT. -1'). O ajuste foi originalmente proposto a Stern (1997) mas mostramos que seu resultado contém erros. Um objetivo desta tese é obter a expressão correta para o ajuste de Stern. Deve ser enfatizado que este ajuste é aplicável em ampla generalidade pois permite que tanto o parâmetro de interesse quanto o de perturbação sejam multidimensionais. Nosso segundo objetivo é derivar a correção de Bartlett para a estatística do teste da razão de verossimilhanças perfiladas ajustadas. Obtemos também expressões simples em forma fechada para o ajuste de Stern e a correspondente correção de Bartlett na classe dos modelos lineares generalizados. Um estudo de simulação é realizado para comparar o desempenho do teste da razão de verossimilhanças perfiladas ajustadas e os correspondentes testes corrigidos via correção de Bartlett
2003
Fernando Lucambio Perez
Alguns resultados sobre modelagem do fenômeno de dependência através de cópulas
O objeto dessa dissertação é o estudo da deendência entre variáveis aleatórias, com um enfoque na aplicação do conceito de cópulas na modelagem do fenômeno de dependência. Um resumo dos principais conceitos e propriedades referentes às cópulas será feito, de modo a propiciar uma base de conhecimentos técnicos que serão aplicados ao longo deste texto. Também serão estudadas algumas medidas de dependência, bem como suas propriedades. Em seguida serão tratados alguns problemas levantados por Nelsen et al. (2001) a respeito de funções de variáveis aleatórias dependentes, tendo como base a teoria de cópulas. Uma generalização dos resultados obtidos por este será apresentada. Um tópico mais específico desse texto será o estudo de variáveis aleatórias binárias permutáveis. Os conceitos de cópulas e distribuições binárias generalizadas embasarão este estudo. As formas de dependência entre essas variáveis serão estudadas com a maior profundidade. Será apresentado um algoritmo de geração dessas variáveis aleatórias com estrutura de correlação esoecificada, incluindo a possibilidade de valores nagativos, o que até então não havia recebido um tratamento adequado. Por fim será estudada uma distribuição conjunta de probabilidade específica dessas variáveis aleatórias, aplicando-se os conceitos de ordem superaditiva de dependência, mostrando-se ser esta a distribuição menos superaditiva dependente, o que até então constituía-se num problema em aberto
Modelos aditivos generalizados com defasagens distribuídas
Existem algumas situações onde a variável resposta é observada repetidamente ao longo do tempo, e o impacto de uma variável preditora em um determinado instante é distribuído sobre várias medidas subsequentes da variável resposta. Por outro lado, outras variáveis preditoras no modelo podem se relacionar com a resposta de forma não linear. Para construir um modelo de regressão adequado para esta situação combinamos duas técnicas: modelos aditivos generalizados e modelos com defasagens distribuídas. Os modelos aditivos generalizados são uma extensão dos modelos lineares generalizados no qual variáveis preditoras contínuas são modeladas por funções não especificadas. Já os modelos com defasagens distribuídas relacionam a variável resposta com valores defasados de uma variável preditora dependente do tempo. A combinação dessas duas técnicas de modelagem resulta nos chamados modelos aditivos generalizados com defasagens distribuídas. A estimação é feita pelo método de máxima verossimilhança penalizada de acordo com a supodição da distribuição da variável resposta. As estimativas são então obtidas combinando o método de mínimos quadrados reponderados iterativamente com a técnica de suavização P-spline. Esta metodologia é aplicada a dados ambientais da cidade de São Paulo para investigar a distribuição do efeito da poluição do ar sobre a natimortalidade e para quantificar o denominado efeito colheita
2003
Alberto Pereira de Barros
Análise Bayesiana de referência para modelos de calibração
No presente trabalho apresentamos o método de construção de prioris de referência desenvolvido por Berger and Bernardo (1989, 1992a, 1992b) e o aplicamos aos modelos estatísticos de regressão binária, regressão binomial, calibração binomial e calibração linear. Obtivemos prioris de referência próprias para os modelos de regressão binária, regressão binomial e calibração binomial. Provamos que a distribuição a posteriori de referência associada ao modelo de calibração çinear é própria e que a distribuição marginal a posteriori de x sub-indíce 0 só possui momentos finitos até a ordem p - 1. Apresentamos esquemas computacionais para a implementação da inferência a posteriori para todos os modelos, assim como um estudo de simulação para avaliar o desempenho da priori de referência associada ao modelo de calibração binomial
Modelo de análise R/S: aplicação a séries temporais de arritmias cardíacas
O estudo de arritmias cardíacas por métodos não-invasivos tem sido desenvolvido com base na monitorização ambulatorial pelo sistema Holter, em um período único de 24 horas. Esta dissertação operacionaliza um tratamento estatístico à metodologia alternativa de monitorização fragmentada no tempo, proposta por Kortas. Foram analisados dados de exames via Holter de 12 pacientes que compreendiam as formas ventriculares (Extra-sístoles Isoladas, Extra-sístoles Pareadas e Taquicardias), coletados durante um período de sete dias consecutivos. Este procedimento mostrou uma efetiva potencialidade de melhoria no diagnóstico clínico, em virtude da detecção de uma componente estatística denominada persistência. Este indicador, obtido através do Modelo de Análise R/S ou 'Rescaled Range', desenvolvido por Harnold Edwin Hurst, revelou a presença de ciclos não periódicos de episódios arrítmicos ao longo das séries. Esta metodologia mostra que a coleta de dados em um único dia pode deixar de captar episódios arrítmicos de grande malignidade, tendo em vista a possibilidade de ocorrência destes episódios em períodos anteriores ou posteriores ao da monitoração convencional. Por meio da fragmentação, esta situação tem maior possibilidade de ser identificada, uma vez que o comportamento persistente da série foi detectado através do método de Hurst. Os resultados alcançados em uma amostra restrita a 12 pacientes evidenciam a possibilidade de utilização da coleta fragmentada como forma de melhoria do diagnóstico clínico. A contribuição deste estudo, portanto, reside no tratamento estatístico da proposição da fragmentação da coleta dos dados apoiada na análise das séries temporais, conforme a teoria desenvolvida por Hurst
2003
Nancy Christiane Ferreira
Soma de variáveis aleatórias equicorrelacionadas e aplicações em análise de risco e séries temporais discretas
O interesse básico das companhias de seguro é analisar os riscos acumulados. A teoria clássica assume independência entre os sinistros, mas na prática eles exibem uma estrutura de dependência. Nesta tese, estudaremos somas aleatórias, relaxando a suposição de independência entre as variáveis aleatórias envolvidas. Para quantificar o grau de dependência, usaremos o coeficiente de correlação. Derivaremos expressões explícitas para a função geradora de probabilidade e obteremos a distribuição aleatória no caso em que as variáveis aleatóriaas são equicorrelacionadas. Além disso, investigaremos mudanças entre os prêmios no caso de riscos dependentes e independentes. Introduziremos o processo autoregressivo de ordem 1 de valores inteiros correlacionados e sugeriremos duas extensões do processo autoregressivo de ordem 1 discreto. Finalmente assumiremos que as variáveis estão em custers independentes mas que dentro de cada cluster elas são igualmente correlacionadas. Utilizaremos a distribuição multinomial para modelar esta situação
2003
Delhi Teresa Paiva Salinas
Imputação de dados categorizados usando o modelo multinomial
Estamos interessados em mostrar como aproveitar observações incompletas, muitas vezes encontradas em estudos envolvendo dados categorizados em tabelas de contingência. Nesse sentido, propomos o ajuste de um modelo de censura aos dados observados, incluindo aqueles incompletos. O modelo poderá ser ignorável ou não-ignorável, permitindo-nos fazer uso da amostra por completo, por meio da imputação de dados. Neste trabalho, ilustramos o ajuste do modelo de censura ignorável para tabelas de contingência com dados esparsos a uma pesquisa de consumo de drogas na Universidade de São Paulo. O modelo de censura não-ignorável também é descrito e é aplicado a dados de pesquisas eleitorais da eleição para Presidente do Brasil em 2002, segundo turno
Número ótimo de aglomerados estocásticos
O número ótimo de aglomerados estocásticos proposto pelo método GAP de Tibshirani et al. (2000) é um procedimento para a determinação do número ideal de aglomerados em uma base de dados. Estudamos aqui a escolha do número de aglomerados quando a base tem uma evolução estocástica markoviana no tempo. Propomos avaliar a eficácia do método GAP e adequá-lo ao procedimento de evolução temporal. Além disto (sic), pretende-se evidenciar por meio de simulações de4 Monte Carlo que a alteração proposta leva à escolha de um valor ótimo com propriedades estatísticas e computacionais desejáveis
Processo KLS
Nesta tese nós estudamos o processo de Katz-Lebowitz-Spohn, resumindo, processo KLS. Este processo é um sistema de partículas em Z onde cada partícula desenvolve passeio aleatório totalmente assimétrico, movendo-se somente para a direita, com exclusão, com taxas de salto que dependem da configuração dos vizinhos anterior e dos dois vizinhos posteriores. Uma das principais dificuldades enfrentadas é que em geral o processo KLS não é atrativo. Outro aspecto relevante é que o fluxo em ma certa região do espaço paramétrico não é uma função nem côncava nem convexa. Nesse trabalho nós caracterizamos as medidas invariantes e invariantes por translações. Obtemos uma lei dos grandes números para o fluxo de partículas. Além disso conseguimos provar a ocorr ncia de choques duplos microsópicos partindo-se e se afastando um do outro em um caso especial do processo KLS
2003
Adriano Francisco Siqueira
Modelo assimétrico com erros nas variáveis
Neste trabalho estudamos o modelo com erros nas variáveis considerando que os erros do modelo são distribuídos segundo uma classe particular de distribuições assimétricas. O estudo é desenvolvido para o modelo estrutural, e são derivados resultados assintóticos que generalizam os obtidos na literatura sob a distribuição normal e distribuições elípticas. São feitas simulações e uma aplicação aos dados da Taxa de Mortalidade Infantil fornecidos pelo Sistema Único de Saúde (SUS) do Ministério da Saúde do Brasil
Métodos restritos e validação de modelos simétricos de regressão
É conhecido na literatura, que a modelagem sob a suposição de erros normalmente distribuídos pode ser altamente influenciada por observações extremas. O objetivo deste trabalho é apresentar alguns resultados na área de modelagem estatística de regressão com erros distribuídos na família simétrica, que contempla distribuições com caudas mais pesadas do que a normal. Numa primeira etapa, são apresentados alguns resultados na classe simétrica de distribuições. Em seguida, métodos de validação de modelos estatísticos baseados na teoria de influência local de4senvolvida por Cook (1986) são apresentados. Quando a suposição de homoscedasticidade do modelo não é verificada, modelos heteroscedásticos são propostos em que a variância do modelo está relacionada, através de uma função de ligação, com um conjunto de variáveis explicativas. Métodos de validação são, também, desenvolvidos nesse caso e conjuntos de dados reais são utilizados para ilustrar a teoria proposta. Numa segunda etapa, discutimos a parte inferencial em modelos simétricos de regressão lineares com restrições nos oarâmetros. Desenvolvemos processos iterativos (sic) para a estimação dos parâmetros e, também, alguns testes estatísticos, tais como razão de verossimilhanças, Wald e escore, para dois casos gerais de hipóteses restritas na forma de desigualdades lineares. Conjuntos de dados reais são utilizados para ilustrar a teoria desenvolvida. Rotinas computacionais originais em S-Plus e R para a obtenção das estimativas restritas e irrestritas em modelos simétricos lineares e não-lineares são desenvolvidas e apresentadas na web-page www.de.ufpe.br/ cysneiros/elliptical.html. Focamos também modelos de regressão com erros t-Student para a análise de dados longitudinais com restrições nos parâmetros na forma de desigualdades lineares.
2004
Francisco José de Azevêdo Cysneiros