Repositório RCAAP
Métodos não tradicionais de seleção de variáveis em modelos de regressão linear
Neste trabalho, apresentamos uma descrição dos métodos não tradicionais de seleção de variáveis preditoras no modelo de regressão linear. Inicialmente, fizemos um breve levantamento dos métodos tradicionais com o objetivo de comparação futura. Posteriormente, foram apresentados métodos do tipo redução, que restringem as estimativas de mínimos quadrados usuais. Numa etapa seguinte, estudamos métodos com enfoque bayesiano na seleção de variáveis preditoras. Finalizando, aplicamos o procedimento de seleção Lasso e um dos procedimentos bayesianos a um conjunto de dados presente na literatura.
2005
Vaudeluci Maria da Silva
O método probabilístico e o lema local de Lovász
O Método Probabilístico pode ser entendido como uma ferramenta de ataque a problemas em matemática discreta. a idéia do método é de que na impossibilidade de exibição de estruturas assumindo propriedades desejadas, substituir esta tarefa pela tarefa de montar um espaço probabilístico apropriado, em que o evento reunindo aquelas estruturas tem probabilidade estritamente positiva.Neste trabalho procuramos mostrar um pouco da essência do Método Probabilístico através de alguns exemplos em combinatória e teoria dos grafos. A partir destes exemplos nota-se a importância do método por sua fácil aplicabilidade e por resolver problemas nos quais nenhuma outra solução é conhecida até hoje. Dentro das várias técnicas do Método Probabilístico, concentramo-nos no Princípio do Primeiro Momento - baseado no simples fato que se E(X) menor ou igual a t, então P(X menor ou igual a t) > 0 - e no Lema Local de Lovász cujo objeto é o cálculo da probabilidade de não ocorrência simultânea de um grupo de eventos em uma situação em que existe dependência entre estes eventos. Apresentamos a segunda técnica como alternativa em situações em que a aplicação da primeira não surte efeito.
Funções de transferência com coeficientes variando no tempo
Neste trabalho apresentamos o modelo de função de transferência quando a série de entrada é localmente estacionária segundo a definição de processos localmente estacionários apresentada por Dahlhaus (1997). Para estimar os coeficientes da função de transferência que, neste caso, variam com o tempo, propusemos um estimador em dois estágios. Em cada estágio, fizemos uma regressão da séire de saída sobre as decomposições em ondaletas da série de entrada e defasagens da série de saída. Mostramos que os estimadores dos coeficientes, na regressão do primeiro estágio têm distribuição normal. Para suavizar as funções estimadas dos coeficientes da função de transferência usamos a técnica de limiarização dos coeficientes estimados por meio do limiar duro universal. Apresentamos uma aplicação aos dados diários de temperatura máxima e precipitação atmosférica em Ribeirão Preto, SP, no período de 01 de janeiro de 1988 a 25 de dezembro de 1996.
2005
Maria Sílvia de Assis Moura
Passeios aleatórios em meios aleatórios dependentes
Após uma revisão de conceito e definiçòes sobre o passeio aleatório em meio aleatório, apresentamos uma nova prova para o Teorema de Sinai (1982), separando a prova em duas partes independentes: uma parte quenched (referente à medida P IND 'ômega' condicionada a uma realização 'ômega' bem comportada do meio aleatório) e uma parte annealed (referente à medida do produto P dos ambientes 'ômega').
Inferência bayesiana no modelo normal assimétrico
Esta dissertação compreende um estudo dos aspectos inferenciais da distribuição normal assimétrica, assim como o modelo de regressão considerando erros normais assimétricos. Nossa principal contribuição está na derivação de uma aproximação para a priori de Jeffreys e para informação de Fisher da distribuição normal assimétrica padrão e uma proposta de uma nova distribuição a priori não subjetiva para o parâmetro de assimetria do modelo. Também propomos uma nova reparametrização, que na abordagem clássica, permite obter formas fechadas na construção do algoritmo EM, e na abordagem bayesiana, formas conhecidas para as distribuições condicionais a posteriori, o que facilita a implementação do algoritmo de Gibbs. Estimadores bayesianos como a média, a mediana e o máximo a posteriori sob as duas prioris mencionadas acima foram comparados com o estimador de máxima verossimilhança mediante um estudo de simulação. Também foi avaliado no estudo de simulação o comportamento de estimadores intervalares, como o intervalo de confiança assitótico e os intervalos de credibilidade bayesianos. No caso de testes de hipóteses, foram comparados os desempenhos do teste de razão de verossimilhanças e do fator de Bayes.
2005
Cristian Luis Bayes Rodríguez
Modelos lineares mistos assimétricos
Modelos lineares mistos tem sido frequentemente usados na análise de dados onde as respostas são agrupadas, pelo fato de serem flexíveis para modelar a correlação entre e intra-indivíduos (ou grupos). A normalidade (simetria) dos efeitos e erros aleatórios é uma suposição rotineira em modelos lineares mistos, que pode ser não realista e obscurecer importantes características da variação entre e intra-indivíduos (ou grupos). Neste trabalho relaxamos a suposição de normalidade considerando que tanto os erros como os efeitos aleatórios seguem uma distribuição normal-assimétrica, que inclui a distribuição normal como caso especial e fornece flexibilidade em capturar uma ampla variedade de comportamentos não normais, por simplesmente adicionar um parâmetro que controla o grau de assimetria. A densidade marginal das quantidades observadas é encontrada e mostramos que tem forma fechada, de modo que inferências podem ser abordadas usando programas computacionais conhecidos (R, S-plus, Matlab) e técnicas de otimização padrão. Explorando propriedades estatísticas do modelo considerado implementando o algoritmo EM que fornece algumas vantagens sobre a maximização direta da função log-verossimilhança. Apresentamos também, para esta distribuição normal-assimétrica multivariada, vários resultados relacionados com a teoria da distribuição das formas quadráticas, transformações lineares, densidade marginal e condicionamento. Em um segundo estágio do trabalho, usando uma segunda versão de distribuiçào normal-assimétrica multivariada, os modelos lineares mistos normal assimétricos bayesianos são definidos e procedimentos relacionados com o método Monte Carlo via cadeias de Markov (MCMC) são apresentados fazendo da inferência bayesiana uma alternativa viável para tais modelos. Em ambos os casos, resultados de estudo de simulação e aplicações a conjuntos de dados reais são fornecidos mostrando que os critérios de informação padrão, tais como AIC, BIC e HQ podem ser usados para detectar afastamentos da normalidade (simetria). Finalmente, apresentamos métodos para estimação em modelos lineares mistos com erros nas variáveis, baseados na função escore corrigido de Nakamura (1990), simulação-extrapolação (SIMEX) de Stefanski e Cook (1995) e máxima verossimilhança. Um estudo de simulação comparando os métodos SIMEX e escore corrigido é apresentado.
2004
Victor Hugo Lachos Davila
Análise fatorial múltipla para tabelas de contingência
Atualmente muitos estudos de diferentes iniciativas governamentais e acadêmicas buscam identificar um Sistema Nacional de Inovação em Saúde. Esses estudos tentam carcterizar os setores de atividade econômica envolvidos em Saúde. Nesta dissertação a caracterização baseia-se nos registros da versão 4.1 do Diretório dos Grupos de Pesqui8sa no Brasil (Gpesq-4), no qual os mesmos registram Saúde como área do conhecimento científico ou setor de atividade econômica em quaisquer de suas linhas de pesquisa. No Gpesp-4, os grupos podem registrar até três áreas do conhecimento e até três setores econômicos. O fato des estas variáveis apresentarem multiplicidade de respostas e, além disso, em uma das variáveis termos a presença de ordem de importância, tronou a análise destes dados um desafio e uma forte motivação para estudar as alternativas disponíveis para este tipo de problema. O objetivo foi buscar alternativas de análise para esta situação e o resultado são quatro formas diferentes para traçar este retrato do sistema, relacionando as áreas e os setores. A primeira solução é uma análise de Correspondência Simples (ACS) para uma tabela de múltipla resposta com todos os cruzamentos de área e setor, onde o total da tabela supera o tamanho da população. A segunda solução também é uma ACS, porém em uma tabela de contingência na qual temos as combinações observadas entre áreas e entre setores. Uma terceira solução é o uso da Análise de Correspondência Múltipla (ACM) para indicadores de cada área e de cada setor e por último, Análise Fatorial Múltipla para Tabelas de Contingência (AFMTC), na qual levamos em conta a ordem de importância que os respondentes agregaram aos setores econômicos. Nesta dissertação, descrevemos essas três técnicas, com maior ênfase para AFMTC, desenvolvemos o programa em R para sua aplicação e apresentamos as análise dos dados do Gpesq-4.
2005
Valéria Troncoso Baltar
Estimação da volatilidade diária com dados de alta freqüência:: aplicações ao cálculo do valor em risco do IBOVESPA
Este trabalho tem como objetivo a avaliação empírica da previsão de volatilidade do índice BOVESPA, tanto de modelos tradicionais em base diária, como algumas adaptações para a inclusão da informação intradiária, com a intenção de obter melhores previsões no horizonte de um dia à frente. A intuição dessa análise vem da observação de casos onde há grandes variações de preços intradiários, mas em que o preço de fechamento é próximo ao do dia anterior, e, portanto, os modelos tradicionais em bases diárias não capturam esta volatilidade. Os modelos empregados aqui são os da família GARCH e os de memória longa FARIMA. Também foram feitas aplicaçòes no cálculo do Valor em Risco (VaR). A conclusão do trabalho aponta a viabilidade do uso dos dados intradiários para realizar previsões de horizonte diário, e mais, há indícios de que podem melhorar a curácia das previsões.
Desenvolvimento e análise de estruturas de dependência via cópulas
Neste trabalho apresentamos vários resultados relacionados com a teoria de cópulas. É feita uma representação para distribuições bivariadas que utiliza uma nova medida de dependência local que denominamos função Spearman e estudamos suas propriedades. Apresentamos a cópula associada a estrutura de dependência de estatísticas de ordem bivariadas, mostramos uma relação de recorrência assim como os limites de Fréchet associados. Finalmente, mostramos alguns resultados relacionados com a análise da dependência de vetores aleatórios não sobrepostos, apresentando uma adaptação do método de Cohen para cópulas em que deste modo pode-se construir uma (n'IND.1' +n'IND.2')-dimensional cópula C consistente com as cópulas n'IND.1'-dimensional cópula C'IND.1' e n'IND.2'-dimensional cópula C'IND.2' associadas com as marginais multivariadas dadas. Apresentamos também outra ferramenta que utiliza cópulas para estudar a estrutura de dependência de vetores aleatórios não sobrepostos em que as marginais são as distribuições de Kendall associadas aos vetores aleatórios.
2005
Ulisses Umbelino dos Anjos
Modelagem bayesiana para dados de sobrevivência bivariados através de cópulas
Este trabalho apresenta uma abordagem bayesiana paramétrica para o estudo de dados bivariados em Análise de Sobrevivência. Considerando cópulas arquimedianas para modelar a estrutura de dependência entre os tempos de falha, procedimentos bayesianos de estimação para os parâmetros de interesse são propostos e ilustrados através de duas aplicações. Utilizando a relação funcional entre cópulas e as funções de sobrevivência marginal, o método delta para funcionais é aplicado e propriedades assintóticas do estimador da função de sobrevivência bivariada são estudadas.
2005
José Santos Romeo Núñez
Teoria da confiabilidade em um modelo de tempo de vida geral: importância de componentes e Burn-in
Neste trabalho abordamos três temas principais que generalizam alguns resultados clássicos da Teoria da Confiabilidade, todos associados a um modelo de tempo de vida geral. Na primeira parte estudamos o conceito da importância da confiabilidade de um componente para a confiabilidade do sistema de Barlow e Proschan. Na segunda parte, observando o sistema a níveis de seus componentes, definimos uma medida de importância através dos processos de ganhos de inovaçòes, generalizando um resultado de Norros (1986b). Finalizamos este trabalho analisando modelos de Burn-in envolvendo processos de custos e ganhos e encontrando um tempo de parada ótimo baseado na regra de parada IOPF (infinitesimal olhada para a frente).
Blocos de consenso, esquemas regenerativos e estimação em tempo polinomial de longas amostras de cadeias de Markov ocultas
Esta tese propõe duas abordagens para estimar a seqüência oculta de uma cadeia de Markov oculta: blocos de consenso e blocos de regeneração. Em ambos os casos os algoritmos resultantes dependem de um número de operações que cresce polinomialmente com o tamanho da seqüência. Na primeira abordagem, quebramos a seqüência visível em blocos e estimamos a seqüência oculta de acordo com a maioria de símboos que enxergamos na seqüência visível. Na segunda abordagem, utilizamos a estrutura regenerativa da cadeia para decompor em edois blocos independentes. Obtivemos limites superiores para a probabilidade de erro de estimação com os dois métodos. Na segunda abordagem, utilizamos o método de Monte Carlo markoviano e o algoritmo de Metrópolis para construir iterativamente a seqüência de instantes de regeneração e os blocos correspondentes de estados ocultos, dada a seqüência visível da cadeia. Na demonstração dos resultados foram utilizados resultados de esquemas regenerativos, o método de Chernoff e a desigualdade de Hoeffding. Esta tese tem também uma componente computacional. Com efeito, desenvolvemos rotinas em R que implementam os diversos algoritmos propostos. Também fizemos simulações que ilustram a funcionalidade dos algoritmos.
Análise de confiabilidade em sistemas reparáveis complexos
Os modelos mais comuns utilizados para descrever o fluxo de falhas de sistemas reparáveis são os processos de Poisson homogêneo e não-homogêneo, e o processo de renovação. Este trabalho tem como objetivo descrever o método de análise da confiabilidade de sistemas reparáveis complexos, utilizando o modelo misto, que incorpora, simultaneamente, os padrões poissoniano e de renovação na modelagem da função de intensidade completa. A intenção é mostrar a flexibilidade e o poder deste modelo na análise de dados de falhas recorrentes.
2005
Marco César dos Santos Barbosa
Análise de sobrevivência de um sistema em paralelo: uma perspectiva Bayesiana não-paramétrica
Este trabalho apresenta estimativas das funções de distribuição dos tempos de vida de um sistema em paralelo e seus componentes. A perspectiva é a bayesiana não-paramétrica. O problema inferencial inicia-se quando se observa o tempo de falha do sistema e identifica-se o último componente falhado à época da observação. Considerando um processo de Dirichlet multivariado, como uma classe de distribuições a priori para o vetor formado pelas funções de subdistribuição, estimadores bayesianos não-paramétricos para a função de distribuição e para a confiabilidade do sistema são obtidos. Utilizando-se a relação entre as funções de distribuições apresentadas aqui, são propostos estimadores não-paramétricos para as funções de distribuição dos componentes. Um exemplo numérico também é apresentado.
2005
Adriano Polpo de Campos
Aplicações em finanças da aproximação de processos estocásticos em tempo contínuo por processos em tempo discreto
Apresentamos uma aplicação de parte da teoria estatística avançada na solução de um problema prático no mercado financeiro: a precificação de opções. Iniciaremos definindo o que são estes instrumentos financeiros conhecidos como opções e quais são os passos que devem ser seguidos para a construção de um modelo genérico para precificação destas. O modelo apresentado pode ser generalizado para a precificação de um ativo financeiro qualquer. Após esta breve introdução, veremos que este modelo exige o cálculo de uma esperança matemática para o qual nem sempre há solução analítica. Assim, partimos para resolver este problema por meio da aproximação de processos estocásticos em tempo contínuo por processos em tempo discreto. Inicialmente utilizaremos as mesmas premissas utilizadas por Black and Scholes sobre a dinâmica do processo de preço dos ativos no mercado. Dadas estas premissas, apresentaremos os principais resultados da teoria estatística avançada que nos garante a qualidade da aproximação. Tais resultados são demonstrados de forma didática e intuitiva em três capítulos da dissertação.Prosseguiremos apresentando sucintamente como aplicar estes resultados na precificação de opções européias e americanas, tanto as tradicionais quanto as exóticas. As aplicaçòes sempre são efetuadas com dados reais do mercado financeiro brasileiro. O trabalho é finalizado apresentando um modelo de precificação baseado no modelo GARCH para a volatilidade. Os resultados sugerem que este apresente desempenho superior ao modelo tradicional de Black and Scholes na explicação dos reais preços pelos quais certas opções foram negociadas na Bolsa de Valores de São Paulo.
Análise Bayesiana para a superposição de processos de Poisson não-homogêneos dependentes na presença de covariáveis
O principal objetivo deste trabalho é aplicar métodos de Monte Carlo via Cadeias de Markov para obter os sumários a posteriori do parâmetro de interesse de alguns modelos especiais considerados na Teoria de Confiabilidade.Uma metodologia Bayesiana é desenvolvida para a superposição de dois processos de Poisson não-homogêneo dependentes na presença ou não de covariáveis. Usamos métodos Bayesianos para discriminar os modelos propostos para os dados de confiabilidade de software. Uma análise Bayesiana é desenvolvida para processos de Poisson não-homogêneos na presença de um ponto de mudança na função intensidade usando os métodos de Monte Carlo via Cadeias de Markov (MCMC). Nesta situação, temos interesse em obter inferência deste ponto de mudança onde o processo de Poisson não-homogêneo muda. Uma ilustração numérica é apresentada com conjunto de dados simulados e reais.
2005
William de Souza Pereira
Hybrid qualitative state plan problem and mission planning with UAVs
This paper aims to present the thesis developed in the Doctoral Programin Computer Science and Computational Mathematics of the ICMC/USP. The thesis theme seeks to advance the state of the art by solving the problems of scalability and representation present in mission planning algorithms for Unmanned Aerial Vehicle (UAV). Techniques based on mathematical programming and evolutionary computation are proposed. Articles have been published, submitted or they are in final stages of preparation.These studies report the most significant advances in the representation and scalability of this problem. Mission planners worked on the thesis deal with stochastic problems in non-convex environments,where collision risks or failures in mission planning are treated and limited to a tolerated value. The advances in the representation allowed to solve violations in the risks present in the original literature modeling, besides making the models more realistic when incorporating aspects such as effects of the air resistance. Efficient mathematical modeling techniques allowed to advance from a Mixed Integer Nonlinear Programming (MINLP) model, originally proposed in the literature, to a Mixed Integer Linear Programming (MILP) problem. Modeling as a MILP led to problem solving more efficiently through the branch-and-algorithm. The proposed new representations resulted in improvements from scalability, solving more complex problems within a shorter computational time. In addition, advances in scalability are even more effective when techniques combining mathematical programming and metaheuristics have been applied to the problem.
2017
Márcio da Silva Arantes
Aspect extraction in sentiment analysis for portuguese language
Aspect-based sentiment analysis is the field of study which extracts and interpret the sentiment, usually classified as positive or negative, towards some target or aspect in an opinionated text. This doctoral dissertation details an empirical study of techniques and methods for aspect extraction in aspect-based sentiment analysis with the focus on Portuguese. Three different approaches were explored: frequency-based, relation-based and machine learning. In each one, this work shows a comparative study between a Portuguese and an English corpora and the differences found in applying the approaches. In addition, richer linguistic knowledge is also explored by using syntatic dependencies and semantic roles, leading to better results. This work lead to the establishment of new benchmarks for the aspect extraction in Portuguese.
2017
Pedro Paulo Balage Filho
Classicação de séries temporais utilizando diferentes representações de dados e ensembles
Dados temporais são ubíquos em quase todas as áreas do conhecimento humano. A área de aprendizado de máquina tem contribuído para a mineração desse tipo de dados com algoritmos para classificação, agrupamento, detecção de anomalias ou exceções e detecção de padrões recorrentes, dentre outros. Tais algoritmos dependem, muitas vezes, de uma função capaz de expressar um conceito de similaridade entre os dados. Um dos mais importantes modelos de classificação, denominado 1-NN, utiliza uma função de distância para comparar uma série temporal de interesse a um conjunto de referência, atribuindo à primeira o rótulo da série de referência mais semelhante. Entretanto, existem situações nas quais os dados temporais são insuficientes para identificar vizinhos de acordo com o conceito associado às classes. Uma possível abordagem é transportar as séries para um domínio de representação no qual atributos mais relevantes para a classificação são mais claros. Por exemplo, uma série temporal pode ser decomposta em componentes periódicas de diferentes frequências e amplitudes. Para muitas aplicações, essas componentes são muito mais significativas na discriminação das classes do que a evolução da série ao longo do tempo. Nesta Tese, emprega-se diversidade de representações e de distâncias para a classificação de séries temporais. Com base na escolha de uma representação de dados adequada para expor as características discriminativas do domínio, pode-se obter classificadores mais fiéis ao conceitoalvo. Para esse fim, promove-se um estudo de domínios de representação de dados temporais, visando identificar como esses domínios podem estabelecer espaços alternativos de decisão. Diferentes modelos do classificador 1-NN são avaliados isoladamente e associados em ensembles de classificadores a fim de se obter classificadores mais robustos. Funções de distância e domínios alternativos de representação são também utilizados neste trabalho para produzir atributos não temporais, denominados atributos de distâncias. Esses atributos refletem conceitos de vizinhança aos exemplos do conjunto de treinamento e podem ser utilizados para treinar modelos de classificação que tipicamente não são eficazes quando treinados com as observações originais. Nesta Tese mostra-se que atributos de distância permitem obter resultados compatíveis com o estado-da-arte.