Repositório RCAAP
INTEMA: UM GERADOR DE EXPLICAÇÕES PARA SISTEMAS TUTORES INTELIGENTES
Esta dissertação apresenta o projeto de construção do sistema INTEMA: um gerador de explicações e um ambiente de interação para Sistemas Tutores Inteligentes (sTIs) em Matemática. o INTEMA é parte de uma arquitetura genérica de STIs em Matemática que permite a troca de domínio, sem necessidade de alterar a geração de explicações. As explicações geradas têm por objetivo justificar o comportamento do sistema e informar os usuários, de maneira individualizada, sobre as características e funções do sistema. O estilo de interação fornecido pelo sistema é o de manipulação direta. São discutidos em detalhes os três módulos principais do INTEMA: planejador, realizador e interface. Um exemplo de interação com o sistema no domínio de Lógica de Primeira Ordem é apresentado.
2022-12-06T14:47:11Z
Marcus Vinicius Maltempi
Identificação dos sintomas de ferrugem em áreas cultivadas com cana-de-açúcar
Áreas cultivadas com cana-de-açúcar podem sofrer o ataque do fungo Puccinia melanocephala e variedades suscetíveis desenvolvem uma doença conhecida por ferrugem da cana-de-açúcar. Por afetar, geralmente, áreas imensas, os prejuízos são grandes. Atualmente, a avaliação da doença é feita por especialistas que percorrem as áreas plantadas analisando visualmente as folhas e atribuindo à região um determinado grau de infecção. Esse modelo pode ser considerado subjetivo pois, dependendo da experiência e acuidade visual do especialista, a avaliação de uma mesma área pode apresentar resultados divergentes. Diante desta situação, este trabalho apresenta uma abordagem para automatizar o processo de identificação e avaliação, criando alternativas para minimizar os prejuízos. Este trabalho apresenta um método para classificação dos níveis de infecção da ferrugem por meio da análise de imagens aéreas de canaviais, adquiridas por um aeromodelo. Dessas fotos são extraídas características baseadas nas cores, as quais são classificadas por meio de uma rede neural backpropagation. Além disso, foi implementado um método para segmentação de imagens digitais de folhas de cana-de-açúcar infectadas com o intuito de corroborar a avaliação manual feita por especialistas. Os resultados mostram que o método é eficaz na discriminação dos três níveis de infecção disponíveis, além disso, indicam que este pode ser igualmente eficiente na discriminação dos nove níveis de infecção da escala adotada.
2022-12-06T14:47:11Z
Desirée Nagliati Dias
Algoritmo kNN para previsão de dados temporais: funções de previsão e critérios de seleção de vizinhos próximos aplicados a variáveis ambientais em limnologia
A análise de dados contendo informações sequenciais é um problema de crescente interesse devido à grande quantidade de informação que é gerada, entre outros, em processos de monitoramento. As séries temporais são um dos tipos mais comuns de dados sequenciais e consistem em observações ao longo do tempo. O algoritmo k-Nearest Neighbor - Time Series Prediction kNN-TSP é um método de previsão de dados temporais. A principal vantagem do algoritmo é a sua simplicidade, e a sua aplicabilidade na análise de séries temporais não-lineares e na previsão de comportamentos sazonais. Entretanto, ainda que ele frequentemente encontre as melhores previsões para séries temporais parcialmente periódicas, várias questões relacionadas com a determinação de seus parâmetros continuam em aberto. Este trabalho, foca-se em dois desses parâmetros, relacionados com a seleção de vizinhos mais próximos e a função de previsão. Para isso, é proposta uma abordagem simples para selecionar vizinhos mais próximos que considera a similaridade e a distância temporal de modo a selecionar os padrões mais similares e mais recentes. Também é proposta uma função de previsão que tem a propriedade de manter bom desempenho na presença de padrões em níveis diferentes da série temporal. Esses parâmetros foram avaliados empiricamente utilizando várias séries temporais, inclusive caóticas, bem como séries temporais reais referentes a variáveis ambientais do reservatório de Itaipu, disponibilizadas pela Itaipu Binacional. Três variáveis limnológicas fortemente correlacionadas são consideradas nos experimentos de previsão: temperatura da água, temperatura do ar e oxigênio dissolvido. Uma análise de correlação é realizada para verificar se os dados previstos mantem a correlação das variáveis. Os resultados mostram que, o critério de seleção de vizinhos próximos e a função de previsão, propostos neste trabalho, são promissores
2022-12-06T14:47:11Z
Carlos Andres Ferrero
Uma metodologia para exploração de regras de associação generalizadas integrando técnicas de visualização de informação com medidas de avaliação do conhecimento
O processo de mineração de dados tem como objetivo encontrar o conhecimento implícito em um conjunto de dados para auxiliar a tomada de decisão. Do ponto de vista do usuário, vários problemas podem ser encontrados durante a etapa de pós-processamento e disponibilização do conhecimento extraído, como a enorme quantidade de padrões gerados por alguns algoritmos de extração e a dificuldade na compreensão dos modelos extraídos dos dados. Além do problema da quantidade de regras, os algoritmos tradicionais de regras de associação podem levar à descoberta de conhecimento muito específico. Assim, pode ser realizada a generalização das regras de associação com o intuito de obter um conhecimento mais geral. Neste projeto é proposta uma metodologia interativa que auxilie na avaliação de regras de associação generalizadas, visando melhorar a compreensibilidade e facilitar a identificação de conhecimento interessante. Este auxílio é realizado por meio do uso de técnicas de visualização em conjunto com a aplicação medidas de avaliação objetivas e subjetivas, que estão implementadas no módulo de visualização de regras de associação generalizados denominado RulEE-GARVis, que está integrado ao ambiente de exploração de regras RulEE (Rule Exploration Environment). O ambiente RulEE está sendo desenvolvido no LABIC-ICMC-USP e auxilia a etapa de pós-processamento e disponibilização de conhecimento. Neste contexto, também foi objetivo deste projeto de pesquisa desenvolver o Módulo de Gerenciamento do ambiente de exploração de regras RulEE. Com a realização do estudo dirigido, foi possível verificar que a metodologia proposta realmente facilita a compreensão e a identificação de regras de associação generalizadas interessantes
2022-12-06T14:47:11Z
Magaly Lika Fujimoto
Provisão integrada de QoS relativa e absoluta em serviços computacionais interativos com requisitos de responsividade de tempo real
Aplicações de sistemas computacionais emergentes atribuindo requisitos de resposta na forma de tempo de resposta requerem uma abordagem de sistemas de tempo real. Nesses sistemas, a qualidade de serviço é expressa como garantia das restrições temporais. Um amplo leque de técnicas para provisão de QoS encontram-se na literatura. Estas técnicas são baseadas tanto na diferenciação de serviço (QoS relativa), quanto na especificação de garantia de desempenho (QoS absoluta). Porém, a integração de QoS relativa e absoluta em nível de aplicação não tem sido tão explorada. Este trabalho realiza o estudo, a análise e a proposta de um método de escalonamento de tempo real em um ambiente simulado, baseado em contratos virtuais adaptativos e modelo re-alimentado. O objetivo é relaxar as restrições temporais dos usuários menos exigentes e priorizar usuários mais exigentes, sem degradar a qualidade do sistema como um todo. Para tanto, estratégias são exploradas em nível de escalonamento para o cumprimento dos contratos especificados por requisitos de tempo médio de resposta. Os resultados alcançados com o emprego do método proposto sinalizam uma melhoria em termos de qualidade de serviço relativa e absoluta e uma melhor satisfação dos usuários. Este trabalho também propõe uma extensão para os modelos convencionalmente estudados nesse contexto, ampliando a formulação original de duas classes para n classes de serviços
2022-12-06T14:47:11Z
Priscila Tiemi Maeda Saito
Gerenciamento de configuração de uma linha de produtos de software de veículos aéreos não tripulados
Veículos Aéreos não Tripulados (VANTs) são aeronaves que voam sem tripulação e são capazes de realizar diversos tipos de missões, como vigilância, coleta de dados topográficos e monitoramento ambiental. Este é um domínio que tem muito a ganhar com a aplicação da abordagem de Linha de Produtos de Software (LPS), uma vez que é rico em variabilidades e cada modelo de VANT tem também muitas partes comuns. Neste trabalho é apresentada uma infraestrutura tecnológica e de configuração de ativos em Simulink, gerenciados pelas ferramentas Pure::variant e Hephaestos para uma LPS de VANTs. Um conjunto de padrões para especificação de variabilidades em Simulink é proposto, bem como uma extensão para a ferramenta Hephaestus. Uma comparação entre as ferramentas Pure::variants e Hephaestus é apresentada
2022-12-06T14:47:11Z
Eduardo Miranda Steiner
Abordagem Bayesiana na inferência das probabilidades de transição em cadeias de Markov discretas: uma aplicação no modelo de fluxo escolar
Atualmente, os principais indicadores sobre a educação básica no Brasil são calculados a partir dos resultados apurados pelo Censo Escolar, fonte que apresenta inconsistências nos resultados, principalmente na obtenção das Taxas do Fluxo Escolar e nos totais de matrículas dos alunos. O modelo de Fluxo Escolar tem como função descrever o movimento dos alunos dentro do Sistema de Ensino, reconstruindo a evolução dos mesmos nas séries do ensino fundamental ao longo dos anos mediante as Taxas de Transição. É desenvolvida uma metodologia baseados numa proposta demográfica, onde é mostrada a dinâmica do processo de transição das séries que regulam o fluxo dos alunos medindo as taxas de promoções, repetências e desistências, de forma a estimar o fluxo dos estudantes para uma coorte hipotética de uma determinada idade. O presente trabalho tenta encontrar uma ponte entre a explicação da atual realidade educacional do país com a teoria e as ferramentas estatísticas, as quais tentam conseguir uma melhor visão da dimensão do desempenho do Sistema Educativo. O ponto central do trabalho trata das estimativas e previsões de matrículas que possam explicar esta dimensão, a traves da estimação das chamadas taxas do Fluxo Escolar. É descrito o tratamento de Cadeias de Markov Discretas mediante a Inferência Clássica, dado que o número de alunos aprovados, repetentes e evadidos podem ser vistos como tal. São calculados os Estimadores de Máxima Verossimilhança das taxas e são mostradas as propriedades asintóticas das mesmas e encontrada a distribuição asintótica com correlação serial, dado que os dados tem certa medida de dependência entre pares sucessivos de observações, são construídos testes de hipóteses e é feita uma abordagem Bayesiana considerando que o número de alunos aprovados, repetentes e evadidos tem uma distribuição multinomial sendo os parâmetros as probabilidades de transição (taxas de transição do fluxo). É feita a análise considerando primeiro como priori não informativa a priori de Jeffrey, logo é considerada como priori conjugada uma distribuição beta multivariada, conhecida também como distribuição de Dirichlet, esta distribuição pode ser interpretada como contendo informação equivalente ao número total de matrículas. As taxas do fluxo são estimadas usando função de perda quadrática. Também é considerado como estimador das taxas a moda da posteriori, em ausência de uma função de perda específica. São desenhadas propostas futuras dando alguns tópicos de Inferência Bayesiana para Processos estocâsticos. As taxas do Fluxo escolar são calculadas para diversas regiões do país e é considerado um modelo hierárquico com parâmetros comuns para cada região. Dessa forma o presente estudo busca contribuir no sentido de apresentar e discutir as possibilidades do modelo de Profluxo e, ao mesmo tempo, propor uma metodologia que combine os resultados deste método com as tendências demográficas e a teoria estatística, de maneira a se ter um quadro mais fidedigno na demanda por ensino fundamental no Brasil para os anos seguintes.
2022-12-06T14:47:11Z
Manuel Orlando Orrillo Ascama
Inferência em processos de difusão com observações parciais e determinação da medida martingale equivalente na precificação de opções
Neste trabalho foi feita uma aplicação das Equações Diferenciais Estocásticas á teoria da Precificação de Opções. Esta teoria teve grande impulso com o trabalho [Black & Scholes, 73], Black e Scholes em seu trabalho entre outra premissas feitas consideraram que os log-retornos dos ativos tinha uma distribuição normal. Aqui neste trabalho foram considerados três modelos, um deles é a difusão log- normal utilizada por Black-Scholes os outros dois modelos são a difusão linear e o processo de Ornstein-Uhlenbeck. Para estes três modelos foram determinadas as Medidas Martingales Equivalentes, isto foi feito utilizando o Teorema de Cameron-Martin- Girsanov, veja [Friedman, 75], Também foram analisadas versões discretas destes modelos obtidas pela aproximação de Euler, veja [Kloeden & Platen, 95]. O objetivo foi comparar os resultados obtidos com os modelos contínuos com os resultados obtidos com os modelos discretos. Também se fez uma análise dos estimadores dos parâmetros dos modelos contínuos. Nesta análise foi utilizada a abordagem Clássica e a abordagem Bayesiana. Primeiramente se fez uma comparação das estimativas obtidas por estas duas abordagens e posteriormente uma análise do comportamento assintótico desses estimadores.
2022-12-06T14:47:11Z
Ulisses Umbelino dos Anjos
Abordagens para otimização integrada dos problemas de geração e seqüenciamento de padrões de corte
O problema de corte de estoque consiste em cortar unidades maiores (objetos) em unidades menores (itens) de maneira a satisfazer uma demanda e otimizar algum critério, por exemplo, minimizar a perda gerada pelos padrões de corte (um padrão descreve como arranjar itens dentro de um objeto). O problema dc sequenciamento de padrões de corte consiste em determinar uma sequência, na qual os padrões serão processados a fim de otimizar algum critério, por exemplo, minimizar o número máximo de pilhas abertas (itens que ainda serão cortados de um ou mais padrões na sequência) durante o corte dos padrões. Em alguns processos industriais os problemas de geração e sequenciamento de padrões de corte não podem ser resolvidos de forma independente pois, em geral, uma boa solução para o problema de corte (isto é, com pequena perda de material) não corresponde a uma boa solução para o problema de sequenciamento (isto é, com um pequeno número de pilhas abertas) e vice-versa. Existe, na verdade, um trade-off entre os objetivos desses dois problemas. Neste trabalho três abordagens heurísticas são apresentadas para resolver de forma integrada os problemas de geração e sequenciamento de padrões. Os resultados computacionais apresentados mostram que as abordagens geram boas soluções e são eficazes para analisar o trade-off entre esses dois problemas.
2022-12-06T14:47:11Z
Gisele Castro Fontanella Pileggi
Indexação e recuperação de informações utilizando redes neurais da família ART
Os Sistemas de Gerenciamento de Banco de Dados (SGBDs) existentes são muito sofisticados, eficientes e rápidos na recuperação de informações envolvendo dados de tipos tradicionais, tais como números, texto, etc., mas existem muitas limitações em se tratando de recuperar informações quando os tipos de dados são mais complexos, isto é, dados multi-dimensionais. Considerando os problemas existentes com a indexação e recuperação de dados multi-dimensionais, este trabalho propõe um sistema híbrido que combina um modelo de Redes Neurais da família ART, ART2-A, com uma estrutura de dados, Slim-Tree, que é um método de acesso a dados no espaço métrico. Esta proposta é uma alternativa para realizar o processo de agrupamento de dados de forma \"inteligente\" tal que os dados pertencentes aos agrupamentos (clusters) possam ser recuperados a partir da Slim-Tree correspondente. O sistema híbrido proposto é capaz de realizar consultas do tipo: busca por abrangência e dos k-vizinhos mais próximos, o que não é característica comum das redes neurais artificiais. Além disto, os experimentos realizados mostram que o desempenho do sistema foi igual ou superior ao desempenho obtido pela Slim-Tree.
2022-12-06T14:47:11Z
José Flavio Vicentini
Caracterização de classes e detecção de outliers em redes complexa
As redes complexas surgiram como uma nova e importante maneira de representação e abstração de dados capaz de capturar as relações espaciais, topológicas, funcionais, entre outras características presentes em muitas bases de dados. Dentre as várias abordagens para a análise de dados, destacam-se a classificação e a detecção de outliers. A classificação de dados permite atribuir uma classe aos dados, baseada nas características de seus atributos e a detecção de outliers busca por dados cujas características se diferem dos demais. Métodos de classificação de dados e de detecção de outliers baseados em redes complexas ainda são pouco estudados. Tendo em vista os benefícios proporcionados pelo uso de redes complexas na representação de dados, o presente trabalho apresenta o desenvolvimento de um método baseado em redes complexas para detecção de outliers que utiliza a caminhada aleatória e um índice de dissimilaridade. Este método possibilita a identificação de diferentes tipos de outliers usando a mesma medida. Dependendo da estrutura da rede, os vértices outliers podem ser tanto aqueles distantes do centro como os centrais, podem ser hubs ou vértices com poucas ligações. De um modo geral, a medida proposta é uma boa estimadora de vértices outliers em uma rede, identificando, de maneira adequada, vértices com uma estrutura diferenciada ou com uma função especial na rede. Foi proposta também uma técnica de construção de redes capaz de representar relações de similaridade entre classes de dados, baseada em uma função de energia que considera medidas de pureza e extensão da rede. Esta rede construída foi utilizada para caracterizar mistura entre classes de dados. A caracterização de classes é uma questão importante na classificação de dados, porém ainda é pouco explorada. Considera-se que o trabalho desenvolvido é uma das primeiras tentativas nesta direção
2022-12-06T14:47:11Z
Lilian Berton
Um estudo comparativo das especificações de segurança aplicadas a uma arquitetura orientada a serviços
Neste projeto é proposta uma avaliação e comparação de diretrizes e a adequação de técnicas que permitam não somente a criação de Web services seguros, mas também a validação dos serviços utilizados para determinar se a aplicação possui as características almejadas relacionadas ao desempenho e à segurança. Neste sentido, é primordial analisar as principais especificações de segurança empregadas em Web services no contexto atual, bem como avaliar os algoritmos criptográficos e o comprimento das chaves utilizadas. Os resultados obtidos permitem determinar, com base nos objetivos especificados, qual o impacto dos mecanismos de segurança utilizados no desempenho da aplicação
2022-12-06T14:47:11Z
Douglas Rodrigues
Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres
2022-12-06T14:47:11Z
Jefferson Fontinele da Silva
Seleção de características por meio de algoritmos genéticos para aprimoramento de rankings e de modelos de classificação
Sistemas de recuperação de imagens por conteúdo (Content-based image retrieval { CBIR) e de classificação dependem fortemente de vetores de características que são extraídos das imagens considerando critérios visuais específicos. É comum que o tamanho dos vetores de características seja da ordem de centenas de elementos. Conforme se aumenta o tamanho (dimensionalidade) do vetor de características, também se aumentam os graus de irrelevâncias e redundâncias, levando ao problema da \"maldição da dimensionalidade\". Desse modo, a seleção das características relevantes é um passo primordial para o bom funcionamento de sistemas CBIR e de classificação. Nesta tese são apresentados novos métodos de seleção de características baseados em algoritmos genéticos (do inglês genetic algorithms - GA), visando o aprimoramento de consultas por similaridade e modelos de classificação. A família Fc (\"Fitness coach\") de funções de avaliação proposta vale-se de funções de avaliação de ranking, para desenvolver uma nova abordagem de seleção de características baseada em GA que visa aprimorar a acurácia de sistemas CBIR. A habilidade de busca de GA considerando os critérios de avaliação propostos (família Fc) trouxe uma melhora de precisão de consultas por similaridade de até 22% quando comparado com métodos wrapper tradicionais para seleção de características baseados em decision-trees (C4.5), naive bayes, support vector machine, 1-nearest neighbor e mineração de regras de associação. Outras contribuições desta tese são dois métodos de seleção de características baseados em filtragem, com aplicações em classificação de imagens, que utilizam o cálculo supervisionado da estatística de silhueta simplificada como função de avaliação: o silhouette-based greedy search (SiGS) e o silhouette-based genetic algorithm search (SiGAS). Os métodos propostos superaram os métodos concorrentes na literatura (CFS, FCBF, ReliefF, entre outros). É importante também ressaltar que o ganho em acurácia obtido pela família Fc, e pelos métodos SiGS e SiGAS propostos proporcionam também um decréscimo significativo no tamanho do vetor de características, de até 90%
2022-12-06T14:47:11Z
Sérgio Francisco da Silva
Ensino e aprendizado de fundamentos de programação: uma abordagem baseada em teste de software
O ensino de fundamentos de programação não é uma tarefa trivial muitos estudantes têm dificuldades em compreender os conceitos abstratos de programação e possuem visões erradas sobre a atividade de programação. Uma das iniciativas que tem sido investigada a fim de amenizar os problemas associados refere-se ao ensino conjunto de conceitos básicos de programação e de teste de software. A introdução da atividade de teste pode ajudar o desenvolvimento das habilidades de compreensão e análise nos estudantes. Além disso, aprendendo teste mais cedo os alunos podem se tornar melhores testadores e desenvolvedores. Seguindo esta tendência, em trabalhos anteriores foram investigados alguns mecanismos de apoio ao ensino integrado de fundamentos de programação e teste. Dentre os mecanismos investigados destaca-se a proposição de um ambiente de apoio para submissão e avaliação automática de trabalhos práticos dos alunos, baseado em atividades de teste de software PROGTEST. Em sua primeira versão, a PROGTEST foi integrada à ferramenta JABUTISERVICE, que apoia o teste estrutural de programas escritos em Java. O presente projeto de mestrado visou a dar continuidade aos trabalhos já realizados, tendo como principal objetivo a identificação e integração de diferentes ferramentas de teste ao ambiente PROGTEST, explorando tanto técnicas e critérios de teste diferenciados como linguagens de programação distintas. O ambiente PROGTEST também foi aplicado e validado em diferentes cenários de ensino, considerando diferentes linguagens e técnicas de teste. Em linhas gerais, os resultados evidenciam a viabilidade da aplicação do ambiente em cenários de ensino e aprendizagem
2022-12-06T14:47:11Z
Draylson Micael de Souza
Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.
Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas, chamado de aprendizado supervisionado. O maior objetivo de um classificador é ser capaz de predizer com sucesso a respeito de novos casos. A performance de um classificador é medida em termos da taxa de erro. Técnicas experimentais para estimar a taxa de erro verdadeira não somente provêem uma base para comparar objetivamente as performances de diversos algoritmos de aprendizado no mesmo conjunto de exemplos, mas também podem ser uma ferramenta poderosa para projetar um classificador. As técnicas para estimar a taxa de erro são baseadas na teoria estatística de resampling. Um ambiente chamado AMPSAM foi implementado para ajudar na aplicação dos métodos de resampling em conjuntos de exemplos do mundo real. AMPSAM foi projetado como uma coleção de programas independentes, os quais podem interagir entre si através de scripts pré-definidos ou de novos scripts criados pelo usuário. O ambiente utiliza um formato padrão para arquivos de exemplos o qual é independente da sintaxe de qualquer algoritmo. AMPSAM também inclui ferramentas para particionar conjuntos de exemplos em conjuntos de treinamento e teste utilizando diferentes métodos de resampling. Além do método holdout, que é o estimador de taxa de erro mais comum, AMPSAM suporta os métodos n-fold cross-validation --- incluindo o leaning-one-out --- e o método bootstrap. As matrizes de confusão produzidas em cada iteração utilizando conjuntos de treinamento e teste podem ser fornecidas a um outro sistema implementado chamado SMEC. Este sistema calcula e mostra graficamente algumas das medidas descritivas mais importantes relacionadas com tendência central e dispersão dos dados. Este trabalho também relata os resultados experimentais a respeito de medidas do erro de classificação de três classificadores proposicionais e relacionais bem conhecidos, utilizando ambos os sistemas implementados, em diversos conjuntos de exemplos freqüentemente utilizados em pesquisas de Aprendizado de Máquina.
2022-12-06T14:47:11Z
Gustavo Enrique de Almeida Prado Alves Batista
O algoritmo de aprendizado semi-supervisionado co-training e sua aplicação na rotulação de documentos
Em Aprendizado de Máquina, a abordagem supervisionada normalmente necessita de um número significativo de exemplos de treinamento para a indução de classificadores precisos. Entretanto, a rotulação de dados é freqüentemente realizada manualmente, o que torna esse processo demorado e caro. Por outro lado, exemplos não-rotulados são facilmente obtidos se comparados a exemplos rotulados. Isso é particularmente verdade para tarefas de classificação de textos que envolvem fontes de dados on-line tais como páginas de internet, email e artigos científicos. A classificação de textos tem grande importância dado o grande volume de textos disponível on-line. Aprendizado semi-supervisionado, uma área de pesquisa relativamente nova em Aprendizado de Máquina, representa a junção do aprendizado supervisionado e não-supervisionado, e tem o potencial de reduzir a necessidade de dados rotulados quando somente um pequeno conjunto de exemplos rotulados está disponível. Este trabalho descreve o algoritmo de aprendizado semi-supervisionado co-training, que necessita de duas descrições de cada exemplo. Deve ser observado que as duas descrições necessárias para co-training podem ser facilmente obtidas de documentos textuais por meio de pré-processamento. Neste trabalho, várias extensões do algoritmo co-training foram implementadas. Ainda mais, foi implementado um ambiente computacional para o pré-processamento de textos, denominado PreTexT, com o objetivo de utilizar co-training em problemas de classificação de textos. Os resultados experimentais foram obtidos utilizando três conjuntos de dados. Dois conjuntos de dados estão relacionados com classificação de textos e o outro com classificação de páginas de internet. Os resultados, que variam de excelentes a ruins, mostram que co-training, similarmente a outros algoritmos de aprendizado semi-supervisionado, é afetado de maneira bastante complexa pelos diferentes aspectos na indução dos modelos.
2022-12-06T14:47:11Z
Edson Takashi Matsubara
"Testes de hipótese e critério bayesiano de seleção de modelos para séries temporais com raiz unitária"
A literatura referente a testes de hipótese em modelos auto-regressivos que apresentam uma possível raiz unitária é bastante vasta e engloba pesquisas oriundas de diversas áreas. Nesta dissertação, inicialmente, buscou-se realizar uma revisão dos principais resultados existentes, oriundos tanto da visão clássica quanto da bayesiana de inferência. No que concerne ao ferramental clássico, o papel do movimento browniano foi apresentado de forma detalhada, buscando-se enfatizar a sua aplicabilidade na dedução de estatísticas assintóticas para a realização dos testes de hipótese relativos à presença de uma raíz unitária. Com relação à inferência bayesiana, foi inicialmente conduzido um exame detalhado do status corrente da literatura. A seguir, foi realizado um estudo comparativo em que se testa a hipótese de raiz unitária com base na probabilidade da densidade a posteriori do parâmetro do modelo, considerando as seguintes densidades a priori: Flat, Jeffreys, Normal e Beta. A inferência foi realizada com base no algoritmo Metropolis-Hastings, usando a técnica de simulação de Monte Carlo por Cadeias de Markov (MCMC). Poder, tamanho e confiança dos testes apresentados foram computados com o uso de séries simuladas. Finalmente, foi proposto um critério bayesiano de seleção de modelos, utilizando as mesmas distribuições a priori do teste de hipótese. Ambos os procedimentos foram ilustrados com aplicações empíricas à séries temporais macroeconômicas.
2022-12-06T14:47:11Z
Ricardo Gonçalves da Silva
Anotações com PDAs: extensão da área de escrita e integração com projeto InCA-SERVE
A computação ubíqua, uma das mais recentes áreas da Ciência da Computação, tem como objetivo tornar os serviços computacionais tão intrínsecos a um determinado ambiente que se tornam transparentes para seus usuários. Este trabalho se insere nesse contexto, tanto buscando apoiar as atividades cotidianas de um usuário em particular quanto provendo flexibilidade de comunicação entre um conjunto de usuários de modo geral. Investigando os problemas associados, desenvolvemos um sistema de anotações visando a captura e o acesso a informações públicas em experiências ao vivo, tais como aulas presenciais, utilizando, para tanto, dispositivos pessoais digitais (ou PDAs - Personal Digital Assistants). Apesar dos PDAs apresentarem vantagens como portabilidade e baixo consumo de energia, a limitação de sua tela representa problemas para usuários, que, geralmente, têm dificuldade em visualizar e interagir com uma quantidade de informações que extrapola o tamanho da tela desse dispositivo. Neste trabalho, implementamos um sistema que simula uma área de anotações maior do que a tela dos PDAs e elaboramos um mecanismo de rolagem de textos para favorecer a escrita de anotações. Para avaliar esse mecanismo e o impacto da utilização de uma área maior na orientação espacial do usuário, conduzimos dois experimentos e analisamos seus resultados. Por fim, acoplamos essas características no sistema desenvolvido e o integramos à infra-estrutura do Projeto InCA-SERVE, em utilização pelo grupo de hipermídia do ICMC-USP.
2022-12-06T14:47:11Z
Carlos Frederico Penedo Rocha
Geração automática de aplicações Web para aplicações de captura e acesso
Um dos principais focos de pesquisa na área de computação ubíqua é o suporte à construção de aplicações de captura e acesso. Tais aplicações automatizam o processo de captura de experiências ao vivo e a geração de hiperdocumentos associados para o acesso à informação que foi capturada. Aplicações de captura e acesso apresentam requisitos que dificultam a sua construção e evolução, tal como a demanda por suporte a variados dispositivos durante a captura assim como diversos formatos para os documentos resultantes e um alto grau de automação na geração desses documentos. Nesse contexto, o projeto InCA-SERVE foi proposto para suportar o desenvolvimento de tais aplicações por meio de um conjunto de infra-estruturas e de serviços. O objetivo do trabalho reportado nesta dissertação é complementar o projeto InCA-SERVE com relação à visualização da informação capturada. Baseada em requisitos de aplicações de captura e acesso em particular, e em conceitos estabelecidos de metodologias de projeto hipermídia em geral, uma nova infra-estrutura chamada wVIEW foi desenvolvida. wVIEW suporta a geração automática de aplicações Web que permitem a geração dinâmica de documentos de apresentação para o conteúdo capturado por aplicações de captura e acesso.
2022-12-06T14:47:11Z
Andrea Rodrigues de Andrade