RCAAP Repository

Indexação de dados em domínios métricos generalizáveis

Os sistemas Gerenciadores de Bases de Dados (SGBDs) foram desenvolvidos para manipular domínios de dados numéricos e/ou pequenas seqüencias de caracteres (palavras) e não foram projetados prevendo a manipulação de dados complexos, como por exemplo dados multimídia. Os operadores em domínios de dados que requisitam a relação de ordem têm pouca utilidade para manipular operações que envolvem dados complexos. Uma classe de operadores que se adequa melhor para manipular esses dados são os operadores por similaridade: consulta por abrangência (``range queries') e consulta de vizinhos mais próximos (``k-nearest neighbor queries'). Embora muitos resultados já tenham sido obtidos na elaboração de algoritmos de busca por similaridade, todos eles consideram uma única função para a medida de similaridade, que deve ser universalmente aplicável a todos os pares de elementos do conjunto de dados. Este projeto propõe explorar a possibilidade de trabalhar com estruturas de dados concebidas dentro dos conceitos de dados em domínios métricos, mas que admitam o uso de uma função de distância adaptável, ou seja, que mude para determinados grupos de objetos, dependendo de algumas características universais, e assim permitindo acomodar características que sejam particulares a algumas classes de imagens e não de todo o conjunto delas, classificando as imagens em uma hierarquia de tipos, onde cada tipo está associado a uma função de distância diferente e vetores de características diferentes, todos indexados numa mesma árvore.

Year

2005

Creators

Ives Renê Venturini Pola

Um método para a fusão automática de sentenças similares em português

Nos últimos anos, há um crescente interesse por aplicações do Processamento de Língua Natural (PLN) que processam uma coleção de textos sobre um mesmo assunto e produzem um novo texto de saída, quer seja um sumário ou uma resposta para uma dada pergunta. Para se produzir textos com qualidade, essas aplicações precisam lidar adequadamente com vários fenômenos, tais como a redundância, a contradição e a complementaridade de informações. Nesse contexto, um processo que permita a identificação de informações comuns em um conjunto de sentenças relacionadas, e gere uma nova sentença a partir da fusão de informações das sentenças de entrada, sem redundâncias e sem contradições, é de grande relevância para as aplicações que processam múltiplos textos. A fusão automática de sentenças é um tema de pesquisa relativamente recente na literatura de PLN e para a língua portuguesa, em particular, não se tem conhecimento de trabalhos dessa natureza. Neste trabalho propõe-se um método inédito para a fusão de sentenças similares em português, baseado em uma abordagem simbólica e independente de domínio, e produz-se o Zíper, um sistema de fusão sentencial que implementa o método proposto. O Zíper é o primeiro sistema a contemplar a geração de sentenças que expressam todas as informações das sentenças de entrada, ou seja, que representam a união do conjunto. Além disso, ele permite a geração de sentenças que expressam apenas as informações redundantes do conjunto (consideradas mais importantes), isto é, que representam a interseção das sentenças de entrada. O sistema foi avaliado intrinsecamente e os resultados obtidos mostram que, de modo geral, as sentenças produzidas são bem formadas e preservam a mensagem original do conjunto (isto é, a mensagem toda, na fusão por união e apenas a mensagem principal, na fusão por interseção). Zíper também foi avaliado extrinsecamente no contexto de um sumarizador multidocumento do português. Os resultados alcançados sugerem que o método proposto contribui para melhorar a qualidade dos sumários, reduzindo a redundância de informações, que frequentemente provoca a perda de coesão e de coerência

Year

2010

Creators

Eloize Rossi Marques Seno

Detecção de novidade em fluxos contínuos de dados multiclasse

Mineração de fluxos contínuos de dados é uma área de pesquisa emergente que visa extrair conhecimento a partir de grandes quantidades de dados, gerados continuamente. Detecção de novidade é uma tarefa de classificação que consiste em reconhecer que um exemplo ou conjunto de exemplos em um fluxo de dados diferem significativamente dos exemplos vistos anteriormente. Essa é uma importante tarefa para fluxos contínuos de dados, principalmente porque novos conceitos podem aparecer, desaparecer ou evoluir ao longo do tempo. A maioria dos trabalhos da literatura apresentam a detecção de novidade como uma tarefa de classificação binária. Poucos trabalhos tratam essa tarefa como multiclasse, mas usam medidas de avaliação binária. Em vários problemas, o correto seria tratar a detecção de novidade em fluxos contínuos de dados como uma tarefa multiclasse, no qual o conceito conhecido do problema é formado por uma ou mais classes, e diferentes novas classes podem aparecer ao longo do tempo. Esta tese propõe um novo algoritmo MINAS para detecção de novidade em fluxos contínuos de dados. MINAS considera que a detecção de novidade é uma tarefa multiclasse. Na fase de treinamento, MINAS constrói um modelo de decisão com base em um conjunto de exemplos rotulados. Na fase de aplicação, novos exemplos são classificados usando o modelo de decisão atual, ou marcados como desconhecidos. Grupos de exemplos desconhecidos podem formar padrões-novidade válidos, que são então adicionados ao modelo de decisão. O modelo de decisão é atualizado ao longo do fluxo a fim de refletir mudanças nas classes conhecidas e permitir inserção de padrões-novidade. Esta tese também propõe uma nova metodologia para avaliação de algoritmos para detecção de novidade em fluxos contínuos de dados. Essa metodologia associa os padrões-novidade não rotulados às classes reais do problema, permitindo assim avaliar a matriz de confusão que é incremental e retangular. Além disso, a metodologia de avaliação propõe avaliar os exemplos desconhecidos separadamente e utilizar medidas de avaliação multiclasse. Por último, esta tese apresenta uma série de experimentos executados usando o MINAS e os principais algoritmos da literatura em bases de dados artificiais e reais. Além disso, o MINAS foi aplicado a um problema real, que consiste no reconhecimento de atividades humanas usando dados de acelerômetro. Os resultados experimentais mostram o potencial do algoritmo e da metodologia propostos

Year

2014

Creators

Elaine Ribeiro de Faria Paiva

Teste baseado em modelos para serviços RESTful usando máquinas de estados de protocolos UML

A Arquitetura Orientada a Serviços (SOA) é um estilo arquitetural formado por um conjunto de restrições que visa promover a escalabilidade e a flexibilidade de um sistema, provendo suas funcionalidades como serviços. Nos últimos anos, um estilo alternativo foi proposto e amplamente adotado, que projeta as funcionalidades de um sistema como recursos. Este estilo arquitetural orientado a recursos é chamado de REST. O teste de serviços web em geral apresenta vários desafios devido a sua natureza distribuída, canal de comunicação pouco confiável, baixo acoplamento e a falta de uma interface de usuário. O teste de serviços RESTful (serviços que utilizam o REST) compartilham estes mesmos desafios e ainda necessitam que suas restrições sejam obedecidas. Estes desafios demandam testes mais sistemáticos e formais. Neste contexto, o teste baseado em modelos (TBM) se apresenta como um processo viável para abordar essas necessidades. O modelo que representa o sistema deve ser simples e ao mesmo tempo preciso para que sejam gerados casos de teste com qualidade. Com base nesse contexto, este projeto de mestrado propõe uma abordagem baseada em modelos para testar serviços RESTful. O modelo comportamental adotado foi a máquina de estados de protocolos UML, capaz de formalizar a interface do serviço enquanto esconde o seu funcionamento interno. Uma ferramenta foi desenvolvida para gerar automaticamente os casos de teste usando critérios de cobertura de estados e transições para percorrer o modelo

Year

2014

Creators

Pedro Victor Pontes Pinheiro

Provendo resiliência em uma rede de sensores sem fio linear e esparsa através de veículo aéreo não tripulado

A mitigação de desastres naturais exige respostas rápidas e confiáveis. No Brasil, a estação de chuvas provoca muitos alagamentos em regiões urbanas e, para monitorar esse fenômeno, foi instalada em São Carlos-SP uma rede de sensores sem fio para acompanhar o nível de água dos rios da cidade. Entretanto, essa rede de sensores está suscetível a falhas que podem comprometer o funcionamento do sistema, e a adoção de mecanismos redundantes e de redes móveis 3G podem acarretar em custos proibitivos à monitoração desses rios, além de não garantirem a operação normal desse monitoramento. Assim, este trabalho apresenta uma solução baseada em veículo aéreo não tripulado (VANT) para reduzir os problemas oriundos das falhas em uma rede de sensores para detectar desastres naturais como enchentes e deslizamentos. Na solução proposta, o VANT pode ser transportado para o sítio do desastre para minimizar os problemas provenientes das falhas (por exemplo, para servir como um roteador ou até mesmo para servir como uma mula de dados e transmitir imagens em tempo real para equipes de resgate). Estudos foram conduzidos em um protótipo real, equipado com o UAV Brain (módulo computacional desenvolvido especificamente para este projeto), para uma análise exploratória do consumo energético do VANT e do rádio transmissor que equipa o VANT. Os resultados mostram que a melhor situação para o rádio comunicador se dá quando o VANT está no ar e com uma antena de maior ganho, e os fatores que mais influenciam no consumo energético do rádio são a altura do VANT e o tipo de antena utilizado. Além disso, tais resultados mostram também a viabilidade desta proposta em redes de sensores sem fio linear e esparsa.

Year

2015

Creators

Heitor de Freitas Vieira

Interpretação de clusters gerados por algoritmos de clustering hierárquico

O processo de Mineração de Dados (MD) consiste na extração automática de padrões que representam o conhecimento implícito em grandes bases de dados. Em geral, a MD pode ser classificada em duas categorias: preditiva e descritiva. Tarefas da primeira categoria, tal como a classificação, realizam inferências preditivas sobre os dados enquanto que tarefas da segunda categoria, tal como o clustering, exploram o conjunto de dados em busca de propriedades que o descrevem. Diferentemente da classificação, que analisa exemplos rotulados, o clustering utiliza exemplos para os quais o rótulo da classe não é previamente conhecido. Nessa tarefa, agrupamentos são formados de modo que exemplos de um mesmo cluster apresentam alta similaridade, ao passo que exemplos em clusters diferentes apresentam baixa similaridade. O clustering pode ainda facilitar a organização de clusters em uma hierarquia de agrupamentos, na qual são agrupados eventos similares, criando uma taxonomia que pode simplificar a interpretação de clusters. Neste trabalho, é proposto e desenvolvido um módulo de aprendizado não-supervisionado, que agrega algoritmos de clustering hierárquico e ferramentas de análise de clusters para auxiliar o especialista de domínio na interpretação dos resultados do clustering. Uma vez que o clustering hierárquico agrupa exemplos de acordo com medidas de similaridade e organiza os clusters em uma hierarquia, o usuário/especialista pode analisar e explorar essa hierarquia de agrupamentos em diferentes níveis para descobrir conceitos descritos por essa estrutura. O módulo proposto está integrado em um sistema maior, em desenvolvimento no Laboratório de Inteligência Computacional ? LABIC ?, que contempla todas as etapas do processo de MD, desde o pré-processamento de dados ao pós-processamento de conhecimento. Para avaliar o módulo proposto e seu uso para descoberta de conceitos a partir da estrutura hierárquica de clusters, foram realizados diversos experimentos sobre conjuntos de dados naturais, assim como um estudo de caso utilizando um conjunto de dados real. Os resultados mostram a viabilidade da metodologia proposta para interpretação dos clusters, apesar da complexidade do processo ser dependente das características do conjunto de dados.

Usando Serviços Web para integrar aplicações cientes de contexto

A Computação Ubíqua está revolucionando a interação do ser-humano com os dispositivos computacionais ao disponibilizar tecnologias pouco intrusivas ao cotidiano das pessoas. A Computação Ciente de Contexto, um dos temas de pesquisa em Computação Ubíqua, tem contribuído para a construção de aplicações capazes de customizar-se e adaptar-se às necessidades do usuário sem a intervenção explícita deste. Suportar o desenvolvimento de aplicações Cientes de Contexto é um dos desafios da Computação Ubíqua. Desenvolvido no mesmo grupo de pesquisa que este trabalho está inserido, o Serviço Web Context Kernel, gerencia informações de contexto e explora as especificações e tecnologias da Web como plataforma de intercâmbio para a informação contextual. O trabalho aqui reportado teve como objetivo investigar a utilização de Serviços Web por meio do emprego da infra-estrutura Context Kernel na integração de aplicações em cenários de trabalho colaborativo e de aprendizado eletrônico. Como resultado, foi elaborado um conjunto de lições aprendidas provenientes do estudo e do emprego das especificações para Serviços Web. Outros resultados foram: as especificações de informações de contexto de grupo e de metadados educacionais em dimensões de contexto e exemplos de utilização do Context Kernel para tornar aplicações cientes de contexto.

Year

2006

Creators

Carlos Henrique Odenique Jardim

Um processo envolvendo elementos de design rationale para projetos de pesquisa em software

O volume crescente de projetos de pesquisa que envolvem software motiva a realização de análises sobre os processos utilizados no desenvolvimento desses projetos, considerando-se as atividades realizadas, os resultados obtidos e a aplicação de recursos. Na área de Engenharia de Software, processos têm sido propostos nos últimos anos com o objetivo de contribuir para o desenvolvimento de projetos de pesquisa que envolvem software. Busca-se, de forma geral, auxiliar o gerenciamento dos diversos artefatos que podem ser gerados, por exemplo, modelos, código fonte, relatórios técnicos e artigos científicos. As soluções apresentadas na literatura começaram a ser propostas recentemente e, portanto, os estudos realizados nessa área apresentam-se em estágio bastante inicial. Dessa forma, o objetivo deste trabalho foi definir um processo para o desenvolvimento de projetos de pesquisa envolvendo software, que esteja de acordo com um conjunto de requisitos identificado e que possa contribuir para a evolução desses projetos. Para reforçar a continuidade dos projetos, foi estudada a abordagem de design rationale, com o objetivo de oferecer meios para que as decisões sejam capturadas e registradas em fases específicas do desenvolvimento. O processo de documentação foi enfatizado, ou seja, foi investigado como a abordagem de design rationale poderia ser utilizada para melhorar a documentação dos projetos de pesquisa. Como um resultado obtido, foi definido um modelo para representação de design rationale (DR-SACI), implementado em uma ferramenta CASE e avaliado em um experimento

Year

2007

Creators

Debora Maria Barroso Paiva

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

Representações visuais têm sido adotadas na exploração de conjuntos de documentos, auxiliando a extração de conhecimento sem que seja necessária a análise individual de milhares de textos. Mapas de documentos, em particular, apresentam documentos individualmente representados espalhados em um espaço visual, refletindo suas relações de similaridade ou conexões. A construção destes mapas de documentos inclui, entre outras tarefas, o posicionamento dos textos e a identificação automática de áreas temáticas. Um desafio é a visualização de conjuntos dinâmicos de documentos. Na visualização de informação, é comum que alterações no conjunto de dados tenham um forte impacto na organização do espaço visual, dificultando a manutenção, por parte do usuário, de um mapa mental que o auxilie na interpretação dos dados apresentados e no acompanhamento das mudanças sofridas pelo conjunto de dados. Esta tese introduz um algoritmo para a construção dinâmica de mapas de documentos, capaz de manter uma disposição coerente à medida que elementos são adicionados ou removidos. O processo, inerentemente incremental e de baixa complexidade, utiliza um espaço bidimensional dividido em células, análogo a um tabuleiro de xadrez. Resultados consistentes foram alcançados em comparação com técnicas não incrementais de projeção de dados multidimensionais, tendo sido a técnica aplicada também em outros domínios, além de conjuntos de documentos. A visualização resultante não está sujeita a problemas de oclusão. A identificação de áreas temáticas é alcançada com técnicas de extração de regras de associação representativas para a identificação automática de tópicos. A combinação da extração de tópicos com a projeção incremental de dados em um processo integrado de mineração visual de textos compõe um espaço visual em que tópicos e áreas de interesse são destacados e atualizados à medida que o conjunto de dados é modificado

Year

2009

Creators

Roberto Dantas de Pinho

Solução numérica de escoamentos de cristais líquidos nemáticos

O objetivo desse trabalho é desenvolver métodos numéricos para simular escoamentos de cristais líquidos nemáticos governados pelas equações dinâmicas de Ericksen-Leslie. São apresentados dois métodos numéricos para a simulação de escoamentos de cristais líquidos nemáticos. O primeiro método foi desenvolvido para simular escoamentos tridimensionais de cristais líquidos nemáticos sob efeito de forte campo magnético enquanto que o segundo método foi desenvolvido para a simulação de escoamentos bidimensionais. Utilizando a notação de Einstein, as equações dinâmicas de Ericksen-Leslie são apresentadas. Empregando variáveis primitivas e coordenadas cartesianas, as equações governantes para escoamentos de cristais líquidos nemáticos são derivadas e as formulações matemáticas para a obtenção dos métodos numéricos são apresentadas. As equações descrevendo os métodos numéricos são resolvidas por um método numérico baseado na metodologia GENSMAC3D para o caso tridimensional enquanto que o método bidimensional é baseado na metodologia GENSMAC (GENeralized-Simplified-Marker-And-Cell). Em ambos os métodos, a técnica de diferenças finitas em uma malha deslocada é utilizada. As equações que descrevem as técnicas numéricas desenvolvidas foram incorporadas aos ambientes de simulação Freeflow2D e Freeflow3D. As condições de contorno para cada tipo de contorno são descritas em detalhes. A solução analítica apresentada por Stewart para o escoamento entre duas placas paralelas é utilizada para a validação do método numérico tridimensional. Empregando as hipóteses de escoamento desenvolvido e que o ângulo de orientação do diretor é pequeno, uma solução analítica para o escoamento em um canal bidimensional é encontrada. O método numérico bidimensional é então validado utilizando a solução analítica obtida. Utilizando refinamento de malha, resultados de convergência dos métodos numéricos são apresentados. Os métodos numéricos desenvolvidos nesse trabalho são aplicados para a simulação dos seguintes problemas: escoamento de um cristal líquido nemático em um canal tridimensional; investigação numérica do escoamento em L-canais e escoamento através de uma contração 4:1 e de uma expansão planar 4:1

Year

2011

Creators

Pedro Alexandre da Cruz

Representação de superfícies livres utilizando partição da unidade implícita no sistema Freeflow

Este trabalho consiste em introduzir uma nova abordagem de representação de superfície no ambiente de simulação Freeflow2D. Consiste em usar Partição da Unidade Implícita para estimar da superfície a geometria, normais e curvatura. Procurando se valer das vantagens de métodos do tipo meshless (sem malha) conservando no entanto a malha Lagrangiana, no interesse de manter o fácil acesso de vizinhança, inserção e eliminação de pontos

Year

2011

Creators

Luis Felipe da Costa Ladeira

Uso dos métodos clássico e bayesiano para os modelos não-lineares heterocedásticos simétricos

Os modelos normais de regressão têm sido utilizados durante muitos anos para a análise de dados. Mesmo nos casos em que a normalidade não podia ser suposta, tentava-se algum tipo de transformação com o intuito de alcançar a normalidade procurada. No entanto, na prática, essas suposições sobre normalidade e linearidade nem sempre são satisfeitas. Como alternativas à técnica clássica, foram desenvolvidas novas classes de modelos de regressão. Nesse contexto, focamos a classe de modelos em que a distribuição assumida para a variável resposta pertence à classe de distribuições simétricas. O objetivo geral desse trabalho é a modelagem desta classe no contexto bayesiano, em particular a modelagem da classe de modelos não-lineares heterocedásticos simétricos. Vale ressaltar que esse trabalho tem ligação com duas linhas de pesquisa, a saber: a inferência estatística abordando aspectos da teoria assintótica e a inferência bayesiana considerando aspectos de modelagem e critérios de seleção de modelos baseados em métodos de simulação de Monte Carlo em Cadeia de Markov (MCMC). Uma primeira etapa consiste em apresentar a classe dos modelos não-lineares heterocedásticos simétricos bem como a inferência clássica dos parâmetros desses modelos. Posteriormente, propomos uma abordagem bayesiana para esses modelos, cujo objetivo é mostrar sua viabilidade e comparar a inferência bayesiana dos parâmetros estimados via métodos MCMC com a inferência clássica das estimativas obtidas por meio da ferramenta GAMLSS. Além disso, utilizamos o método bayesiano de análise de influência caso a caso baseado na divergência de Kullback-Leibler para detectar observações influentes nos dados. A implementação computacional foi desenvolvida no software R e para detalhes dos programas pode ser consultado aos autores do trabalho

Year

2011

Creators

Márcia Aparecida Centanin Macêra

Seleção de características e aprendizado ativo para classificação de imagens de sensoriamento remoto

Em aplicações de sensoriamento remoto, há diversos problemas nos quais há conhecimento predominante sobre uma categoria ou classe alvo, e pouco conhecimento sobre as demais categorias. Nesses casos, o treinamento de um classificador é prejudicado pelo desbalanceamento de classes. Assim, o estudo de características visuais para se definir o melhor subespaço de características pode ser uma alternativa viável para melhorar o desempenho dos classificadores. O uso de abordagens baseadas em detecção de anomalias também pode auxiliar por meio da modelagem da classe normal (comumente majoritária) enquanto todas as outras classes são consideradas como anomalias. Este estudo apresentou uma base de imagens de sensoriamento remoto, cuja aplicação é identificar entre regiões de cobertura vegetal e regiões de não cobertura vegetal. Para solucionar o problema de desbalanceamento entre as classes, foram realizados estudos das características visuais a fim de definir qual o conjunto de atributos que melhor representa os dados. Também foi proposta a criação de um pipeline para se tratar bases desbalanceadas de cobertura vegetal. Este pipeline fez uso de técnicas de seleção de características e aprendizado ativo. A análise de características apresentou que o subespaço usando o extrator BIC com o índice de vegetação ExG foi o que melhor distinguiu os dados. Além disso, a técnica de ordenação proposta mostrou bom desempenho com poucas dimensões. O aprendizado ativo também ajudou na criação de um modelo melhor, com resultados comparáveis com as melhores características visuais.

Year

2015

Creators

Fábio Rodrigues Jorge

Análise da aprendizagem de ligações em otimização evolutiva

A suposta ubiquidade de sistemas decomponíveis foi interpretada por Holland (1975) como o principal motivo para o desempenho dos algoritmos genéticos (Genetic Algorithms (GAs)). A hipótese de Building Blocks (BBs) sugere que algoritmos genéticos mais eficientes poderiam ser implementados, contudo, apenas anos depois essas ideias puderam ser avaliadas experimentalmente no contexto de algoritmos de estimação de distribuição (Estimation of Distribution Algorithms (EDAs)). EDAs utilizam modelos probabilísticos, estimados a partir da população, para inferir características do espaço de busca que poderiam ser utilizadas para implementar operadores de reprodução mais eficazes. Tanto em problemas mono- quanto multi-objetivo, EDAs emergiram sob a premissa de que a eficácia dos operadores de reprodução seria proporcional à representatividade dos modelos probabilísticos utilizados. No entanto, estudos recentes tem demonstrado que a dificuldade em se construir modelos confiáveis pode tornar essa premissa inviável. Ou seja, para certos problemas de otimização os modelos probabilísticos utilizados seriam, em geral, de baixa qualidade e, portanto, não produziriam operadores eficazes. Esta tese trata das limitações encontradas na construção de modelos probabilísticos (linkage learning) sob a perspectiva da multimodalidade dos problemas em questão. A análise teórica considerou problemas aditivamente separáveis, enquanto a generalização das conclusões foi investigada em instâncias do modelo NK-landscapes e do problema da mochila multidimensional (Multidimensional Knapsack Problem (MKP)). Os resultados indicaram que a acurácia dos modelos probabilísticos é se relaciona inversamente ao grau de multimodalidade da função objetivo e que, em casos de extrema multimodalidade a construção de modelos probabilísticos confiáveis pode ser tornar infactível. Este resultado poderia inviabilizar o uso de EDAs no contexto multiobjetivo, devido a intrínseca multimodalidade de tais problemas. No entanto, observou-se que apesar da ausência de estatísticas confiáveis sobre cada uma das funções objetivo, a correlação entre elas se torna estatisticamente observável e útil aos operadores de reprodução na manutenção da diversidade e controle convergência da população.

Year

2015

Creators

Jean Paulo Martins

Caracterização de alunos em ambientes de ensino online: estendendo o uso da DAMICORE para minerar dados educacionais

Com a popularização do uso de recursos tecnológicos na educação, uma enorme quantidade de dados, relacionados às interações entre alunos e esses recursos, é armazenada. Analisar esses dados, visando caracterizar os alunos, é tarefa muito importante, uma vez que os resultados dessa análise podem auxiliar professores no processo de ensino e aprendizagem. Entretanto, devido ao fato de as ferramentas utilizadas para essa caracterização serem complexas e pouco intuitivas, os profissionais da área de ensino acabam por não utilizá-las, inviabilizando a implementação de tais ferramentas em ambientes educacionais. Dentro desse contexto, a dissertação de mestrado aqui apresentada teve como objetivo analisar os dados provenientes de um sistema tutor inteligente, o MathTutor, que disponibiliza exercícios específicos de matemática, para identificar padrões de comportamento dos alunos que interagiram com esse sistema durante um determinado período. Essa análise foi realizada por meio de um processo de Mineração de Dados Educacionais (EDM), utilizando a ferramenta DAMICORE, com o intuito de possibilitar que fossem geradas, de forma rápida e eficaz, informações úteis à caracterização dos alunos. Durante a realização dessa análise, seguiram-se algumas fases do processo de descobrimento de conhecimento em bases de dados, seleção, pré-processamento, mineração dos dados e avaliação e interpretação. Na fase de mineração de dados, foi utilizada a ferramenta DAMICORE, que encontrou padrões que foram estudados na fase de avaliação e interpretação. A partir dessa análise foram encontrados padrões comportamentais dos alunos, por exemplo, alunos do sexo masculino apresentam rendimento superior ou inferior ao de alunas do sexo feminino e quais alunos terão um bom ou mau rendimento nas etapas finais do processo de ensino. Como principal resultado temos que uma das hipóteses criadas, Alunos que obtiveram bom desempenho no pós-teste imediato apresentaram dois dos três seguintes comportamentos: poucas interações na intervenção, baixo tempo interagindo com o sistema na intervenção e poucos misconceptions no pré-teste, teve sua acurácia comprovada dentre os dados utilizados nessa pesquisa. Assim, por meio desta pesquisa concluiu-se que a utilização da DAMICORE em contexto educacional pode auxiliar o professor a inferir o desempenho dos seus alunos oferecendo a ele a oportunidade de realizar as intervenções pedagógicas que auxiliem alunos com possíveis dificuldades e apresente novos desafios para aqueles com facilidade no tema estudado

Year

2015

Creators

Luis Fernando de Souza Moro

Ubiquitous collaborative multimedia capture of live experiences toward authoring extensible interactive multimedia documents

The growing importance of multimedia content generated by ordinary users demands research for models, methods, technologies and systems that support multimedia production. Despite recent results allowing the collaborative capture of video via mobile devices, there is gap in supporting the collaborative capture of multiple media. In this dissertation we propose that ubiquitous collaborative multimedia production can be carried out by users who capture and annotate multiple media using the CMoViA mobile application. CMoViA also allows export the user-generated content to the CI+WaC, which allows them to edit the user-generated content in the form of interactive and extensible multimedia documents. The proposal demanded extending recent work reported in the literature, namely the I+WaC-IE (Interactors+WaC-Interaction Events) model, the I+WaC-Editor tool and MoViA tool. Hence, CMoViA follows the proposed CI+WaC-IE model. We discuss results from a case study, carried out in the educational domain, in which students collaboratively capture a lecture.

Year

2017

Creators

Andrey Omar Mozo Uscamayta

Complex network component unfolding using a particle competition technique

This work applies complex network theory to the problem of semi-supervised and unsupervised learning in networks that are representations of multivariate datasets. Complex networks allow the use of nonlinear dynamical systems to represent behaviors according to the connectivity patterns of networks. Inspired by behavior observed in nature, such as competition for limited resources, dynamical system models can be employed to uncover the organizational structure of a network. In this dissertation, we develop a technique for classifying data represented as interaction networks. As part of the technique, we model a dynamical system inspired by the biological dynamics of resource competition. So far, similar methods have focused on vertices as the resource of competition. We introduce edges as the resource of competition. In doing so, the connectivity pattern of a network might be used not only in the dynamical system simulation but in the learning task as well.

Year

2017

Creators

Paulo Roberto Urio

Modelo de infraestrutura para publicação de dados abertos governamentais conectados de qualidade 

Contexto: A produção de dados abertos governamentais (DAG) tem aumentado desde a última década, sendo considerada como um dos pilares da democracia moderna. A disponibilidade desses dados carrega promessas como: o desenvolvimento econômico, por meio de produtos e serviços baseados nesses dados; o controle social, ao transparecer para a sociedade as ações e resultados dos governos; o embasamento de políticas públicas, ao gerar indicadores de efetividade ao longo do tempo, servindo para pesquisas ou acompanhamentos do próprio governo; o combate à corrupção, por meio da prestação de contas na execução orçamentária de políticas públicas. Diferentes órgãos governamentais divulgam informações dentro de seu escopo, tornando possível que consumidores de dados combinem diferentes fontes para responder questões que antes não eram possíveis. Problema: Embora tenha havido progressos variados em torno desses eixos, vários fatores impedem que esses benefícios sejam realizados em maior escala. Da perspectiva tecnológica, a disponibilização dos dados para que possam ser combinados, a formatação padronizada e sua interoperabilidade são talvez os fatores que mais impactam sobre sua produção. As tecnologias semânticas têm sido desenvolvidas para tratar este problema de interoperabilidade ao representar informações de modo que possam ser interpretadas inequivocamente por humanos e máquinas, por meio dos chamados dados conectados. O encontro dessas áreas traz a possibilidade de fazer com que as informações governamentais sejam mais facilmente processadas, inclusive sendo inferidas informações implícitas. As metodologias existentes apresentam limitações como a percepção de serem muito genéricas e de não tratarem corretamente questões de qualidade dos dados, fazendo com que publicadores adotem métodos ad-hoc de publicação. Objetivo: Assim, o objetivo desta tese é desenvolver uma infraestrutura de publicação de dados abertos governamentais conectados (DAGC) de qualidade para o ecossistema de dados da Web, que utilize os padrões da Web para garantir a interoperabilidade em diferentes aspectos. Métodos: Foi conduzido um mapeamento sistemático para identificar as metodologias existentes, o que trazem de comum e quais suas limitações em torno dos problemas encontrados em sua prática. A partir desses pontos, foi adotada a metodologia Design Science Research Methodology (DSR-M), sob a epistemologia da Design Science, de caráter pragmático, que objetiva o desenvolvimento de artefatos para resolver problemas. Ela guiou a seleção de teorias kernel para atender aos requisitos levantados e descreve a busca de uma solução viável de design para os artefatos da infraestrutura. Foram conduzidos estudos empíricos (cenário ilustrativo e quasi-experimento), utilizando fontes de dados reais, para avaliar a eficácia e a facilidade de uso destes artefatos, por meio do atendimento aos requisitos e mediante um arcabouço de qualidade de dados conectados. Resultados: A infraestrutura proposta é composta por três artefatos: i) um modelo de ciclo de vida de publicação de DAGC, descrevendo quais são as atividades, papéis, ferramentas, verificações e saídas de cada fase de produção; ii) uma arquitetura conceitual, que atende às práticas de compartilhamento de dados, possibilita o acesso aos dados por parte de humanos e máquinas, e considera pontos de controle de verificação dos dados sendo gerados ao longo do processo; iii) modelo de metadados que compila práticas para descrever dados e metadados conectados, objetivando facilitar sua descoberta e processamento. O produto resultante, gerado pelos participantes do estudo empírico, demonstrou nível de qualidade semelhante ou superior aos datasets estado da arte - dentro das métricas de qualidade de dados conectados selecionadas para a avaliação. Conclusão: Esta tese trouxe importantes contribuições teóricas e práticas para a área de publicação de dados abertos governamentais conectados. Ela demonstra como concretizar o atendimento aos requisitos de governo e de abertura de dados por meio de uma infraestrutura com diferentes componentes que permitem que humanos e máquinas possam buscar, acessar e processar dados de qualidade, detalhando diferentes possibilidades de instanciar a infraestrutura.

Year

2020

Creators

Bruno Elias Penteado

Enhanced multiscale mixed methods for two-phase flows in high-contrast porous media

This thesis proposes new methods for the numerical solution of two-phase flows in high-contrast porous media typical of petroleum reservoirs. An operator splitting strategy is used, where the saturation of one of the phases and the velocity field are updated sequentially. We focus on approximating the velocity field by multiscale methods, which allow for the global solution to be computed on coarse meshes (large scale), while detailed basis functions are defined locally (usually in parallel) in a much finer grid (small scale). The methods developed here are based on the Multiscale Robin Coupled Method (MRCM), a domain decomposition method that generalizes other well-established multiscale mixed methods and adds great flexibility to the choice of interface spaces as well as in the boundary conditions for coupling of local solutions. We find that the coupling of nearest neighbor subdomains through the imposition of a continuous pressure (respectively, normal fluxes) is the best strategy in terms of accuracy to approximate two-phase flows in the presence of high (resp., low) permeability channels (resp., regions). Thus, we introduce a new adaptivity strategy for setting the Robin algorithmic parameter of the MRCM, that controls the relative importance of Dirichlet and Neumann boundary conditions in the coupling of subdomains. The new strategy presents accurate approximations in challenging, high-contrast permeability fields. Then, it is used to improve the accuracy of the MRCM by considering alternative choices for the interface spaces other than the classical polynomials since they are not optimal for high-contrast features such as high permeability channels and barriers (low permeability). We introduce new interface spaces, which are based on physics, to deal with permeability fields in the simultaneous presence of high permeability channels and barriers, accommodated respectively, by the pressure and flux spaces. We show that the proposed interface spaces produce solutions significantly more accurate than polynomial spaces for problems with high-contrast permeability coefficients. We investigate different techniques to enhance the approximation of two-phase flows in terms of computational efficiency. We formulate a new procedure, the Multiscale Perturbation Method for Two-Phase Flows (MPM-2P), to speed-up the solution of two-phase flows. A modified operator splitting method is presented, where we replace full updates of local solutions by reusing basis functions computed by the MRCM at an earlier time of the simulation. We show that the MPM-2P reduces drastically the computational cost of two-phase flow simulations, without loss of accuracy. The MRCM is also investigated in a sequential implicit scheme for two-phase flows, that allows for the use of arbitrarily large time steps when compared to explicit time integration methods, improving the efficiency of the simulation. We show that the MRCM produces accurate and robust approximations when combined with different hyperbolic solvers, including implicit techniques. Our numerical simulations of two-phase flows with the MRCM present an unprecedented accuracy for realistic problems when compared to some standard multiscale methods. Moreover, the MRCM can take advantage of state-of-the-art supercomputers to efficiently simulate two-phase flows in high-contrast porous media.

Year

2020

Creators

Franciane Fracalossi Rocha

Virtualização de redes de computadores - uma abordagem focada em mobilidade e georreferenciamento

Ferramentas de virtualização de redes podem ser utilizadas com a finalidade de criar experimentos envolvendo redes de computadores e sistemas distribuídos em diversas aplicações, seja este para avaliação e validação de um sistema distribuído, teste de novas configurações em um ambiente de produção, ou mesmo para uso educacional. Várias são as opções de ferramentas disponíveis para a realização de tais experimentos. Entretanto, as ferramentas disponíveis não oferecem um suporte adequado a virtualização de redes móveis. O presente trabalho de mestrado apresenta uma proposta para a modificação de uma ferramenta de virtualização de código livre chamada Netkit, de modo a viabilizar a criação de experimentos que envolvam redes móveis. Neste caso, a ferramenta prevê que os dispositivos possam ser localizados em um espaço virtual e deslocados, de modo que variações como intensidade de sinal, trocas de pontos de acesso e experimentos que envolvam a localização espacial dos dispositivos possam ser efetuados.

Year

2014

Creators

Paulo Henrique Moreira Gurgel