RCAAP Repository

O Problema de Roteamento de Veículos Heterogêneos com Múltiplas Viagens

O aumento constante da quantidade de bens consumidos e os altos custos das operações de transporte fazem com que as decisões relacionadas à logística sejam cada dia mais relevantes. Nesse contexto, o Problema de Roteamento de Veículos (PRV) tem ganhado atenção especial. A fim de resolver o problema, busca-se determinar as melhores rotas a serem realizadas por uma frota de veículos de forma que todos os clientes sejam atendidos. Os problemas de roteamento que ocorrem na prática frequentemente têm características particulares. Neste trabalho, vamos abordar uma variante do PRV denominada problema de roteamento de veículos com frota heterogênea e múltiplas viagens, na qual consideramos diferentes tipos de veículos e a possibilidade de realizarem mais de uma única viagem. Inicialmente, um modelo matemático adaptado da literatura foi desenvolvido para o problema, e seus primeiros testes computacionais indicam que apenas instâncias de pequeno porte podem ser resolvidas em tempo computacional razoável, utilizando diretamente softwares comerciais de otimização. Em seguida, apresentamos um método heurístico para a solução do problema. O algoritmo possui três etapas principais: obtenção de uma solução inicial (heurística construtiva), busca por mínimos locais (ILS), e melhoria (modelo de cobertura). Na sequência, é abordado um segundo objetivo que busca minimizar o tempo da maior rota. Finalizamos a dissertação com a apresentação de uma abordagem biobjetivo para o problema, resolvida por meio de três técnicas: ponderação na função objetivo, método e-restrito e Pareto-ILS. Com isso temos como objetivo propor abordagens mono e bi objetivo para a resolução do problema.

Year

2020

Creators

Giovana Sachett Maia

Um framework para avaliação sistemática de técnicas de teste no contexto de programação concorrente

Contexto: Embora diversas técnicas de teste de software tenham sido propostas para o contexto da programação concorrente, as informações sobre elas encontram-se de dispersas na literatura, não oferecendo uma caracterização apropriada e dados relevantes que possam auxiliar a compreensão e consequente aplicação efetiva dessas técnicas, dificultando o processo de transferência de conhecimento entre a academia e a comunidade interessada. Objetivo: Nesse contexto, o principal objetivo deste trabalho é oferecer subsídios, na forma de um framework, que seja capaz de apoiar a caracterização e seleção sistemática de técnicas de teste de software concorrente. Metodologia: Para atender esse objetivo, foi construído um corpo de conhecimento que reúne de maneira integrada informações relevantes ao processo de tomada de decisão sobre qual técnica de teste aplicar a um determinado projeto de software. Um design de experimentos é definido, funcionando como guia para condução de estudos empíricos que podem ser usados para a realimentação, atualização e evolução do corpo de conhecimento. Buscando sistematizar o processo de seleção de técnicas de teste, é definido um esquema de caracterização que considera as principais características da programação concorrente que influenciam a atividade de teste de software e calcula a adequação desses atributos aos atributos do projeto em desenvolvimento. Resultados e Conclusões: A fim de permitir que a comunidade interaja com o framework proposto, foi disponibilizada uma infraestrutura computacional que permite o acesso ao corpo de conhecimento e automatiza o processo de seleção de técnicas de teste de software concorrente. O estudo experimental conduzido para avaliação da proposta, mostrou que a abordagem contribui de maneira efetiva para caracterizar, comparar e quantificar a adequabilidade baseada em atributos, melhorando consideravelmente o processo de seleção de técnicas de teste para software concorrente segundo as expectativas dos usuários.

Year

2018

Creators

Silvana Morita Melo

Search based software testing for the generation of synchronization sequences for mutation testing of concurrent programs

Concurrent programming has become an essential paradigm for reductions in the computational time in many application domains. However, the validation and testing activity is more complex than the testing for sequential programs due to the non-determinism, synchronization and inter-process communication. Mutation testing is based on mistakes produced by software developers and presents a high effectiveness to reveal faults. However, high computational costs limit its applicability even for sequential code, becoming higher for concurrent programs in which each test has to be executed with different (ideally all) thread schedules. To date, only selective mutation have been applied to reduce the number of mutants in concurrent programs, however, the problem of state explosion of thread schedules still remains. This Ph.D. thesis presents the SBBMuT approach that applies deterministic execution and genetic algorithm for the generation and execution of a set of synchronization sequences during the mutation testing of Java multithreaded programs. An experimental study was conducted, and the results showed that the set of synchronization sequences generated by SBBMuT achieved a higher mutation score in comparison with the use of the Java PathFinder model checking tool.

Year

2018

Creators

Rodolfo Adamshuk Silva

Aspectos semânticos na representação de textos para classificação automática

Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplicações do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avaliação de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica por meio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e conceitos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação.

Year

2018

Creators

Roberta Akemi Sinoara

Sistema autônomo para supervisão de missão e segurança de voo em VANTs

O presente documento tem por objetivo apresentar a tese desenvolvida no programa de doutorado em Ciência da Computação e Matemática Computacional do ICMC/USP. Esta tese aborda o desenvolvimento de sistemas autônomos, de baixo custo, para supervisão de missão e segurança de voo em Veículos Aéreos Não Tripulados (VANTs). A supervisão da missão é assegurada através da implementação de um sistema do tipo Mission Oriented Sensor Array (MOSA), responsável pelo adequado cumprimento da missão. A segurança de voo é garantida pelo sistema In-Flight Awareness (IFA), que visa monitorar o funcionamento da aeronave. Os assuntos missão e segurança são complexos e os sistemas MOSA e IFA foram idealizados e desenvolvidos de forma independente, fundamentando-se na ideia de separação de interesses. O desenvolvimento desses sistemas foi baseado em dois modelos de referência: MOSA e IFA, propostos pela literatura. Em trabalhos anteriores da literatura, alguns sistemas do tipo MOSA e IFA foram propostos para situações específicas de missão. Numa outra abordagem, esta tese propõe um único sistema MOSA e IFA capaz de se adequar a um conjunto distinto de missões. Neste trabalho, foi desenvolvida toda arquitetura de comunicação que integra os sistemas MOSA e IFA. No entanto, apenas esses dois sistemas não são suficientes para fazer a execução da missão com segurança, necessitando-se de um sistema capaz de se comunicar com o Piloto Automático (AP) do VANT. Logo, um sistema capaz de enviar requisições e comandos ao AP foi também implementado. Através desses três sistemas, missões autônomas com desvio de obstáculos puderam ser realizadas sem intervenção humana, mesmo diante de situações críticas ao voo. Assegurar os aspectos de segurança e missão pode se tornar conflitante durante o voo, pois em situações emergenciais deve-se abortar a missão. Diferentes estratégias para planejamento e replanejamento de rotas, baseadas em computação evolutiva e heurísticas, foram desenvolvidas e integradas nos sistemas MOSA e IFA. Os sistemas, aqui propostos, foram validados em quatro etapas: (i) experimentos com o simulador de voo FlightGear; (ii) simulações com a técnica Software-In-The-Loop (SITL); (iii) simulações com a técnica Hardware-In- The-Loop (HITL); (iv) voos reais. Na última etapa, os sistemas foram embarcados em dois modelos de VANTs, desenvolvidos pelo grupo de pesquisa. Durante a experimentação, alguns modelos de pilotos automáticos (APM e Pixhawk), computadores de bordo (Raspberry Pi 3, Intel Edison e BeagleBone Black), planejadores de missão e replanejadores de rotas emergenciais foram avaliados. Ao todo, três planejadores de rotas e oito replanejadores são suportados pela plataforma autônoma. O sistema autônomo desenvolvido permite alterar missões com diferentes características de hardware e de software de forma fácil e transparente, sendo, desse modo, uma arquitetura com características plug and play.

Year

2019

Creators

Jesimar da Silva Arantes

Animação computacional de escoamento de fluidos utilizando o método SPH

Desde a década de 70, há um crescente interesse em simulações em computador de fenômenos físicos visto sua diversidade de aplicações. Dentre esses fenômenos, podem ser destacados a interação entre corpos rígidos, elásticos, plásticos, quebráveis e também fluidos. Neste trabalho realizamos a simulação de um desses fenômenos, o escoamento de fluidos, por um método conhecido como Smoothed Particles Hydrodynamics, uma abordagem lagrangeana baseada em partículas para resolução das equações que modelam o movimento do fluido. Várias são as vantagens de métodos lagrangeanos usando partículas sobre os que usam malhas, por exemplo, as propriedades do material transladam com as partículas como função do tempo, além da capacidade de lidar com grandes deformações. Dentre as desvantagem, destacamos uma deficiência relacionada ao ganho de energia total do sistema e estabilidade das partículas. Para lidar com isso, utilizamos uma abordagem baseada na lei da conservação da energia: em um sistema isolado a energia total se mantém constante e ela não pode ser criada ou destruida. Dessa forma, alterando o integrador temporal nós restringimos o aumento arbitrário de energia, tornando a simulação mais tolerante às condições iniciais

Year

2008

Creators

Tiago Etiene Queiroz

Estrutura de indexação em memória para dados métricos

A recuperação de dados armazenados em Bancos de Dado em geral é feita utilizando estruturas de indexação, que permitem fazer a recuperação dos dados muito mais rapidamente do que se a busca fosse feita sequencialmente. No entanto, as estruturas de indexação que podem ser utilizadas dependem das propriedades dos domínios de dados indexados e do tipo de consultas que devem ser respondidas. Tradicionalmente, os gerenciadores de bancos de dados suportam bem dados de domínios que possuem a propriedade de relação de ordem total, tais como números e textos com a relação de ordem lexicográfica permitindo consultas por igualdade e consultas envolvendo relações de ordem tais como >, < ou =, >, < ou = etc. Além disso, as estruturas de indexação comumente utilizadas em sistemas gerenciadores de bases de dados são construídas para serem armazenadas em disco, particionando o conjunto de dados em registros de tamanho fixo. O exemplo mais comum desse arranjo é o das árvores de indexação, quando os registros são então chamados \"nós\". Aplicações mais sofisticadas frequentemente apresentam dados em outros domínios, com outros tipos de consulta. Quando as aplicações lidam com dados em domínio métrico, além dos próprios elementos de dados, é definida uma função de similaridade (ou de distância) entre pares de elementos, e essa função é a única maneira de comparação entre dois elementos de dados do conjunto. Existem diversas estruturas de indexação criadas para dados em domínios métricos . Entretanto essas estruturas ou são estáticas (impedindo que novos elementos sejam acrescentados depois que a estrutura foi criada), ou são para armazenamento em disco. Neste trabalho foi desenvolvida uma nova estrutura métrica dinâmica para dados métricos totalmente armazenada em memória principal. Uma outra propriedade interessante dessa estrutura é que a execução de uma consulta por existência (point query) percorre um único caminho de busca. Essa característica é muito interessante, pois todas as outras árvores dinâmicas existentes requerem que a navegação seja feita não apenas em profundidade, mas também em largura. A estrutura proposta permite a navegação apenas em profundidade para a consulta por existência.

Year

2003

Creators

Andréia Dal Ponte Novelli

LogiCluster, um método para agrupamento de dados web categóricos e contínuos usando regressão logística

No Ensino à Distância via Internet, o professor não tem contato físico com seus alunos e, por isso, perde consideravelmente a percepção da interação destes em relação ao material didático. Além disso, pode-se atingir um número muito grande de usuários caso o meio de ensino seja a Web. Então, é importante dar ao professor ferramentas que o ajudem a conhecer seus alunos e a planejar sua atuação de forma a atender melhor um grande número de alunos. Sabe-se que a Web é um meio que pode ser ricamente instrumentado. Em princípio, cada clique num hyperlink, cada visita e outros dados de atividade online podem ser capturados e armazenados para futura análise. Entretanto, a quantidade de dados que se obtém pode ser imensa, tornando sua análise trabalhosa e demorada. Surge, então, o problema de analisar esses dados a fim de se extrair informações úteis. Pesquisas na área de Mineração de Dados fornecem ferramentas úteis para tratar este problema, sendo que métodos de agrupamento são particularmente interessantes. Uma das dificuldades encontradas nesta nova área, chamada de Web Usage Mining (WUM), é lidar simultaneamente com dados categóricos e contínuos. Neste trabalho desenvolveu-se um novo método de agrupamento, o LogiCluster, baseado no Modelo de Regressão Logística, o qual é adequado para dados categóricos e contínuos, tanto em separado quanto em conjunto.

Year

2003

Creators

Gustavo Pinheiro

Estimação não-paramétrica da taxa de falha acumulada de um processo pontual

Vários autores tem construído estimadores de Bayes nâo-paramétricos para a função de distribuição acumulada. A distribuição à priori tem, por exemplo, sido processos de Dirichlet, processos neutral to the right. Neste trabalho nós estudamos o problema de achar estimadores de Bayes nâo-paramétricos para a taxa de falha acumulada de um processo pontuai baseado no modelo de intensidade multiplicativo de Aalen. Desta forma nós consideramos uma classe conjugada de processos de Levy chamados de processos beta e apresentamos fórmulas para obter um processo posterior. 0 estimador de Bayes é comparado com dois outros estimadores não-paramétricos, Kaplan-Meier e Nelson-Aalen e um estimador paramétrico, a taxa de falha acumulada de uma distribuição Weibull.

Year

2003

Creators

Fabrizio Teixeira Mendes

Técnicas de segmentação de imagens aéreas para contagem de população de aves

O monitoramento biológico de determinadas espécies de aves representa uma fonte importante de informações referentes à qualidade do meio ambiente. O censo, que consiste na contagem dos indivíduos de uma população, é uma das principais variáveis deste processo. Em virtude deste contexto, o trabalho proposto nesta dissertação tem como objetivo a implementação e aplicação de técnicas de segmentação de imagens para a contagem de indivíduos pertencentes a uma determinada população de aves, e de seus respectivos ninhos, em imagens aéreas de seu habitat (os ninhais). Devido às características dessas imagens, a segmentação baseada em textura, é adotada, como abordagem principal do projeto. O método escolhido para este estudo faz parte do conjunto de métodos baseados em modelos estocásticos para segmentação por textura. Em particular, (este método utiliza como modelo fundamental um Campo Aleatório de Markov (Markov Random Field). Esta dissertação apresenta os fundamentos estatísticos da técnica, adotada., bem como as etapas de sua implementação e alguns melhoramentos incorporados ao método padrão, afim de torná-lo mais robusto. Por fim, são ilustrados alguns resultados de segmentação de imagens de ninhais, bem como o de algumas imagens sintéticas e imagens de modalidade médica. As imagens aéreas são adquiridas em parceria, com outro projeto cm curso no ICMC-USP: o P r o j e t o A R A R A (Aeronaves de Reconhecimento Assistidas por Rádio e Autónomas).

Year

2003

Creators

André Guilherme Ribeiro Balan

Propagação em grafos bipartidos para extração de tópicos em fluxo de documentos textuais

Tratar grandes quantidades de dados é uma exigência dos modernos algoritmos de mineração de texto. Para algumas aplicações, documentos são constantemente publicados, o que demanda alto custo de armazenamento em longo prazo. Então, é necessário criar métodos de fácil adaptação para uma abordagem que considere documentos em fluxo, e que analise os dados em apenas um passo sem requerer alto custo de armazenamento. Outra exigência é a de que essa abordagem possa explorar heurísticas a fim de melhorar a qualidade dos resultados. Diversos modelos para a extração automática das informações latentes de uma coleção de documentos foram propostas na literatura, dentre eles destacando-se os modelos probabilísticos de tópicos. Modelos probabilísticos de tópicos apresentaram bons resultados práticos, sendo estendidos para diversos modelos com diversos tipos de informações inclusas. Entretanto, descrever corretamente esses modelos, derivá-los e em seguida obter o apropriado algoritmo de inferência são tarefas difíceis, exigindo um tratamento matemático rigoroso para as descrições das operações efetuadas no processo de descoberta das dimensões latentes. Assim, para a elaboração de um método simples e eficiente para resolver o problema da descoberta das dimensões latentes, é necessário uma apropriada representação dos dados. A hipótese desta tese é a de que, usando a representação de documentos em grafos bipartidos, é possível endereçar problemas de aprendizado de máquinas, para a descoberta de padrões latentes em relações entre objetos, por exemplo nas relações entre documentos e palavras, de forma simples e intuitiva. Para validar essa hipótese, foi desenvolvido um arcabouço baseado no algoritmo de propagação de rótulos utilizando a representação em grafos bipartidos. O arcabouço, denominado PBG (Propagation in Bipartite Graph), foi aplicado inicialmente para o contexto não supervisionado, considerando uma coleção estática de documentos. Em seguida, foi proposta uma versão semissupervisionada, que considera uma pequena quantidade de documentos rotulados para a tarefa de classificação transdutiva. E por fim, foi aplicado no contexto dinâmico, onde se considerou fluxo de documentos textuais. Análises comparativas foram realizadas, sendo que os resultados indicaram que o PBG é uma alternativa viável e competitiva para tarefas nos contextos não supervisionado e semissupervisionado.

Year

2016

Creators

Thiago de Paulo Faleiros

Arquitetura de software para integração de informações geográficas de sensores e voluntários na gestão de risco de inundação

Desastres naturais são fenômenos que causam grandes danos às pessoas em áreas urbanas e rurais, motivando medidas de prevenção e reação. Se múltiplas fontes de informação são consideradas, tais medidas podem ser mais assertivas e efetivas. Porém, a integração de dados heterogêneos ainda impõe desafios devido às diferenças em suas estruturas. Para preencher essa lacuna, esta pesquisa apresenta uma arquitetura orientada a serviços, como parte de uma plataforma geoespacial para gestão de risco de desastres, a qual visa apoiar a integração de dados de sensores e de voluntários relacionados a inundações. Como resultado, a composição dos serviços descritos pelos componentes arquiteturais possibilita a integração entre dados de sensores e voluntários usando algoritmos diferentes de forma flexível e automática.

Year

2016

Creators

Raul Eduardo Simoni Castanhari

Uma contribuição ao estabelecimento de uma arquitetura de referência para ambientes de aprendizagem móvel

O desenvolvimento e a utilização de ambientes computacionais como apoio ao ensino e aprendizagem, aliados à evolução da computação móvel, têm contribuído significativamente para o estabelecimento de uma nova modalidade de ensino conhecida como aprendizagem móvel ou mobile learning (m-learning). Nesse cenário emergente, os ambientes educacionais existentes, mesmo possuindo diversos benefícios e facilidades no que diz respeito ao ensino e aprendizagem, apresentam problemas e desafios que precisam ser explorados. Um dos aspectos relevantes a ser investigado refere-se ao estabelecimento e adoção de padrões arquiteturais. De fato, grande parte desses ambientes é construída de forma isolada, possuindo arquiteturas e estruturas próprias, o que pode impactar negativamente a capacidade de padronização. O presente trabalho de pesquisa insere-se neste contexto, tendo como principal objetivo investigar e definir uma arquitetura de referência orientada a serviço voltada para ambientes de aprendizagem móvel. Tal arquitetura, denominada Ref-mLearning, visa contribuir para a evolução, reúso e interoperabilidade desses ambientes, possibilitando ainda um aumento na qualidade e redução de custos durante o seu desenvolvimento. Resultados alcançados por meio de avaliações e condução de um estudo de caso demonstram que a Ref-mLearning é uma arquitetura viável possuindo uma boa estrutura e organização para o desenvolvimento de ambientes de aprendizagem móvel orientados a serviço.

Year

2016

Creators

Nemesio Freitas Duarte Filho

Cálculo rápido do operador de retroprojeção com aplicações em reconstrução tomográfica de imagens

Os métodos incrementais pertencem a uma classe de métodos iterativos que divide o conjunto de dados em subconjuntos ordenados, e que atualiza a imagem ao processar cada subconjunto (sub-iterações). Isso acelera a convergência das reconstruções, e imagens de qualidade são obtidas em menos iterações. No entanto, a cada sub-iteração é necessário calcular os operadores de projeção e retroprojeção, resultando no custo computacional de ordem O(n3) para a reconstrução de imagens de dimensão × . Por outro lado, algumas alternativas baseadas na interpolação em uma grade regular no espaço de Fourier ou em transformadas rápidas não-uniformes, dentre outras ideias, foram desenvolvidas a fim de aliviar esse custo computacional. Além disso, diversas abordagens foram bem sucedidas em acelerar o cálculo das iterações de algoritmos clássicos, mas nenhuma havia sido utilizada em conjunto com os métodos incrementais. Neste trabalho é proposta uma nova abordagem em que a técnica de transformada rápida de Fourier não uniforme (NFFT) é utilizada nas sub-iterações de métodos incrementais com o objetivo de efetuar de forma eficiente os cálculos numericamente mais intensos: a projeção e a retroprojeção, resultando em métodos incrementais com complexidade O(n2 log n ). Os métodos propostos são aplicados à tomografia por radiação síncrotron e os resultados da pesquisa mostram um bom desempenho.

Year

2017

Creators

Camila de Lima

Establishment of an ontology for Systems-of-Systems

Systems-of-Systems (SoS) represent an emerging research field in the Software Engineering area. In particular, SoS refer to systems that make possible the interoperability of distributed, complex systems, cooperating among them to reach a common mission. Several SoS have already been developed and used, but there is no consensus about diverse terms and concepts in this field, what can make difficult the communication among different stakeholders involved in the development and evolution of SoS, besides lacking of a standardization and common understanding among researchers and practitioners. This Masters project established OntoSoS, an ontology to formalize terms and concepts in the SoS field, expliciting and allowing sharing and reuse of knowledge contained in such ontology. As a result, this project intends to contribute to the field of SoS, also supporting activities related to SoS Engineering. It is also expected that this ontology can serve as a learning material in courses related to SoS.

Year

2017

Creators

Gabriel Abdalla

Normalização textual de conteúdo gerado por usuário

Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redes neurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização.

Year

2017

Creators

Thales Felipe Costa Bertaglia

Explorando uma abordagem de Fusão Multimodal para auxílio a Gestão de Desastres: um estudo de caso com tweets e dados contextuais

Atualmente, muito se tem discutido sobre a quantidade abundante de enchentes que assolam a cidade de São Paulo, inclusive esses desastres naturais preocupam excessivamente as autoridades governamentais paulistas, pois geram diversos prejuízos financeiros e sociais para a população afetada. Assim, existem iniciativas como a Gestão de Desastres que possuem o objetivo de prevenir e diminuir os impactos dos desastres naturais em nossa sociedade, visto que há fases com a tarefa de localizar e socorrer as vítimas das inundações. Dessa forma, as redes sociais (por exemplo, o Twitter) são essenciais para o auxílio da etapa de resposta da Gestão de Desastres, porque existe a disseminação de uma quantidade demasiada de mensagens relacionadas com alagamentos, no qual são capazes de serem úteis ao processo de localização de possíveis vítimas. No entanto, não é uma tarefa simples a obtenção da Consciência Situacional de desastres naturais a partir de tweets, visto que essas mensagens são frequentemente escritas de maneira coloquial e os algoritmos de Aprendizado de Máquina não são capazes de compreender o contexto das mensagens do Twitter. Dessa forma, com o objetivo de melhorar o processo de classificação textual e consequentemente captar Consciência Situacional de alagamentos de maneira mais precisa, então esta pesquisa investiga a Fusão Multimodal de informações textuais com contextuais. Esta pesquisa tem o objetivo de desenvolver uma abordagem de Fusão Multimodal capaz de auxiliar a etapa de resposta da Gestão de Desastres a partir de tweets, dados climáticos e incidências históricas de enchentes, além de implementar um software capaz de detectar possíveis vítimas de enchentes. Em vista disso, foram desenvolvidos mecanismos computacionais capazes de realizar o Processamento de Linguagem Natural das mensagens do Twitter, descobrir as regiões propícias ao acontecimento de alagamentos da capital paulista e combinar os dados heterogêneos por intermédio de estratégias baseadas em Aprendizado de Máquina. Os resultados revelam que o modelo de Fusão Multimodal do tipo híbrido com foco na decisão proporcionada pelos dados meteorológicos pode identificar as possíveis vítimas de alagamentos com 84,70% de precisão, aliás combinar dados textuais com multimodais proporciona um acréscimo de 18,53% na precisão da obtenção de Consciência Situacional de inundações, portanto para auxílio a fase de resposta da Gestão de Desastres, abordagens multimodais são mais eficazes dos que as unimodais. Ademais, algoritmos de agrupamento hierárquico demonstraram ser capazes de descobrir regiões propícias ao acontecimento de enchentes da cidade de São Paulo mais bem definidas do que os mecanismos de agrupamento baseados em densidade. Além disso, estratégias de definição da distância máxima de formação de áreas de alagamentos embasadas em abordagens empíricas se mostraram mais promissoras do que as baseadas em estratégias geo estatísticas. Por último, esta abordagem de Fusão Multimodal pode ser adaptada para diferentes idiomas, regiões e desastres naturais, além de que o software desenvolvido pode auxiliar as autoridades governamentais a localizar possíveis vítimas de inundações da capital paulista em tempo real.

Year

2021

Creators

Thiago Aparecido Gonçalves da Costa

Generalização de regras de associação utilizando conhecimento de domínio e avaliação do conhecimento generalizado

Dentre as técnicas de mineração de dados encontra-se a associação, a qual identifica todas as associações intrínsecas contidas na base de dados. Entretanto, essa característica, vantajosa por um lado, faz com que um grande número de padrões seja gerado, sendo que muito deles, mesmo sendo estatisticamente aceitos, são triviais, falsos, ou irrelevantes à aplicação. Além disso, a técnica de associação tradicional gera padrões compostos apenas por itens contidos na base de dados, o que leva à extração, em geral, de um conhecimento muito específico. Essa especificidade dificulta a obtenção de uma visão geral do domínio pelos usuários finais, que visam a utilização/exploração de conhecimentos úteis e compreensíveis. Assim, o pós-processamento das regras descobertas se torna um importante tópico, uma vez que há a necessidade de se validar as regras obtidas. Diante do exposto, este trabalho apresenta uma abordagem de pós-processamento de regras de associação que utiliza conhecimento de domínio, expresso via taxonomias, para obter um conjunto de regras de associação generalizadas compacto e representativo. Além disso, a fim de avaliar a representatividade de padrões generalizados, é apresentado também neste trabalho um estudo referente à utilização de medidas de interesse objetivas quando aplicadas a regras de associação generalizadas. Nesse estudo, a semântica da generalização é levada em consideração, já que cada uma delas fornece uma visão distinta do domínio. Como resultados desta tese, foi possível observar que: um conjunto de regras de associação pode ser compactado na presença de um conjunto de taxonomias; para cada uma das semânticas de generalização existe um conjunto de medidas mais apropriado para ser utilizado na avaliação de regras generalizadas

Year

2007

Creators

Veronica Oliveira de Carvalho

Algoritmos de bulk-loading para o método de acesso métrico Onion-tree

Atualmente, a Onion-tree [Carélo et al., 2009] é o método de acesso métrico baseado em memória primária mais eficiente para pesquisa por similaridade disponível na literatura. Ela indexa dados complexos por meio da divisão do espaço métrico em regiões (ou seja, subespaços) disjuntas, usando para isso dois pivôs por nó. Para prover uma boa divisão do espaço métrico, a Onion-tree introduz as seguintes características principais: (i) procedimento de expansão, o qual inclui um método de particionamento que controla o número de subespaços disjuntos gerados em cada nó; (ii) técnica de substituição, a qual pode alterar os pivôs de um nó durante operações de inserção baseado em uma política de substituição que garante uma melhor divisão do espaço métrico, independente da ordem de inserção dos elementos; e (iii) algoritmos para a execução de consultas por abrangência e aos k-vizinhos mais próximos, de forma que esses tipos de consulta possam explorar eficientemente o método de particionamento da Onion-tree. Entretanto, a Onion-tree apenas oferece funcionalidades voltadas à inserção dos dados um-a-um em sua estrutura. Ela não oferece, portanto, uma operação de bulk-loading que construa o índice considerando todos os elementos do conjunto de dados de uma única vez. A principal vantagem dessa operação é analisar os dados antecipadamente para garantir melhor particionamento possível do espaço métrico. Com isto, a carga inicial de grandes volumes de dados pode ser melhor realizada usando a operação de bulk-loading. Este projeto de mestrado visa suprir a falta da operação de bulk-loading para a Onion-tree, por meio da proposta de algoritmos que exploram as características intrínsecas desse método de acesso métrico. No total, são propostos três algoritmos de bulk-loading, denominados GreedyBL, SampleBL e HeightBL, os quais utilizam respectivamente as seguintes abordagens: gulosa, amostragem e de estimativa da altura do índice. Testes experimentais realizados sobre conjuntos de dados com volume variando de 2.536 a 102.240 imagens e com dimensionalidade variando de 32 a 117 dimensões mostraram que os algoritmos propostos introduziram vantagens em relação à estrutura criada pelo algoritmo de inserção um-a-um da Onion-tree. Comparado com a inserção um-a-um, o tamanho do índice foi reduzido de 9% até 88%. Em consultas por abrangência, houve redução de 16% até 99% no número de cálculos de distância e de 9% a 99% no tempo gasto em relação à inserção. Em consultas aos k-vizinhos mais próximos, houve redução de 13% a 86% em número de cálculos de distância e de 9% até 63% no tempo gasto

Year

2013

Creators

Arthur Emanuel de Oliveira Carosia

Minimal Hyperlinking Hytime Documents: Especificação e Apresentação de Estruturas Clássicas de Hipertexto.

Os hiperdocumentos manipulados pelos sistemas hipertexto clássicos não podem ser utilizados em outro sistema ou plataforma. O padrão HyTime, uma extensão de SGML, constitui um esforço para permitir que documentos hipermídia e multimídia possam ser descritos em termos de sua estrutura e conteúdo e, desse modo, ser utilizados por quaisquer sistemas conformantes. Esse trabalho investiga os recursos para especificação de hiperdocumentos hipermídia de HyTime, em particular, aqueles providos por um Minimal hyperlinking HyTime document, uma classe de documentos definida pelo padrão. Como resultado deste trabalho, algumas estruturas tradicionais da literatura sobre hipertexto foram especificadas em um DTD através de construtores HyTime, um sistema básico hipermídia para autoria e apresentação dessas estruturas foi modelado, e a codificação da apresentação dessas estruturas através de applets Java foi implementada para que elas possam ser utilizadas no ambiente da WWW.

Year

1997

Creators

Ciro Cirne Trindade