Repositório RCAAP
Perception of software bots on pull requests on social coding environments
Software bots integrate their work with humans\' tasks, serving as conduits between users and other tools. Due to their ability to automate tasks, bots have become particularly relevant for Open Source Software (OSS) projects hosted on GitHub. Commonly, projects use bots to automate various tasks, such as ensuring license agreement signing, reporting continuous integration failures, reviewing code and pull requests, triaging issues, and refactoring the source code. However, in preliminary studies, our findings indicate that the interaction of these bots on pull requests can be disruptive and perceived as unwelcoming by contributors and maintainers. Although bots can be useful for supporting maintainers\' work, sometimes their comments are seen as spam and are quickly ignored by contributors. In this dissertation, our goal was to identify and understand challenges maintainers and contributors face during interaction with bots on pull requests of OSS projects and design and evaluate a software bot that mitigates some of these problems. Toward this end, we conducted multiple studies using multiple research methods. To identify the challenges caused by bots in pull request interactions, we interviewed 21 practitioners, including project maintainers, contributors, and bot developers. The data was qualitatively analyzed using open and axial coding. Subsequently, the analysis resulted in a theory of how human developers perceive annoying bot behaviors as noise on social coding platforms. Based on this theory, we conducted a participatory design fiction study with 32 practitioners and researchers. This study resulted in design strategies that served as insights to create a prototype. We conducted a suitability study with 15 design fiction participants to assess the envisioned solution. By collecting participants perceptions about a prototype implementing the envisioned strategies, we identified improvements to the prototype according to the suggestions received from the study participants. The main contributions of this dissertation are: (i) identifying the changes in project activity indicators after the adoption of a bot; (ii) proposing a theory about how noise introduced by bots disrupts developers\' communication and workflow; (iii) identifying strategies to mitigate the information overload generated by the existing bots\' interaction; and (iv) the concept of a meta-bot to support contribution to OSS projects. These contributions may help practitioners understand the effects of adopting a bot. Researchers and tool designers may leverage our results to better support human-bot interaction on social coding platforms.
Um Estudo Empírico de Hiper-Heurísticas
Uma hiper-heurística é uma heurística que pode ser utilizada para lidar com qualquer problema de otimização, desde que a ela sejam fornecidos alguns parâmetros, como estruturas e abstrações, relacionados ao problema considerado. As hiper-heurísticas têm sido aplicadas a alguns problemas práticos e apresentadas como métodos de grande potencial, no que diz respeito à capacidade de possibilitar o desenvolvimento, em tempo bastante reduzido, de algoritmos capazes de lidar satisfatoriamente, do ponto de vista prático, com problemas de otimização complexos e pouco conhecidos. No entanto, é difícil situar as hiper-heurísticas em algum nível de qualidade e avaliar a robustez dessas abordagens caso não as apliquemos a problemas para os quais existam diversas instâncias disponíveis publicamente e já experimentadas por algoritmos relevantes. Este trabalho procura dar alguns passos importantes rumo a essas avaliações, além de ampliar o conjunto das hiper-heurísticas, compreender o impacto de algumas alternativas naturais de desenvolvimento e estabelecer comparações entre os resultados obtidos por diferentes métodos, o que ainda nos permite confrontar as duas diferentes classes de hiper-heurísticas que identificamos. Com essas finalidades em mente, desenvolvemos 3 novas hiper-heurísticas e implementamos 2 das hiper-heurísticas mais importantes criadas por outros autores. Para estas últimas, experimentamos ainda algumas extensões e modificações. Os dois métodos hiper-heurísticos selecionados podem ser vistos como respectivos representantes de duas classes distintas, que aparentemente englobam todas as hiper-heurísticas já desenvolvidas e nos permitem denominar cada um desses métodos como \"hiper-heurística de busca direta por entornos\" ou como \"hiper-heurística evolutiva indireta\". Implementamos cada hiper-heurística como uma biblioteca (em linguagem C), de forma a evidenciar e estimular a independência entre o nível em que se encontra a hiper-heurística e aquele onde se apresentam as estruturas e abstrações diretamente relacionadas ao problema considerado. Naturalmente, essa separação é de ingente importância para possibilitar a reutilização imediata das hiper-heurísticas e garantir que nelas haja total ausência de informações relativas a um problema de otimização específico.
Um modelo unificado para planejamento sob incerteza
Dois modelos principais de planejamento em inteligência artificial são os usados, respectivamente, em planejamento probabilístico (MDPs e suas generalizações) e em planejamento não-determinístico (baseado em model checking). Nessa dissertação será: (1) exibido que planejamento probabilístico e não-determinístico são extremos de um rico contínuo de problemas capaz de lidar simultaneamente com risco e incerteza (Knightiana); (2) obtido um modelo para unificar esses dois tipos de problemas usando MDPs imprecisos; (3) derivado uma versão simplificada do princípio ótimo de Bellman para esse novo modelo; (4) exibido como adaptar e analisar algoritmos do estado-da-arte, como (L)RTDP e LDFS, nesse modelo unificado. Também será discutido exemplos e relações entre modelos já propostos para planejamento sob incerteza e o modelo proposto.
Um arcabouço generalizado para empacotamento de ramificações e outras estruturas combinatórias
Nesta tese, estudamos um arcabouço, introduzido por Frank, que denominamos de sistemas generalizados de núcleos. Provamos teoremas sobre empacotamentos de certos objetos combinatórios neste arcabouço, tanto para o caso inteiro quanto para o fracionário. Estes teoremas, em particular, implicam em uma melhora nos limitantes superiores de Schrijver, para o empacotamento de ramificações, e de Gabow e Manu, para o empacotamento de arborescências. Além disso, também provamos que o problema de minimização num poliedro relacionado pode ser resolvido em tempo polinomial, dado um oráculo de separação.
Representação e quantificação de redes vasculares a partir de imagens de angiografia tridimensional
As imagens de Angiografia por Ressonância Magnética (angio-RM) e Tomografia Computadorizada (angio-TC) são ferramentas amplamente usadas em processos de quantificação vascular e no diagnóstico de doenças cardiovasculares, as quais são consideradas entre as principais causas de morte. Contudo, a análise dos vasos em larga escala a partir das imagens é dificultada, tanto pela variabilidade natural dos vasos no corpo humano, quanto pela grande quantidade de dados disponíveis. Além disso, os métodos de quantificação existentes, usualmente extraem as características a partir dos esqueletos, ou até mesmo das próprias imagens de angiografia, razão pela qual tais métodos podem fazer necessária a reanálise das imagens repetidas vezes. Com o intuito de facilitar a análise e de fornecer uma ferramenta de apoio ao diagnóstico, neste trabalho são apresentados um modelo de representação textual de redes vasculares e uma metodologia de quantificação vascular automática, que é feita a partir dessa representação. A representação é obtida a partir da segmentação de imagens volumétricas de angio-RM e angio-TC, seguida da extração de trajetórias e diâmetros de redes vasculares. Tal representação é híbrida, combinando grafos e uma sequência textual de instruções, e permite não apenas a extração de caraterísticas morfológicas da rede vascular, como também a compressão das imagens e, ainda, a reconstrução de imagens similares às imagens originais. A partir das características extraídas, foram realizados estudos comparativos entre arquiteturas vasculares, o que é feito tanto por meio do uso de imagens sintéticas, como por meio de imagens reais, imagens nas quais foi possível encontrar diferenças entre arquiteturas, além de viabilizar a caracterização de aneurismas em um indivíduo. Paralelamente, desenvolvemos um método que permite identificar similaridade entre segmentos vasculares, o que por sua vez possibilita o reconhecimento e rotulação de segmentos em um conjunto de redes vasculares. A metodologia por nós desenvolvida deve também auxiliar no desenvolvimento de processos de classificação de vasos sanguíneos, de ferramentas para o diagnóstico automático de doenças vasculares, e para a melhora de técnicas utilizadas na prática clínica.
2017
Miguel Angel Galarreta Valverde
Engajamento por meio de elementos de jogos em comunidades online de colaboração aberta
Galerias, Bibliotecas, Arquivos e Museus (GLAMs) têm enfrentado o desafio de envolver os usuários na seleção, catalogação, contextualização e curadoria de coleções por meio de crowdsourcing. Esse novo modo de interação se estende além do acesso passivo e pode levar a um nível mais profundo de engajamento com coleções. Como a participação do usuário é a chave para o sucesso nesse contexto, GLAMs precisam criar e manter sistemas de colaboração aberta. Contudo, tais sistemas precisam fomentar um senso de comunidade em torno dos artefatos e as comunidades dependem, dentre outros fatores, do engajamento de colaboradores. O termo engajamento indica a profundidade de investimento de um ator quando interagindo com um sistema digital. Para promover o engajamento dos usuários com comunidades online, tem-se discutido o uso da gamificação. Gamificação é o uso de elementos de projeto de jogos em contextos que não são jogos e tem como meta estimular a participação e engajar pessoas. Nos estudos teóricos sobre gamificação, a motivação intrínseca e a autodeterminação do usuário são as principais bases para a construção de aplicações. No entanto, a maior parte da literatura que descreve a implementação de gamificação utiliza elementos de recompensa, como pontos, distintivos e quadros de liderança, associados à pontificação, um subconjunto da gamificação; e não apresenta o monitoramento e a análise de cada elemento de jogo inserido durante o desenvolvimento, de modo a avaliar o impacto no comportamento dos usuários. Há também a necessidade de explorar como a gamificação pode ser implementada em domínios específicos. Esta pesquisa propõe uma abordagem para integrar gamificação e avaliação de engajamento durante o desenvolvimento de comunidades online de colaboração aberta. Nesse contexto, uma pesquisa-ação foi realizada no domínio de uma GLAM sobre arquitetura e urbanismo, chamada Arquigrafia, para investigar as práticas atuais de gamificação e uma proposta de abordagem. As métricas de engajamento foram analisadas estatisticamente por meio de pesquisas quantitativas experimentais e não-experimentais sobre dados coletados em três anos de monitoramento (2015-2018). Os resultados indicam que o uso de elementos de jogos em uma comunidade online de colaboração aberta, no domínio de GLAMs, tem um efeito positivo sobre o engajamento de usuários sob certas condições, as quais são consideradas na proposta de abordagem desta tese.
2018
Ana Paula Oliveira Bertholdo
Densidade local em grafos
Nós consideramos o seguinte problema. Fixado um grafo H e um número real \\alpha \\in (0,1], determine o menor \\beta = \\beta(\\alpha, H) que satisfaz a seguinte propriedade: se G é um grafo de ordem n no qual cada subconjunto de [\\alpha n] vértices induz mais que \\beta n^2 arestas então G contém H como subgrafo. Este problema foi iniciado e motivado por Erdös ao conjecturar que todo grafo livre de triângulo de ordem n contém um subconjunto de [n/2] vértices que induz no máximo n^2 /50 arestas. Nosso resultado principal mostra que i) todo grafo de ordem n livre de triângulos e pentágonos contém um subconjunto de [n/2] vértices que induz no máximo n^2 /64 arestas, e ii) se G é um grafo regular de ordem n livre de triângulo, com grau excedendo n/3, então G contém um subconjunto de [n/2] vértices que induz no máximo n^2 /50 arestas. Se além disso G não é 3-cromático então G contém um subconjunto de [n/2] vértices que induz menos de n^2 /54 arestas. Como subproduto e confirmando uma conjectura de Erdös assintoticamente, temos que todo grafo regular de ordem n livre de triângulo com grau excedendo n/3 pode ser tornado bipartido pela omissão de no máximo (1/25 + o(1))n^2 arestas. Nós também fornecemos um contraexemplo a uma conjectura de Erdös, Faudree, Rousseau e Schelp.
2018
Luis Eduardo Zambrano Fernandez
Identification of causality in genetics and neuroscience
Causal inference may help us to understand the underlying mechanisms and the risk factors of diseases. In Genetics, it is crucial to understand how the connectivity among variables is influenced by genetic and environmental factors. Family data have proven to be useful in elucidating genetic and environmental influences, however, few existing approaches are able of addressing structure learning of probabilistic graphical models (PGMs) and family data analysis jointly. We propose methodologies for learning, from observational Gaussian family data, the most likely PGM and its decomposition into genetic and environmental components. They were evaluated by a simulation study and applied to the Genetic Analysis Workshop 13 simulated data, which mimic the real Framingham Heart Study data, and to the metabolic syndrome phenotypes from the Baependi Heart Study. In neuroscience, one challenge consists in identifying interactions between functional brain networks (FBNs) - graphs. We propose a method to identify Granger causality among FBNs. We show the statistical power of the proposed method by simulations and its usefulness by two applications: the identification of Granger causality between the FBNs of two musicians playing a violin duo, and the identification of a differential connectivity from the right to the left brain hemispheres of autistic subjects.
Experimentação baseada em simulação em sistemas para cidades inteligentes
Cidades ao redor do mundo enfrentam diversos desafios para proporcionar uma boa qualidade de vida aos seus cidadãos. Sistemas de software vêm sendo desenvolvidos com objetivo de melhorar os serviços e otimizar o uso da infraestrutura da cidade. Desenvolver ambientes de experimentação para esses sistemas na escala de grandes cidades ainda é um desafio, devido ao alto custo e problemas de infraestrutura. Por sua vez, a simulação é um mecanismo que vem sendo utilizado na realização de experimentos em diversas áreas do conhecimento. O objetivo deste trabalho é auxiliar na construção de um ambiente de experimentação de larga escala e interativo para plataformas de Cidades Inteligentes através de simulação. Para tanto, desenvolvemos uma arquitetura de software visando permitir a integração de plataformas e simuladores de Cidades Inteligentes. Dois estudos de caso demostraram a viabilidade da solução, integrando o simulador InterSCSimulator e a plataforma InterSCity, envolvendo uma série de melhorias em ambas as ferramentas. Apresentamos detalhes de como implementar a arquitetura proposta, além da execução de experimentos na escala da cidade de São Paulo. Acreditamos que a solução nos levou a resultados satisfatórios, tendo em vista que, foi possível realizar experimentos de larga escala através de simulação por meio da implementação da arquitetura apresentada. Portanto, projetamos uma arquitetura de software que poderá servir de base para integração de plataformas e simuladores de Cidades Inteligentes com o intuito de realizar experimentos de larga escala e interativo, visando principalmente questões de desempenho e escalabilidade.
Uma ferramenta para o ensino de inteligência artificial usando jogos de computador
A queda do interesse por parte de novos universitários, para cursos de ciência da computação em várias universidades do mundo [55, 68], é um sinal para começarmos a pensar se um dos motivos dessa queda tem relação com a forma pela qual o ensino de computação está sendo conduzido. Nessa linha, perguntamos se existem maneiras de tornar o ensino de computação mais interativo e motivante para os alunos da nova geração, os quais cresceram no meio de uma das categorias mais complexas de software existentes hoje: os jogos de computador [10]. Esses softwares ficam cada vez mais interativos, complexos e ricos em detalhe com o passar do tempo. Conforme será exposto, por meio do estudo de algumas iniciativas de pesquisadores nesse sentido, o ensino de ciência da computação pode se tornar mais interessante e rico com a utilização de jogos de computador como recurso didático, para capturar a atenção dessa nova geração de estudantes. Com base nesse resultado, vamos focar nossa contribuição no ensino de lógica em cadeiras de Inteligência Artificial (IA), uma área de concentração da Ciência da Computação. Apresentamos uma ferramenta que chamamos de Odin, para construir e visualizar especificações executáveis de IA, por meio da linguagem PROLOG, em ambientes tridimensionais de jogos de computador. Entendemos que essa ferramenta pode ser utilizada como um recurso didático em cursos de lógica para alunos em nível de graduação. Como principal benefício, o aluno tem a possibilidade de explorar, observar e interagir com os resultados de seu trabalho. Essa possibilidade de visualização é o que parece reter a atenção do aluno, de acordo com pesquisadores na área. Disponibilizamos dois cenários de uso: O labirinto e o Mundo de Wumpus, dois cenários que juntos podem ser utilizados para cobrir uma boa parte da carga didática de um curso de lógica para graduação. Outros cenários podem ser desenvolvidos posteriormente por meio de extensão do framework composto por classes C++. A ferramenta foi utilizada em duas cadeiras de inteligência artificial no Instituto de Matemática e Estatística, da Universidade de são Paulo. Consideramos que a recepção da ferramenta por parte dos alunos foi positiva.
2008
Filipe Correa Lima da Silva
Voz e vídeo sobre redes sem fio IEEE 802.11
Esta tese analisa aplicações de transmissão de voz e vídeo sobre redes Wi-Fi (IEEE 802.11). Os principais problemas observados foram a maior incidência de tráfegos em rajada e os problemas associados à execução de handoffs. Foram propostos algoritmos adaptativos para monitorar e contornar esses problemas.
2006
Arlindo Flavio da Conceição
Uma análise comparativa de ambientes para Big Data: Apche Spark e HPAT
Este trabalho compara o desempenho e a estabilidade de dois arcabouços para o processamento de Big Data: Apache Spark e High Performance Analytics Toolkit (HPAT). A comparação foi realizada usando duas aplicações: soma dos elementos de um vetor unidimensional e o algoritmo de clusterização K-means. Os experimentos foram realizados em ambiente distribuído e com memória compartilhada com diferentes quantidades e configurações de máquinas virtuais. Analisando os resultados foi possível concluir que o HPAT tem um melhor desempenho em relação ao Apache Spark nos nossos casos de estudo. Também realizamos uma análise dos dois arcabouços com a presença de falhas.
2018
Rafael Aquino de Carvalho
Duas abordagens para casamento de padrões de pontos usando relações espaciais e casamento entre grafos
Casamento de padrões de pontos é um problema fundamental em reconhecimento de padrões. O objetivo é encontrar uma correspondência entre dois conjuntos de pontos, associados a características relevantes de objetos ou entidades, mapeando os pontos de um conjunto no outro. Este problema está associado a muitas aplicações, como por exemplo, reconhecimento de objetos baseado em modelos, imagens estéreo, registro de imagens, biometria, entre outros. Para encontrar um mapeamento, os objetos são codificados por representações abstratas, codificando as características relevantes consideradas na comparação entre pares de objetos. Neste trabalho, objetos são representados por grafos, codificando tanto as características `locais\' quanto as relações espaciais entre estas características. A comparação entre objetos é guiada por uma formulação de atribuição quadrática, que é um problema NP-difícil. Para estimar uma solução, duas técnicas de casamento entre grafos são propostas: uma baseada em grafos auxiliares, chamados de grafos deformados; e outra baseada em representações `esparsas\', campos aleatórios de Markov e propagação de crenças. Devido as suas respectivas limitações, as abordagens são adequadas para situações específicas, conforme mostrado neste documento. Resultados envolvendo as duas abordagens são ilustrados em quatro importantes aplicações: casamento de imagens de gel eletroforese 2D, segmentação interativa de imagens naturais, casamento de formas, e colorização assistida por computador.
Programação por restrições e escalonamento baseado em restrições: Um estudo de caso na programação de recursos para o desenvolvimento de poços de petróleo
O objetivo dessa dissertação é apresentar um problema de otimização do uso de recursos críticos no desenvolvimento de poços de petróleo marítimos e a técnica empregada para a abordagem proposta ao problema. A revisão da técnica de Programação por Restrições é feita analisando aspectos relevantes de modelagem, propagação, busca e paradigmas de programação. A especialização da técnica para problemas de escalonamento, o Escalonamento Baseado em Restrições, é descrita com ênfase nos paradigmas descritivos e nos mecanismos de propagação de restrições. Como subsídio ao uso da técnica em outros problemas, a linguagem comercial de modelagem OPL é apresentada no Apêndice. O objetivo da abordagem ao problema é obter um escalonador para maximizar a produção de óleo obtida no curto prazo. O escalonador proposto baseia-se na declaração de um modelo empregando variáveis de intervalo. Um algoritmo e um modelo de Programação Linear Inteira abordando relaxações do problema são apresentados para que se obtenha um limitante superior ao valor de produção ótimo. Para o cenário real no qual a análise experimental foi feita, foram obtidas soluções a menos de 16% do ótimo após uma hora de execução; e os testes em instâncias de tamanhos variados evidenciaram a robustez do escalonador. Direções para trabalhos futuros são apresentadas ponderando os resultados obtidos.
2012
Thiago Serra Azevedo Silva
Uso de jogos digitais no desenvolvimento de competências curriculares da matemática
Este doutorado investigou as contribuições dos jogos digitais no desenvolvimento de conhecimentos matemáticos previstos nas competências curriculares em uma escola estadual de tempo integral, situada em Cotia - São Paulo. As análises realizadas foram fundamentadas a partir das categorias estudadas pelo psicólogo e educador Reuven Feuerstein quanto às mudanças na estrutura cognitiva (EAM) de alunos do Ensino Fundamental II. Esta investigação foi desenvolvida com 60 alunos e três professoras de Matemática em Oficinas Curriculares denominadas Experiências Matemáticas. Em sua trajetória metodológica contou com a participação da equipe gestora, professores de Matemática, alunos do Ensino Fundamental II e Grupo Alpha de Pesquisa - FEUSP durante dois anos. A investigação, de natureza qualitativa, caracterizou-se como pesquisa-ação e contou com a imersão total do pesquisador no campo amostral. Foram adotados técnicas e procedimento de pesquisa triangulados como a observação participante, entrevistas semiestruturadas, entrevistas informais, grupos focais, gravação de áudio e vídeos, fotos, diários de campo, atividades com os jogos digitais, um ambiente virtual (Moodle) e a combinação de duas redes sociais, FaceBook e WhatsApp. Os resultados apontaram que: i) o contexto escolar representa espaço privilegiado de sistematização e compreensão do complexo registro notacional da Matemática com a mediação dos jogos digitais; ii) o ensino da Matemática por meio de jogos digitais conferem sentido e significado às aprendizagens dos alunos; iii) os jogos digitais conferem ao desenvolvimento de competências e habilidades cognitivas com flexibilidade, autonomia, transcendência e construção de significados que são alguns critérios de mediação apontados por Feuerstein; iv) os jogos digitais favorecem a compreensão de conteúdos matemáticos de forma colaborativa e lúdica; v) os professores de Matemática necessitam de formação permanente que possa ampliar as transformações pedagógicas inovadoras de novos modos de aprender e de ensinar; vi) as abordagens pedagógicas podem se beneficiar de perspectivas contemporâneas como mobile-learning, Flipped-classroom e Bring Your Own Device como formas de reduzir os desafios e dificuldades das escolas públicas (políticas educacionais, infraestrutura, formação docente).
2017
Adalberto Bosco Castro Pereira
Últimos levelings: conceitos, propriedades, algoritmos e aplicações em processamento e análise de imagens
Em Morfologia Matemática diversos operadores são definidos pela diferença entre outros dois operadores, como por exemplo, o gradiente morfológico, definido como a diferença entre a dilatação e a erosão. Estes operadores são denominados operadores residuais, sendo alguns deles definidos por valores residuais extraídos de famílias indexadas de operadores, como por exemplo, o esqueleto por discos maximais e a última abertura. Neste sentido, visa-se neste trabalho investigar a extração de informações residuais em famílias indexadas de operadores. Mais precisamente, em famílias de operadores conexos conhecidos como levelings. Os levelings são operadores que não criam novas estruturas (contornos e extremos regionais) e seus valores são limitados pelos valores da imagem de referência. Assim, é apresentada nesta tese uma classe de operadores residuais denominada últimos levelings, a qual consiste de poderosos operadores residuais definidos a partir de resíduos gerados por operadores consecutivos de um espaço de escala baseado em levelings. Dessa forma, objetos contrastantes podem ser detectados se relevantes resíduos são gerados quando eles são filtrados por um desses levelings. Os valores residuais revelam importantes informações sobre contrastes presentes em uma imagem. Além dos valores residuais, outras informações associadas com eles podem ser obtidas no momento da extração residual, tais como os índices dos operadores que produziram os valores residuais. Com base nessas considerações, as principais contribuições originais desta pesquisa, incluem: (i) demonstrar que árvores construídas a partir de conjuntos de níveis representam espaços de escalas baseados em levelings; (ii) introduzir a classe dos últimos levelings, passando por definições, conceitos, algoritmos, propriedades e relações com outros operadores conhecidos na literatura; (iii) apresentar estratégias para construção de operadores últimos levelings. Por fim, são apresentadas aplicações dos últimos levelings em problemas de análise e processamento de imagens.
2015
Wonder Alexandre Luz Alves
Algoritmos eficientes para análise de campos aleatórios condicionais semi-markovianos e sua aplicação em sequências genômicas
Campos Aleatórios Condicionais são modelos probabilísticos discriminativos que tem sido utilizados com sucesso em diversas áreas como processamento de linguagem natural, reconhecimento de fala e bioinformática. Entretanto, implementar algoritmos eficientes para esse tipo de modelo não é uma tarefa fácil. Nesse trabalho apresentamos um arcabouço que ajuda no desenvolvimento e experimentação de Campos Aleatórios Condicionais Semi Markovianos (semi-CRFs). Desenvolvemos algoritmos eficientes que foram implementados em C++ propondo uma interface de programação flexível e intuitiva que habilita o usuário a definir, treinar e avaliar modelos. Nossa implementação foi construída como uma extensão do arcabouço ToPS que, inclusive, pode utilizar qualquer modelo já definido no ToPS como uma função de característica especializada. Por fim utilizamos nossa implementação de semi-CRF para construir um preditor de promotores que apresentou performance superior aos preditores existentes.
Integrando banco de dados relacional e orientado a grafos para otimizar consultas com alto grau de indireção
Um indicador importante na área acadêmica está relacionado ao grau de impacto de uma publicação, o que pode auxiliar na avaliação da qualidade e do grau de internacionalização de uma instituição. Para melhor delimitar esse indicador torna-se necessária a realização de uma análise das redes de colaboração dos autores envolvidos. Considerando que o modelo de dados relacional é o modelo predominante dos bancos de dados atuais, observa-se que a análise das redes de colaboração é prejudicada pelo fato desse modelo não atender, com o mesmo desempenho, a todos os tipos de consultas realizadas. Uma alternativa para executar as consultas que perdem desempenho no modelo de banco de dados relacional é a utilização do modelo de banco de dados orientado a grafos. Porém, não é claro quais parâmetros podem ser utilizados para definir quando utilizar cada um dos modelos de bancos de dados. Assim, este trabalho tem como objetivo fazer uma análise de consultas que, a partir da sintaxe da consulta e do ambiente de execução, possa apontar o modelo de dados mais adequado para execução da referida consulta. Com essa análise, é possível delimitar em que cenários uma integração entre o modelo relacional e o orientado a grafos é mais adequada.
2017
Marino Hilario Catarino
Rastros de contatos e grafos dinâmicos
Com base em três modelos de mobilidade MapBasedMovement, RandomWayPoint e RandomWalk presentes no simulador The One, sugerimos e discutimos vários modelos es- tocásticos para mobilidade. Primeiramente, a dinâmica das unidades móveis é reduzida a um processo chamado grafo dinâmico, de forma que a configuração espacial das unidades móveis em cada instante de tempo está resumida em um grafo. Os vértices desse grafo são unidades móveis e não mudam conforme o tempo: consideramos um sistema fechado, as unidades não desaparecem e não aparecem novas. O elo entre duas unidades (vértices) em um instante de tempo significa um contato neste instante (a distância entre as unidades é menor que um raio de contato), assim o conjunto de elos muda durante a evolução do sistema. Em seguida, modelamos a evolução do grafo dinâmico como um conjunto de pro- cessos aleatórios binários de forma que cada componente do processo está associada com um par de unidades móveis indicando presença ou ausência de contato entre elas. Três componentes principais constroem o processo: (i) distribuição de tempo de intercontato, (ii) distribuição de tempo de contato, e (iii) independência/interação entre as unidades. Nesta Tese mostramos teoricamente e através de simulações como escolher todos os três componentes para três modelos de mobilidade mencionados acima na situação de baixa densidade de unidades móveis, chamado DTNs (Delay Tolerant Networks). Considerar a modelagem da mobilidade desse ponto de vista é novo e não existe na literatura, até onde sabemos. Existe uma discussão na literatura sobre o tempo de intercontato, mas não conhecemos os resultados e discussão sobre a distribuição do tempo de contato e a interdependência de processos de contatos.
Agrupamento baseado em modelos de mistura de gaussianas com covariáveis
Frequentemente, o processo de agrupamento é a primeira etapa em diversos projetos de análises de dados. Ele permite identicar padrões que não foram notados antes, sendo muito útil para detectar novas hipóteses. No entanto, um desao na análise de dados empíricos é a presença de covariáveis, que podem mascarar a estrutura de agrupamento obtida. Por exemplo: se estamos interessados em agrupar um conjunto de indivíduos em um grupo de controle e pacientes com câncer. Neste caso, o algoritmo de agrupamento poderia agrupar as observações apenas em jovens e velhos. Isso pode acontecer pois a idade do diagnóstico é associada ao câncer. Com isso em mente, desenvolvemos o CEM-Co, um algoritmo baseado em modelos, que remove/minimiza os efeitos das covariáveis durante o processo de agrupamento. Aplicamos o CEM-Co a uma base de dados de expressão gênica, composta de 129 pacientes de câncer de pulmão do estágio I. Como resultado, foi possível identicar um subgrupo de pacientes com taxa de sobrevida estatisticamente menor, algo até então não encontrado.
2020
Carlos Eduardo Martins Relvas