Repositório RCAAP

Sobre coleções e aspectos de centralidade em dados multidimensionais

A análise de dados multidimensionais tem sido por muitos anos tópico de contínua investigação e uma das razões se deve ao fato desse tipo de dados ser encontrado em diversas áreas da ciência. Uma tarefa comum ao se analisar esse tipo de dados é a investigação de padrões pela interação em projeções multidimensionais dos dados para o espaço visual. O entendimento da relação entre as características do conjunto de dados (dataset) e a técnica utilizada para se obter uma representação visual desse dataset é de fundamental importância uma vez que esse entendimento pode fornecer uma melhor intuição a respeito do que se esperar da projeção. Por isso motivado, no presente trabalho investiga-se alguns aspectos de centralidade dos dados em dois cenários distintos: coleções de documentos com grafos de coautoria; dados multidimensionais mais gerais. No primeiro cenário, o dado multidimensional que representa os documentos possui informações mais específicas, o que possibilita a combinação de diferentes aspectos para analisá-los de forma sumarizada, bem como a noção de centralidade e relevância dentro da coleção. Isso é levado em consideração para propor uma metáfora visual combinada que possibilite a exploração de toda a coleção, bem como de documentos individuais. No segundo cenário, de dados multidimensionais gerais, assume-se que tais informações não estão disponíveis. Ainda assim, utilizando um conceito de estatística não-paramétrica, deno- minado funções de profundidade de dados (data-depth functions), é feita a avaliação da ação de técnicas de projeção multidimensionais sobre os dados, possibilitando entender como suas medidas de profundidade (centralidade) foram alteradas ao longo do processo, definindo uma também medida de qualidade para projeções.

Ano

2022-12-06T14:47:11Z

Creators

Douglas Cedrim Oliveira

Detecção de anomalias utilizando métodos paramétricos e múltiplos classificadores

Anomalias ou outliers são exemplos ou grupo de exemplos que apresentam comportamento diferente do esperado. Na prática,esses exemplos podem representar doenças em um indivíduo ou em uma população, além de outros eventos como fraudes em operações bancárias e falhas em sistemas. Diversas técnicas existentes buscam identificar essas anomalias, incluindo adaptações de métodos de classificação e métodos estatísticos. Os principais desafios são o desbalanceamento do número de exemplos em cada uma das classes e a definição do comportamento normal associada à formalização de um modelo para esse comportamento. Nesta dissertação propõe-se a utilização de um novo espaço para realizar a detecção,esse espaço é chamado espaço de parâmetros. Um espaço de parâmetros é criado utilizando parâmetros estimados a partir da concatenação(encadeamento) de dois exemplos. Apresenta-se,então,um novo framework para realizar a detecção de anomalias através da fusão de detectores que utilizam fechos convexos em múltiplos espaços de parâmetros para realizar a detecção. O método é considerado um framework pois é possível escolher quais os espaços de parâmetros que serão utilizados pelo método de acordo como comportamento da base de dados alvo. Nesse trabalho utilizou-se,para experimentos,dois conjuntos de parâmetros(média e desvio padrão; média, variância, obliquidade e curtose) e os resultados obtidos foram comparados com alguns métodos comumente utilizados para detecção de anomalias. Os resultados atingidos foram comparáveis ou melhores aos obtidos pelos demais métodos. Além disso, acredita-se que a utilização de espaços de parâmetros cria uma grande flexibilidade do método proposto, já que o usuário pode escolher um espaço de parâmetros que se adeque a sua aplicação. Tanto a flexibilidade quanto a extensibilidade disponibilizada pelo espaço de parâmetros, em conjunto como bom desempenho do método proposto nos experimentos realizados, tornam atrativa a utilização de espaços de parâmetros e, mais especificamente, dos métodos apresentados na solução de problemas de detecção de anomalias.

Ano

2022-12-06T14:47:11Z

Creators

Gabriel de Barros Paranhos da Costa

Modelos estocásticos com heterocedasticidade para séries temporais em finanças

Neste trabalho desenvolvemos um estudo sobre modelos auto-regressivos com heterocedasticidade (ARCH) e modelos auto-regressivos com erros ARCH (AR-ARCH). Apresentamos os procedimentos para a estimação dos modelos e para a seleção da ordem dos mesmos. As estimativas dos parâmetros dos modelos são obtidas utilizando duas técnicas distintas: a inferência Clássica e a inferência Bayesiana. Na abordagem de Máxima Verossimilhança obtivemos intervalos de confiança usando a técnica Bootstrap e, na abordagem Bayesiana, adotamos uma distribuição a priori informativa e uma distribuição a priori não-informativa, considerando uma reparametrização dos modelos para mapear o espaço dos parâmetros no espaço real. Este procedimento nos permite adotar distribuição a priori normal para os parâmetros transformados. As distribuições a posteriori são obtidas através dos métodos de simulação de Monte Carlo em Cadeias de Markov (MCMC). A metodologia é exemplificada considerando séries simuladas e séries do mercado financeiro brasileiro

Ano

2022-12-06T14:47:11Z

Creators

Sandra Cristina de Oliveira

Um sistema de comunicação para transmissão de dados a longa distância em aeronaves do Projeto ARARA

Veículos aéreos não tripulados (UAVs - Unmanned Aerial Vehicles) têm sido projetados para cumprir missões de reconhecimento e transporte. Podem ser controlados do solo ou operar de forma autônoma em missões pré-programadas. O projeto ARARA - Autonomous and Radiu-Assisted Reconnaissance Aircrafi (Aeronaves de Reconhecimento Assistidas por Rádio e Autônomas), está centrado no desenvolvimento de UAVs para aplicação em agricultura de precisão e monitoramento ecológico, entre outras possibilidades. O projeto está dividido em quatro fases. Cada fase representa um marco na direção do objetivo final que consiste no cumprimento de missões completamente automáticas. Sistemas diferentes são definidos em cada fase com níveis crescentes de complexidade e aplicação. Este trabalho está inserido na fase III do projeto ARARA. Seu objetivo principal é o desenvolvimento de um sistema de comunicação entre uma aeronave autônoma e uma estação no solo. O sistema de comunicação desenvolvido é baseado em comunicação por satélite, provendo um canal confiável de comunicação de ampla cobertura geográfica para controle e monitoramento da missão realizada pela aeronave. Além de ser capaz de transmitir comandos para intervenção em missões previamente programadas, o sistema também permite o recebimento de imagens e dados dos sensores a bordo da aeronave.

Ano

2022-12-06T14:47:11Z

Creators

Daniela de Oliveira Sbizera

Métodos de pontos interiores aplicados ao fluxo de carga ótimo utilizando coordenadas cartesianas

Os métodos de pontos interiores primal-dual c preditor-corretor são desenvolvidos para o problema, de fluxo de potência ótimo AC e a estrutura, matricial resultante é estudada. Foi adotada a, representação do problema, através de coordenadas cartesianas das tensões uma vez que neste modelo a Hessiana do problema é constante e a expansão em Taylor é exata para o termo de ordem dois. Além disso, o cálculo do termo de correção do método preditor-corretor pode ser feito de forma menos custosa computacionalmente. Por outro lado, a vantagem em se trabalhar com coordenadas polares, que modelam mais facilmente os limites de magnitude de tensão, perde importância devido ao tratamento de desigualdades eficiente proporcionado pelos métodos de pontos interiores, permitindo uma, revisão dos procedimentos geralmente adotados. Assim, a utilização de coordenadas cartesianas surge como uma abordagem natural, pois apresenta uma formulação mais simples que as coordenadas polares. A aplicação do método de Newton às condições de otimalidade leva a um método de pontos interiores primal-dual específico para, este modelo. As condições de otimalidade por sua, vez podem ser obtidas através da função lagrangiana, do problema onde; as restrições de desigualdade são representadas por funções de barreira logarítmicas das variáveis de folga. Antes da aplicação do método, o número de variáveis do problema é reduzido através da, eliminação de variáveis duais livres, que serão calculadas no final. Esta redução não altera, a estrutura esparsa do problema. O sistema linear resultante pode então ser reduzido a duas vezes a quantidade do número de barras da rede de transmissão. Além disso, a matriz resultante é simétrica em estrutura. Esta característica pode ser explorada de forma eficiente reduzindo o esforço computacional por iteração.

Ano

2022-12-06T14:47:11Z

Creators

Adriano Thomaz

Modelos lineares para dados qualitativos: revisão bibliográfica e aplicações em experimentos agronômicos

Em algumas situações dentro da Estatística Experimental, a variável em estudo é qualitativa e suas mensurações podem ser apresentadas na forma de uma tabela de contingências (sxr). Nesses casos o estudo estatístico dessa variável pode ser feito através de modelos lineares para dados qualitativos, utilizando a metodologia proposta por GRIZZLE, STARMER e KOCH (1969), também como método GSK. Em nosso trabalho, discutiremos o artigo básico dessa metodologia, que será apresentado em capítulo especial, bem como os mais recentes trabalhos nessa área, a partir dos quais se programará, em linguagem BASIC, o método GSK. Finalizaremos nosso trabalho, apresentando exemplos aplicados a agronomia, relativos à produção de laranja e rendimento médio agrícola em kg/ha de cana-de-açúcar

Ano

2022-12-06T14:47:11Z

Creators

Rui Vieira de Moraes

Servidor web distribuído com diferenciação de serviços - implementação e avaliação de um protótipo

Este trabalho apresenta um estudo, implementação e avaliação em ambiente real de um protótipo de servidor Web com diferenciação de serviços (SWDS) para provisão de QoS relativa em servidores Web. Para tanto foram considerados algoritmos de reserva de recursos e escalonamento baseado em prioridades para prover diferenciação entre as classes de serviço, além de mecanismos de controle de admissão a fim de controlar a carga no sistema. A meta é oferecer melhor tratamento para requisições de maior prioridade, sem prejudicar em excesso as requisições de prioridade menor. Foi observado que os algoritmos de reserva de recursos (RSV e RSVadap) são eficientes para prover diferenciação entre as classes consideradas, no entanto seus desempenhos não foram satisfatórios em alguns casos, tanto devido a arquitetura em que foram implementados, como por motivos inerentes à própria natureza do algoritmo. O algoritmo de escalonamento baseado em prioridades considerado (PriProcess), mostrou-se eficiente tanto no sentido de prover diferenciação de serviços entre as classes, como na questão de desempenho, com a classe de maior prioridade sempre sendo melhor atendida em relação à classe de menor prioridade. Também foi alvo do estudo a criação de um mecanismo de controle de admissão com diferenciação de serviços. Os resultados alcançados sinalizam uma melhora em termos de tempos de respostas e número de requisições completadas para a classe de maior prioridade

Ano

2022-12-06T14:47:11Z

Creators

Valter Rogério Messias

Classificação e detecção de variações de comportamento: uma abordagem aplicada à identificação de perfis de usuários

Estudos comportamentais têm sido conduzidos, há séculos, por cientistas e filósofos, abordando assuntos tais como trajetórias de estrelas e planetas, organizações da sociedade, evolução dos seres vivos, comportamento e linguagem humana. Com o advento da computação, grandes quantidades de informação tornaram-se disponíveis, as quais geram novos desafios a fim de explorar e compreender variações comportamentais de interação com esses sistemas. Motivado por esses desafios e pela disponibilidade de informações, esta dissertação de mestrado propõe uma metodologia com objetivo de classificar, detectar e identificar padrões de comportamento. A fim de validar essa metodologia, modelou-se conhecimentos embutidos em informações relativas a interações de usuários durante a grafia digital de assinaturas (tais informações foram obtidas de uma base de dados do campeonato SVC2004 -- First International Signature Verification Competition). Os modelos de conhecimento gerados foram, posteriormente, empregados em experimentos visando o reconhecimento de assinaturas. Resultados obtidos foram comparados a outras abordagens propostas na literatura

Ano

2022-12-06T14:47:11Z

Creators

Matheus Lorenzo dos Santos

Teaching Parallel Programming in Containers: Virtualization of a Heterogeneous Local Infrastructure

Providing parallel programming education is an emerging challenge, requires teaching approaches to further the learning process and a complex infrastructure to provide a suitable environment for the laboratory practical classes. Do not prioritize parallel programming requirements in future computing professionals learning can lead to a significant training gap, negatively impacting the efficient use of current computing platforms. To popularize \"parallel thinking,\" it is essential to adopt practical learning approaches and means to facilitate software configuration and the infrastructure necessary for laboratory classes. Unfortunately, many public and private institutions do not have a cluster or an infrastructure to run parallel programs. Also, there is an operational cost to create and maintain a required environment for these laboratory classes. The lack of lecturers who work in research related to high-performance computing and the difficulties inherent in managing the execution environment are two other factors that create barriers to teaching parallel programming. Thus, this thesis aims to evaluate whether the virtualization of heterogeneous parallel architectures contributes to the teaching of parallel programming by computing students in educational institutions, which do not have such parallel architectures or qualified personnel to manage these environments. This research started with a study of existing works in the literature to determine how the practical teaching of parallel programming is carried out today. After this survey, we found that no tool met the idealized virtualization needs. Next, we defined the virtualization requirements, and a tool was developed using containers. Subsequently, experiments were carried out with professionals in the field and students to evaluate the effectiveness of this tool in the practical teaching of parallel programming. As a result, Iguana was created, an open-source tool for teaching parallel programming, thinking about low-income students who do not have access to parallel architectures. The tool allows students to develop and run their parallel code through a real-time web interface without the need to access command-line terminals or wait for batch processing. Furthermore, Iguana can operate without the Internet in a simple virtual machine, requiring only essential computer resources, allowing its use by any first-year undergraduate student.

Ano

2022-12-06T14:47:11Z

Creators

Naylor Garcia Bachiega

Relational Conditional Set Operations

A set is a collection of different objects. Some basic operations from the Theory of Sets are the set membership (), subset (), intersection (), and difference (). The relational Algebra adapts the set operations to work with relations. However, as we show in this work, the set operations have limitations because of the implicit use of the identity predicate. That is, a tuple is a member of a set if it is identical to any tuple in the set. For example, lets consider two relations. The first one is a list of products that a person wants to buy. The second one is a list of products that one store has. Now, we could get any item from the desired products list and query can we buy this item in the store? with the set membership operator (), being true if the item is a member of the second set or false if not. With the set membership operator as a basis, we can also perform other queries such as subset, intersection, and difference. The subset () query would answer to can I buy all the desired products in the store?. The intersection () would answer to what products can I buy in the store? And finally, the difference () would answer to what are the desired products that I cannot buy in the store?. Still, many applications need other comparison predicates that are not limited to identity. For example, if we add quantity and price to the sets of desired products and stores products, comparing the tuples by identity wont have much sense, since a product in the store with stock greater than the required should be valid, and it is also valid a product with a price lower than the users maximum budget for that product. This MSc work presents the new Relational Conditional Set Operations. The novel operators encapsulate the idea of set operations with conditional queries, facilitating specific operators for them, and allowing their optimization. For example, they are potentially useful in applications of product sales with units and prices, job promotions with skills that have enough experience or certification level, and internships with minimum grades. We validate our proposals semantics and scalability by studying the first of these applications. Also, we open path for future works such as: to implement the operators in a DBMS; to propose SQL queries able to answer these kind of queries and compare it with our current approach; to extend the idea for bag algebra; to explore a whole new path of optimization for our algorithms; to add support for complex data, allowing similarity comparisons in the predicate; and, to study the use of these operators as basis for other operations that currently use the traditional set operation as basis; among others.

Ano

2022-12-06T14:47:11Z

Creators

Alexis Iván Aspauza Lescano

A novel cloud and fog-based architecture to support spatial analytics in smart cities

Providing an infrastructure to accommodate a large number of people in cities is a major challenge for public authorities and private companies. Thereby, the concept of smart cities emerged, which use technologies like sensors and Internet of Things (IoT) devices to aid in urban growth. These devices generate spatial data that can be used for spatial analytics by smart city managers to improve the populations quality of life. However, these IoT devices quickly generate a large volume of spatial data, causing big data problems. A smart city manager can benefit from using concepts such as fog computing, spatial data warehouses, data lakes, and parallel and distributed storage and processing environments to handle this massive amount of data. Based on a systematic review, there are no studies in the literature that consider all of these concepts in the context of smart cities. Therefore, we propose a novel architecture that aims smart city managers in spatial analytics. This architecture is composed of four layers: (i) terminal, which consists of a network of IoT devices; (ii) fog computing, which contains data lakes for real-time data processing; (iii) cloud computing, in which spatial data warehouses are used to support SOLAP (Spatial Online Analytical Processing) queries carried out in batch; and (iv) analytical tools, which incorporate data visualisation and analysis tools. Furthermore, we introduce a set of guidelines to aid smart cities managers to implement the proposed architecture, by describing and discussing important issues and examples of tools and technologies. The proposed architecture and guidelines were validated through two case studies that use real data generated by IoT devices disposed in smart cities. We investigated the execution of three categories of spatial queries, as well as the execution of queries in the fog, in the cloud, and in both environments. These case studies demonstrated the architectures efficiency and effectiveness to support spatial analytics in the context of smart cities.

Ano

2022-12-06T14:47:11Z

Creators

João Paulo Clarindo dos Santos

Explorando variedade em consultas por similaridade

A complexidade dos dados armazenados em grandes bases de dados aumenta sempre, criando a necessidade de novas formas de consulta. As consultas por similaridade vêm apresentando crescente interesse para tratar de dados complexos, sendo as mais representativas a consulta por abrangência (\'R IND. q\' Range query) e a consulta aos k-vizinhos mais próximos (k-\'NN IND. q\' k-Nearest Neighboor query). Até recentemente, essas consultas não estavam disponíveis nos Sistemas de Gerenciamento de Bases de Dados (SGBD). Agora, com o início de sua disponibilidade, tem se tornado claro que os operadores de busca fundamentais usados para executá-las não são suficientes para atender às necessidades das aplicações que as demandam. Assim, estão sendo estudadas variações e extensões aos operadores fundamentais, em geral voltados às necessidades de domínios de aplicações específicas. Além disso, os seguintes problemas vêm impactando diretamente sua aceitação por parte dos usuários e, portanto, sua usabilidade: (i) os operadores fundamentais são pouco expressivos em situações reais; (ii) a cardinalidade dos resultados tende a ser grande, obrigando o usuário analisar muitos elementos; e (iii) os resultados nem sempre atendem ao interesse do usuário, implicando na reformulação e ajuste frequente das consultas. O objetivo desta dissertação é o desenvolvimento de uma técnica inédita para exibir um grau de variedade nas respostas às consultas aos k-vizinhos mais próximos em domínios de dados métricos, explorando aspectos de diversidade em extensões dos operadores fundamentais usando apenas as propriedades básicas do espaço métrico sem a solicitação de outra informação por parte do usuário. Neste sentido, são apresentados: a formalização de um modelo de variedade que possibilita inserir diversidade nas consultas por similaridade sem a definição de parâmetros por parte do usuário; um algoritmo incremental para responder às consultas aos k-vizinhos mais próximos com variedade; um método de avaliação de sobreposição de variedade para as consultas por similaridade. As propriedades desses resultados permitem usar as técnicas desenvolvidas para apoiar a propriedade de variedade nas consultas aos k-vizinhos mais próximos em Sistemas de Gerenciamento de Bases de Dados

Ano

2022-12-06T14:47:11Z

Creators

Lúcio Fernandes Dutra Santos

APRENDIZADO DE MÁQUINA POR EXEMPLOS USANDO ÁRVORES DE DECISÃO

O Aprendizado de Máquina é uma importante área de pesquisa em Inteligência Artificial pois a capacidade de aprender é essencial para um comportamento inteligente. Em particular, um dos objetivos da pesquisa em Aprendizado de Máquina é o de auxiliar o processo de aquisição de conhecimento facilitando a construção de Sistemas Baseados em Conhecimento. Uma das formas de aprendizagem é por generalizações, isto é, através de processos indutivos. São várias as estratégias desenvolvidas para Aprendizado de Máquina por Indução. Uma delas está baseada na construção de árvores de decisão. Esta estratégia abrange uma determinada família de sistemas de aprendizado por indução: a família TDIDT - Top Down Decision Trees. Neste trabalho são apresentadas algumas estratégias de Aprendizado de Máquina, dando ênfase aos sistemas da família TDIDT, bem como detalhes da implementação realizada. Mostra-se que é possível realizar uma implementação geral dos algoritmos desta família. Mostra-se também a importância dos diversos mecanismos de poda em árvores de decisão. Um método de poda específico é usado para podar árvores geradas em diversos domínios. Os resultados obtidos evidenciam que este método reduz a complexidade da árvore e produz ganhos significativos na classificação por ela realizada.

Ano

2022-12-06T14:47:11Z

Creators

Maria Inés Castiñeira

UM AMBIENTE PARA AUXILIAR A CONSTRUÇÃO DE NÚCLEOS DE SISTEMAS ESPECIALISTAS

A construção do Núcleo de um Sistema Especialista pode ser facilitada se for realizada dentro de um ambiente que permita articular, bem como alterar os diversos subsistemas que o constituem tal que estes possuam características apropriadas para manipular Bases de Conhecimentos com características diferentes. Neste trabalho é apresentada a implementação de cada um dos subsistemas que constitui este ambiente. As implementações realizadas são abertas, ou seja, é permitido que o projetista do SE se utilize tanto de um subconjunto das facilidades fornecidas, bem como respeitando algumas condições que troque algumas estruturas e redefina e/ou incremente o código dos subsistemas. O usuário pode interagir com este ambiente, de maneira a adequar o Núcleo de Sistema Especialista à manipulação da Base de Conhecimento de seu interesse. Este ambiente, implementado na linguagem de programação lógica Prolog para microcomputadores IBM PC - compatível, leva em consideração a maioria dos problemas encontrados na construção de núcleos específicos e é dirigido a usuários não leigos em Sistemas Especialistas e Prolog.

Ano

2022-12-06T14:47:11Z

Creators

Solange Oliveira Rezende

MÉTODOS DE RUNGE-KUTTA-ROSENBROCK PARA EQUAÇÕES DIFERENCIAIS ORDINÁRIAS

Nesta dissertação é estudada a classe dos métodos de Runge-Kutta e também do tipo Rosenbrock para a solução de Equações Diferenciais Ordinárias. Atenção especial é dedicada aos métodos de Rosenbrock-Wanner (ROW) métodos, os quais são extensões dos métodos clássicos de Rosenbrock. Um procedimento é apresentado para a obtenção dos métodos de Rosenbrock-Wanner de quarta ordem A-estáveis e um método com estas propriedades é mostrado. Isto é confirmado por resultados numéricos. Todo o estudo, aqui apresentado, baseia-se na teoria dos grafos ao estilo de J.C.Butcher.

Ano

2022-12-06T14:47:11Z

Creators

Valdemir Garcia Ferreira

On the automatic design of decision-tree induction algorithms

Decision-tree induction is one of the most employed methods to extract knowledge from data. There are several distinct strategies for inducing decision trees from data, each one presenting advantages and disadvantages according to its corresponding inductive bias. These strategies have been continuously improved by researchers over the last 40 years. This thesis, following recent breakthroughs in the automatic design of machine learning algorithms, proposes to automatically generate decision-tree induction algorithms. Our proposed approach, namely HEAD-DT, is based on the evolutionary algorithms paradigm, which improves solutions based on metaphors of biological processes. HEAD-DT works over several manually-designed decision-tree components and combines the most suitable components for the task at hand. It can operate according to two different frameworks: i) evolving algorithms tailored to one single data set (specific framework); and ii) evolving algorithms from multiple data sets (general framework). The specific framework aims at generating one decision-tree algorithm per data set, so the resulting algorithm does not need to generalise beyond its target data set. The general framework has a more ambitious goal, which is to generate a single decision-tree algorithm capable of being effectively applied to several data sets. The specific framework is tested over 20 UCI data sets, and results show that HEAD-DTs specific algorithms outperform algorithms like CART and C4.5 with statistical significance. The general framework, in turn, is executed under two different scenarios: i) designing a domain-specific algorithm; and ii) designing a robust domain-free algorithm. The first scenario is tested over 35 microarray gene expression data sets, and results show that HEAD-DTs algorithms consistently outperform C4.5 and CART in different experimental configurations. The second scenario is tested over 67 UCI data sets, and HEAD-DTs algorithms were shown to be competitive with C4.5 and CART. Nevertheless, we show that HEAD-DT is prone to a special case of overfitting when it is executed under the second scenario of the general framework, and we point to possible alternatives for solving this problem. Finally, we perform an extensive experiment for evaluating the best single-objective fitness function for HEAD-DT, combining 5 classification performance measures with three aggregation schemes. We evaluate the 15 fitness functions in 67 UCI data sets, and the best of them are employed to generate algorithms tailored to balanced and imbalanced data. Results show that the automatically-designed algorithms outperform CART and C4.5 with statistical significance, indicating that HEAD-DT is also capable of generating custom algorithms for data with a particular kind of statistical profile

Ano

2022-12-06T14:47:11Z

Creators

Rodrigo Coelho Barros

Cross-project defect prediction with meta-Learning

Defect prediction models assist tester practitioners on prioritizing the most defect-prone parts of the software. The approach called Cross-Project Defect Prediction (CPDP) refers to the use of known external projects to compose the training set. This approach is useful when the amount of historical defect data of a company to compose the training set is inappropriate or insufficient. Although the principle is attractive, the predictive performance is a limiting factor. In recent years, several methods were proposed aiming at improving the predictive performance of CPDP models. However, to the best of our knowledge, there is no evidence of which CPDP methods typically perform best. Moreover, there is no evidence on which CPDP methods perform better for a specific application domain. In fact, there is no machine learning algorithm suitable for all domains. The decision task of selecting an appropriate algorithm for a given application domain is investigated in the meta-learning literature. A meta-learning model is characterized by its capacity of learning from previous experiences and adapting its inductive bias dynamically according to the target domain. In this work, we investigate the feasibility of using meta-learning for the recommendation of CPDP methods. In this thesis, three main goals were pursued. First, we provide an experimental analysis to investigate the feasibility of using Feature Selection (FS) methods as an internal procedure to improve the performance of two specific CPDP methods. Second, we investigate which CPDP methods present typically best performances. We also investigate whether the typically best methods perform best for the same project datasets. The results reveal that the most suitable CPDP method for a project can vary according to the project characteristics, which leads to the third investigation of this work. We investigate the several particularities inherent to the CPDP context and propose a meta-learning solution able to learn from previous experiences and recommend a suitable CDPD method according to the characteristics of the project being predicted. We evaluate the learning capacity of the proposed solution and its performance in relation to the typically best CPDP methods.

Ano

2022-12-06T14:47:11Z

Creators

Faimison Rodrigues Porto

Um problema de corte de peças integrado à programação da produção - uma abordagem por relaxação lagrangiana

O problema de planejamento da produção integrado ao problema de corte de estoque surge em várias indústrias de manufatura, tais como indústria de papel, móveis, aço entre outras, e consiste em um problema de otimização combinatória bastante complexo, devido ao fato de integrar dois problemas conhecidos na literatura de difícil resolução. As aplicações práticas deste problema vêm aumentando em muitas empresas que buscam tornar seus processos produtivos mais eficientes. Neste trabalho, estudamos o problema de otimização integrado que surge em pequenas indústrias de móveis, em que placas de MDF disponíveis em estoque devem ser cortadas em itens menores, de diversos tamanhos e quantidades para comporem os produtos demandados. O modelo matemático de otimização linear inteiro proposto permite que alguns produtos sejam antecipados e estocados. Essa antecipação da produção aumenta os custos de estoque, porém com o aumento da demanda de peças é possível gerar padrões de corte melhores e diminuir os custos com a perda de material. Consideramos no modelo dois tipos de variáveis de antecipação, uma de estoque convencional para atender uma demanda em carteira e outra para aproveitar a produção e atender uma demanda prevista, chamada variável oportunista. A função objetivo consiste em minimizar os custos dos processos de produção e de corte. Para resolver a relaxação linear deste problema, propomos um método lagrangiano e utilizamos a estratégia de horizonte rolante. Alguns testes computacionais são realizados e os resultados apresentados

Ano

2022-12-06T14:47:11Z

Creators

Scheila Valechenski Biehl

Criação de um ambiente para o processamento de córpus de Português Histórico

A utilização de córpus tem crescido progressivamente em áreas como Lingüística e Processamento de Língua Natural. Como resultado, temos a compilação de novos e grandes córpus e a criação de sistemas processadores de córpus e de padrões para codificação e intercâmbio de textos eletrônicos. Entretanto, a metodologia para compilação de córpus históricos difere das metodologias usadas em córpus contemporâneos. Outro problema é o fato de a maior parte dos processadores de córpus proverem poucos recursos para o tratamento de córpus históricos, apesar de tais córpus serem numerosos. Da mesma forma, os sistemas para criação de dicionários não atendem satisfatoriamente necessidades de dicionários históricos. A motivação desta pesquisa é o projeto do Dicionário Histórico do Português do Brasil (DHPB) que tem como base a construção de um córpus de Português do Brasil dos séculos XVI a XVIII (incluindo alguns textos do começo do século XIX). Neste trabalho são apresentados os desafios encontrados para o processamento do córpus do projeto do projeto DHPB e os requisitos para redação de verbetes do dicionário histórico. Um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes foi desenvolvido para o projeto DHPB sendo possível adaptá-lo para ser aplicado a outros projetos de criação de dicionários históricos

Ano

2022-12-06T14:47:11Z

Creators

Arnaldo Candido Junior

Teste de composição de web services: uma estratégia baseada em um modelo de teste de programas paralelos

WEb Services constituem uma tecnologia emergente utilizada para disponibilização de serviços na Web. Devido aos complexos processos de negócio existentes, esses serviços são combinados para que operem seguindo um fluxo de trabalho. Esse processo é chamado de composição de Web Services. Como no processo de desenvolvimento de um software tradicional, a atividade de teste é fundamental no processo de desenvolvimento da composição de Web Services. Neste trabalho é proposta uma estratégia de teste para a composição de Web Services, em que especificações de composições são transformadas para um modelo de teste de programas paralelos baseados em passagem de mensagens. É proposto o conceito de grupos de elementos requeridos para melhorar a cobertura dos critérios. Uma ferramenta de apoio à estratégia de teste foi desenvolvida. Alguns estudos experimentais para avaliar a aplicabilidade da estratégia proposta também são apresentados. Além disso, é proposto um método que utiliza redes de Petri para eliminar sincronizações não-executáveis no envio e recebimento de mensagens

Ano

2022-12-06T14:47:11Z

Creators

André Takeshi Endo