Global RCAAP Repository | PISTA Digital

Ensino e aprendizado de fundamentos de programação: uma abordagem baseada em teste de software

O ensino de fundamentos de programação não é uma tarefa trivial muitos estudantes têm dificuldades em compreender os conceitos abstratos de programação e possuem visões erradas sobre a atividade de programação. Uma das iniciativas que tem sido investigada a fim de amenizar os problemas associados refere-se ao ensino conjunto de conceitos básicos de programação e de teste de software. A introdução da atividade de teste pode ajudar o desenvolvimento das habilidades de compreensão e análise nos estudantes. Além disso, aprendendo teste mais cedo os alunos podem se tornar melhores testadores e desenvolvedores. Seguindo esta tendência, em trabalhos anteriores foram investigados alguns mecanismos de apoio ao ensino integrado de fundamentos de programação e teste. Dentre os mecanismos investigados destaca-se a proposição de um ambiente de apoio para submissão e avaliação automática de trabalhos práticos dos alunos, baseado em atividades de teste de software PROGTEST. Em sua primeira versão, a PROGTEST foi integrada à ferramenta JABUTISERVICE, que apoia o teste estrutural de programas escritos em Java. O presente projeto de mestrado visou a dar continuidade aos trabalhos já realizados, tendo como principal objetivo a identificação e integração de diferentes ferramentas de teste ao ambiente PROGTEST, explorando tanto técnicas e critérios de teste diferenciados como linguagens de programação distintas. O ambiente PROGTEST também foi aplicado e validado em diferentes cenários de ensino, considerando diferentes linguagens e técnicas de teste. Em linhas gerais, os resultados evidenciam a viabilidade da aplicação do ambiente em cenários de ensino e aprendizagem

2012

https://doi.org/10.11606/D.55.2012.tde-19072012-101604

Draylson Micael de Souza

Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.

Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas, chamado de aprendizado supervisionado. O maior objetivo de um classificador é ser capaz de predizer com sucesso a respeito de novos casos. A performance de um classificador é medida em termos da taxa de erro. Técnicas experimentais para estimar a taxa de erro verdadeira não somente provêem uma base para comparar objetivamente as performances de diversos algoritmos de aprendizado no mesmo conjunto de exemplos, mas também podem ser uma ferramenta poderosa para projetar um classificador. As técnicas para estimar a taxa de erro são baseadas na teoria estatística de resampling. Um ambiente chamado AMPSAM foi implementado para ajudar na aplicação dos métodos de resampling em conjuntos de exemplos do mundo real. AMPSAM foi projetado como uma coleção de programas independentes, os quais podem interagir entre si através de scripts pré-definidos ou de novos scripts criados pelo usuário. O ambiente utiliza um formato padrão para arquivos de exemplos o qual é independente da sintaxe de qualquer algoritmo. AMPSAM também inclui ferramentas para particionar conjuntos de exemplos em conjuntos de treinamento e teste utilizando diferentes métodos de resampling. Além do método holdout, que é o estimador de taxa de erro mais comum, AMPSAM suporta os métodos n-fold cross-validation --- incluindo o leaning-one-out --- e o método bootstrap. As matrizes de confusão produzidas em cada iteração utilizando conjuntos de treinamento e teste podem ser fornecidas a um outro sistema implementado chamado SMEC. Este sistema calcula e mostra graficamente algumas das medidas descritivas mais importantes relacionadas com tendência central e dispersão dos dados. Este trabalho também relata os resultados experimentais a respeito de medidas do erro de classificação de três classificadores proposicionais e relacionais bem conhecidos, utilizando ambos os sistemas implementados, em diversos conjuntos de exemplos freqüentemente utilizados em pesquisas de Aprendizado de Máquina.

1997

https://doi.org/10.11606/D.55.1997.tde-19082002-234842

Gustavo Enrique de Almeida Prado Alves Batista

O algoritmo de aprendizado semi-supervisionado co-training e sua aplicação na rotulação de documentos

Em Aprendizado de Máquina, a abordagem supervisionada normalmente necessita de um número significativo de exemplos de treinamento para a indução de classificadores precisos. Entretanto, a rotulação de dados é freqüentemente realizada manualmente, o que torna esse processo demorado e caro. Por outro lado, exemplos não-rotulados são facilmente obtidos se comparados a exemplos rotulados. Isso é particularmente verdade para tarefas de classificação de textos que envolvem fontes de dados on-line tais como páginas de internet, email e artigos científicos. A classificação de textos tem grande importância dado o grande volume de textos disponível on-line. Aprendizado semi-supervisionado, uma área de pesquisa relativamente nova em Aprendizado de Máquina, representa a junção do aprendizado supervisionado e não-supervisionado, e tem o potencial de reduzir a necessidade de dados rotulados quando somente um pequeno conjunto de exemplos rotulados está disponível. Este trabalho descreve o algoritmo de aprendizado semi-supervisionado co-training, que necessita de duas descrições de cada exemplo. Deve ser observado que as duas descrições necessárias para co-training podem ser facilmente obtidas de documentos textuais por meio de pré-processamento. Neste trabalho, várias extensões do algoritmo co-training foram implementadas. Ainda mais, foi implementado um ambiente computacional para o pré-processamento de textos, denominado PreTexT, com o objetivo de utilizar co-training em problemas de classificação de textos. Os resultados experimentais foram obtidos utilizando três conjuntos de dados. Dois conjuntos de dados estão relacionados com classificação de textos e o outro com classificação de páginas de internet. Os resultados, que variam de excelentes a ruins, mostram que co-training, similarmente a outros algoritmos de aprendizado semi-supervisionado, é afetado de maneira bastante complexa pelos diferentes aspectos na indução dos modelos.

2004

https://doi.org/10.11606/D.55.2004.tde-19082004-092311

Edson Takashi Matsubara

"Testes de hipótese e critério bayesiano de seleção de modelos para séries temporais com raiz unitária"

A literatura referente a testes de hipótese em modelos auto-regressivos que apresentam uma possível raiz unitária é bastante vasta e engloba pesquisas oriundas de diversas áreas. Nesta dissertação, inicialmente, buscou-se realizar uma revisão dos principais resultados existentes, oriundos tanto da visão clássica quanto da bayesiana de inferência. No que concerne ao ferramental clássico, o papel do movimento browniano foi apresentado de forma detalhada, buscando-se enfatizar a sua aplicabilidade na dedução de estatísticas assintóticas para a realização dos testes de hipótese relativos à presença de uma raíz unitária. Com relação à inferência bayesiana, foi inicialmente conduzido um exame detalhado do status corrente da literatura. A seguir, foi realizado um estudo comparativo em que se testa a hipótese de raiz unitária com base na probabilidade da densidade a posteriori do parâmetro do modelo, considerando as seguintes densidades a priori: Flat, Jeffreys, Normal e Beta. A inferência foi realizada com base no algoritmo Metropolis-Hastings, usando a técnica de simulação de Monte Carlo por Cadeias de Markov (MCMC). Poder, tamanho e confiança dos testes apresentados foram computados com o uso de séries simuladas. Finalmente, foi proposto um critério bayesiano de seleção de modelos, utilizando as mesmas distribuições a priori do teste de hipótese. Ambos os procedimentos foram ilustrados com aplicações empíricas à séries temporais macroeconômicas.

2004

https://doi.org/10.11606/D.55.2004.tde-19082004-163615

Ricardo Gonçalves da Silva

Anotações com PDAs: extensão da área de escrita e integração com projeto InCA-SERVE

A computação ubíqua, uma das mais recentes áreas da Ciência da Computação, tem como objetivo tornar os serviços computacionais tão intrínsecos a um determinado ambiente que se tornam transparentes para seus usuários. Este trabalho se insere nesse contexto, tanto buscando apoiar as atividades cotidianas de um usuário em particular quanto provendo flexibilidade de comunicação entre um conjunto de usuários de modo geral. Investigando os problemas associados, desenvolvemos um sistema de anotações visando a captura e o acesso a informações públicas em experiências ao vivo, tais como aulas presenciais, utilizando, para tanto, dispositivos pessoais digitais (ou PDAs - Personal Digital Assistants). Apesar dos PDAs apresentarem vantagens como portabilidade e baixo consumo de energia, a limitação de sua tela representa problemas para usuários, que, geralmente, têm dificuldade em visualizar e interagir com uma quantidade de informações que extrapola o tamanho da tela desse dispositivo. Neste trabalho, implementamos um sistema que simula uma área de anotações maior do que a tela dos PDAs e elaboramos um mecanismo de rolagem de textos para favorecer a escrita de anotações. Para avaliar esse mecanismo e o impacto da utilização de uma área maior na orientação espacial do usuário, conduzimos dois experimentos e analisamos seus resultados. Por fim, acoplamos essas características no sistema desenvolvido e o integramos à infra-estrutura do Projeto InCA-SERVE, em utilização pelo grupo de hipermídia do ICMC-USP.

2004

https://doi.org/10.11606/D.55.2004.tde-19082015-111900

Carlos Frederico Penedo Rocha

Geração automática de aplicações Web para aplicações de captura e acesso

Um dos principais focos de pesquisa na área de computação ubíqua é o suporte à construção de aplicações de captura e acesso. Tais aplicações automatizam o processo de captura de experiências ao vivo e a geração de hiperdocumentos associados para o acesso à informação que foi capturada. Aplicações de captura e acesso apresentam requisitos que dificultam a sua construção e evolução, tal como a demanda por suporte a variados dispositivos durante a captura assim como diversos formatos para os documentos resultantes e um alto grau de automação na geração desses documentos. Nesse contexto, o projeto InCA-SERVE foi proposto para suportar o desenvolvimento de tais aplicações por meio de um conjunto de infra-estruturas e de serviços. O objetivo do trabalho reportado nesta dissertação é complementar o projeto InCA-SERVE com relação à visualização da informação capturada. Baseada em requisitos de aplicações de captura e acesso em particular, e em conceitos estabelecidos de metodologias de projeto hipermídia em geral, uma nova infra-estrutura chamada wVIEW foi desenvolvida. wVIEW suporta a geração automática de aplicações Web que permitem a geração dinâmica de documentos de apresentação para o conteúdo capturado por aplicações de captura e acesso.

2004

https://doi.org/10.11606/D.55.2004.tde-19082015-113251

Andrea Rodrigues de Andrade

Sobre a escolha da relaxação e ordenação das projeções no método de Kaczmarz com ênfase em implementações altamente paralelas e aplicações em reconstrução tomográfica

O método de Kaczmarz é um algoritmo iterativo que soluciona sistemas lineares do tipo Ax = b através de projeções sobre hiperplanos bastante usado em aplicações que envolvem a Tomografia Computadorizada. Recentemente voltou a ser destaque após a publicação de uma versão aleatória apresentada por Strohmer e Vershynin em 2009 a qual foi provada possuir taxa de convergência esperada exponencial. Posteriormente, Eldar e Needell em 2011 sugeriram uma versão modificada do algoritmo de Strohmer e Vershynin, na qual a cada iteração é selecionada a projeção ótima a partir de um conjunto aleatório, utilizando para isto o lema de Johnson-Lindenstrauss. Nenhum dos artigos mencionados apresenta uma técnica para a escolha do parâmetro de relaxação, entretanto, a seleção apropriada deste parâmetro pode ter uma influência substancial na velocidade do método. Neste trabalho apresentamos uma metodologia para a escolha do parâmetro de relaxação, bem como implementações paralelas do algoritmo de Kaczmarz utilizando as ideias de Eldar e Needell. Nossa metodologia para seleção do parâmetro utiliza uma nova generalização dos resultados de Strohmer e Vershynin que agora leva em consideração o parâmetro λ de relaxação e, a partir daí, obtemos uma estimativa da taxa de convergência como função de λ. Escolhemos então, para uso no algoritmo, aquele que otimiza esta estimativa. A paralelização dos métodos foi realizada através da plataforma CUDA e se mostrou muito promissora, pois conseguimos, através dela, um ganho significativo na velocidade de convergência

2014

https://doi.org/10.11606/D.55.2014.tde-19092014-102033

Leonardo Bravo Estácio

Analysis of microRNA precursors in multiple species by data mining techniques

RNA Sequencing has recently emerged as a breakthrough technology for microRNA (miRNA) discovery. This technology has allowed the discovery of thousands of miRNAs in a large number of species. However, despite the benefits of this technology, it also carries its own limitations, including the need for sequencing read libraries and of the genome. Differently, ab initio computational methods need only the genome as input to search for genonic locus likely to give rise to novel miRNAs. In the core of most of these methods, there are predictive models induced by using data mining techniques able to distinguish between real (positive) and pseudo (negative) miRNA precursors (pre-miRNA). Nevertheless, the applicability of current literature ab initio methods have been compromised by high false detection rates and/or by other computational difficulties. In this work, we investigated how the main aspects involved in the induction of predictive models for pre-miRNA affect the predictive performance. Particularly, we evaluate the discriminant power of feature sets proposed in the literature, whose computational costs and composition vary widely. The computational experiments were carried out using sequence data from 45 species, which covered species from eight phyla. The predictive performance of the classification models induced using large training set sizes (≥ 1; 608) composed of instances extracted from real and pseudo human pre-miRNA sequences did not differ significantly among the feature sets that lead to the maximal accuracies. Moreover, the differences in the predictive performances obtained by these models, due to the learning algorithms, were neglectable. Inspired by these results, we obtained a feature set which can be computed 34 times faster than the less costly among those feature sets, producing the maximal accuracies, albeit the proposed feature set has achieved accuracy within 0.1% of the maximal accuracies. When classification models using the elements previously discussed were induced using small training sets (120) from 45 species, we showed that the feature sets that produced the highest accuracies in the classification of human sequences were also more likely to produce higher accuracies for other species. Nevertheless, we showed that the learning complexity of pre-miRNAs vary strongly among species, even among those from the same phylum. These results showed that the existence of specie specific features indicated in previous studies may be correlated with the learning complexity. As a consequence, the predictive accuracies of models induced with different species and same features and instances spaces vary largely. In our results, we show that the use of training examples from species phylogenetically more complex may increase the predictive performances for less complex species. Finally, by using ensembles of computationally less costly feature sets, we showed alternative ways to increase the predictive performance for many species while keeping the computational costs of the analysis lower than those using the feature sets from the literature. Since in miRNA discovery the number of putative miRNA loci is in the order of millions, the analysis of putative miRNAs using a computationally expensive feature set and or inaccurate models would be wasteful or even unfeasible for large genomes. In this work, we explore most of the learning aspects implemented in current ab initio pre-miRNA prediction tools, which may lead to the development of new efficient ab initio pre-miRNA discovery tools

2014

https://doi.org/10.11606/T.55.2014.tde-19092014-155038

Ivani de Oliveira Negrão Lopes

O USO DE HIPERTEXTO PARA APOIO A REUNIÔES FORMAIS

O hipertexto ou texto não linear, surge como uma possibilidade de entender a noção tradicional dos arquivos contendo textos com uma hierarquia linear para uma organização mais complexa. Nele a informação é mantida em blocos discretos que se interconectam através de ligações, formando uma rede. A criação automática de banco de documentos organizados como hipertexto é um problema que vem recebendo crescente atenção na literatura especializada. Neste trabalho usa-se um sistema de hipertexto para apoiar reuniões formais, caracterizadas por circular de convocação e ata, com objetivo de deliberar sobre diversos assuntos de escritório. para isso, inicialmente apresenta-se um estudo sobre os sistemas de hipertexto e suas inúmeras aplicações, alguns sistemas de apoio a reuniões que já foram ou estão sendo implementados e, finalmente, como um sistema de hipertexto pode apoiar reuniões de uma maneira geral. Em seguida, este trabalho analisa um domínio de aplicação - reuniões formais - e mostra como sistemas de hipertexto podem auxiliar no processo de criação automática e busca em atas de reuniões. Propõe-se um método para especificação de sistemas de armazenamento e recuperação de documentos textuais para auxiliar a conversão de documentos para o formato hipertexto, como é o caso de atas de reuniões, que contém um grande volume de informação organizado em fragmentos relacionados entre si. Tal método considera o aspecto dinâmico do crescimento da base de dados hipertexto e apresenta uma solução automatizada para resolver o problema das ligações entre os fragmentos de texto a serem inseridos e os já existentes na base de dados. Na implementação dessa aplicação utiliza-se o sistema de hipertexto Hyperties e um sistema de apoio para a autoria da base de dados desenvolvido especialmente para esse fim.

1992

https://doi.org/10.11606/D.55.2018.tde-19092018-142400

Gladys Pierri Bernardo dos Santos

Extensão natural contínua dos métodos de Runge-Kutta para equações integrais de Volterra de segunda espécie e suas aplicações

O principal propósito deste trabalho e estudar a estrutura dos métodos de Runge-Kutta para equações integrais de Volterra. Isto tem sido desenvolvido de forma tradicional durante vários anos. Este assunto será tratado com uma roupagem bem atual, a qual necessita da teoria de grafos, tornando assim mais fácil a tarefa de obtenção dos coeficientes de Volterra-Runge-Kutta. Também estão incluídas as extensões naturais continuas do mesmo método, de modo a mostrar que e possível construir funções polinomiais continuas por partes, de ordem suficientemente elevada, as quais permitem estender a aproximação nos pontos da malha para todo intervalo de integração.

1992

https://doi.org/10.11606/D.55.2018.tde-19092018-145039

José Luiz de Souza

Extração de conhecimento de redes neurais artificiais.

Este trabalho descreve experimentos realizados com Redes Neurais Artificiais e algoritmos de aprendizado simbólico. Também são investigados dois algoritmos de extração de conhecimento de Redes Neurais Artificiais. Esses experimentos são realizados com três bases de dados com o objetivo de comparar os desempenhos obtidos. As bases de dados utilizadas neste trabalho são: dados de falência de bancos brasileiros, dados do jogo da velha e dados de análise de crédito. São aplicadas sobre os dados três técnicas para melhoria de seus desempenhos. Essas técnicas são: partição pela menor classe, acréscimo de ruído nos exemplos da menor classe e seleção de atributos mais relevantes. Além da análise do desempenho obtido, também é feita uma análise da dificuldade de compreensão do conhecimento extraído por cada método em cada uma das bases de dados.

1999

https://doi.org/10.11606/D.55.1999.tde-19102001-100256

Edmar Martineli

Day2Day: Concepção de uma ferramenta para auxiliar cuidadores nos registros diários e apresentação visual de informações dos pacientes com demência

Com o aumento da expectativa de vida em quase todos os países do mundo, inclusive no Brasil, o número de pessoas idosas vem crescendo de forma considerável. Consequentemente, as doenças degenerativas comuns às pessoas com idades avançadas também tendem a aumentar correspondentemente, tornando doenças, como o Alzheimer, cada vez mais comuns. O cuidado a esses idosos é de extrema importância. Infelizmente, um dos problemas enfrentados pela sociedade, é que o número de cuidadores nesse contexto não segue um aumento proporcional, resultando então em cuidadores altamente sobrecarregados. Acredita-se que o uso de tecnologia para algumas tarefas dos cuidadores (e.g. registro do dia a dia), possa amenizar essa sobrecarga, mas, o que se tem visto é a carência de ferramentas tecnológicas que possam auxiliar nas atividades de cuidado ao paciente idoso. Apesar da importância de estudos nessa direção, poucas iniciativas de pesquisas abordam questões relacionadas às ferramentas tecnológicas para apoiar cuidadores de idosos, sem que essa os traga uma sobrecarga ainda maior. Uma das tarefas que pode ser feita com o auxílio da tecnologia é o registro de informações diárias do idoso, como por exemplo, alimentação, medicação e higiene. A partir das informações coletadas, é possível gerar visualizações que podem potencializar as análises feitas pelos médicos, e consequentemente, prover colaboração entre os cuidadores e os diferentes profissionais de saúde (e.g. psicólogos, nutricionistas, terapeutas ocupacionais, enfermeiros). Com o objetivo de entender melhor as reais necessidades dos cuidadores na coleta das informações do dia a dia, foram conduzidos alguns estudos que consistiam, basicamente, na realização de entrevistas e aplicação de questionários avaliativos. Diante dos resultados obtidos nesses estudos, foi desenvolvida uma ferramenta nomeada Day2Day que utiliza técnicas de visualização de informação e conceitos colaborativos como solução. A fim de avaliar se o Day2Day atingia os objetivos propostos, foi possível implantar a ferramenta em dois ambientes reais distintos, um lar para idosos e duas residências particulares. No total, sete profissionais de saúde fizeram uso da ferramenta por aproximadamente 25 dias, gerando informações diárias de oito idosos. Os resultados dessa avaliação indicam que o Day2Day atende em conformidade com as expectativas propostas, como por exemplo, a redução do tempo gasto para registro das informação.

2016

https://doi.org/10.11606/D.55.2016.tde-19102016-085703

Wilmax Marreiro Cruz

Estudo e simulação de algoritmos de escalonamento para grades móveis voltados à conectividade dos dispositivos móveis

Este projeto apresenta o desenvolvimento de um conjunto de algoritmos que objetivam o escalonamento de tarefas em grades móveis, com foco no problema de conectividade e tolerância às falhas. Algoritmos de aprendizado de máquina e algoritmos estocásticos são aplicados na organização de recursos da grade durante o processo de escalonamento de tarefas. Além disso, uma tolerância a falhas foi considerada em conjunto ao algoritmo proposto e o desempenho do algoritmo foi avaliado por meio de simulação. Os resultados mostram que a queda da quantidade de falhas é significativa com a utilização dos algoritmos desenvolvidos, principalmente quando há uma grande quantidade de tarefas e poucos recursos disponíveis. O aumento do tempo de execução é inevitável neste caso, porém é controlável pelas variáveis definidas nos algoritmos.

2016

https://doi.org/10.11606/D.55.2016.tde-19102016-144647

Zhang Yifei

Coprojeto hardware/software das equações de Black-Scholes para precificação de opções no mercado financeiro

Este trabalho apresenta a implementação em hardware das Equações de Black-Scholes para precificação de opções usando Método de Monte Carlo. A implementação foi feita em OpenCL compatível com FPGAs recentes da Altera/Intel. Essa implementação é modular e permite a utilização de diferentes geradores de números aleatórios em configurações diferentes de software e hardware. A proposta é que essas implementações possam aproveitar as vantagens de cada componente, resultando em uma maior quantidade de simulações e por consequência melhorando a precisão dos resultados.

2018

https://doi.org/10.11606/D.55.2018.tde-19102018-102741

Thadeu Antonio Ferreira de Melo Costa

RAMBLE: robust acoustic modeling for Brazilian learners of English

The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation.

2018

https://doi.org/10.11606/T.55.2018.tde-19102018-112733

Christopher Dane Shulby

Agrupamento de fluxos de dados utilizando dimensão fractal

Realizar o agrupamento de fluxos de dados contínuos e multidimensionais (multidimensional data streams) é uma tarefa dispendiosa, visto que esses tipos de dados podem possuir características peculiares e que precisam ser consideradas, dentre as quais destacam-se: podem ser infinitos, tornando inviável, em muitas aplicações realizar mais de uma leitura dos dados; ponto de dados podem possuir diversas dimensões e a correlação entre as dimensões pode impactar no resultado final da análise e; são capazes de evoluir com o passar do tempo. Portanto, faz-se necessário o desenvolvimento de métodos computacionais adequados a essas características, principalmente nas aplicações em que realizar manualmente tal tarefa seja algo impraticável em razão do volume de dados, por exemplo, na análise e predição do comportamento climático. Nesse contexto, o objetivo desse trabalho de pesquisa foi propor técnicas computacionais, eficientes e eficazes, que contribuíssem para a extração de conhecimento de fluxos de dados com foco na tarefa de agrupamento de fluxos de dados similares. Assim, no escopo deste trabalho, foram desenvolvidos dois métodos para agrupamento de fluxos de dados evolutivos, multidimensionais e potencialmente infinitos, ambos baseados no conceito de dimensão fractal, até então não utilizada nesse contexto na literatura: o eFCDS, acrônimo para evolving Fractal Clustering of Data Streams, e o eFCC, acrônimo para evolving Fractal Clusters Construction. O eFCDS utiliza a dimensão fractal para mensurar a correlação, linear ou não, existente entre as dimensões dos dados de um fluxo de dados multidimensional num período de tempo. Esta medida, calculada para cada fluxo de dados, é utilizada como critério de agrupamento de fluxos de dados com comportamentos similares ao longo do tempo. O eFCC, por outro lado, realiza o agrupamento de fluxos de dados multidimensionais de acordo com dois critérios principais: comportamento ao longo do tempo, considerando a medida de correlação entre as dimensões dos dados de cada fluxo de dados, e a distribuição de dados em cada grupo criado, analisada por meio da dimensão fractal do mesmo. Ambos os métodos possibilitam ainda a identificação de outliers e constroem incrementalmente os grupos ao longo do tempo. Além disso, as soluções propostas para tratamento de correlações em fluxos de dados multidimensionais diferem dos métodos apresentados na literatura da área, que em geral utilizam técnicas de sumarização e identificação de correlações lineares aplicadas apenas à fluxos de dados unidimensionais. O eFCDS e o eFCC foram testados e confrontados com métodos da literatura que também se propõem a agrupar fluxos de dados. Nos experimentos realizados com dados sintéticos e reais, tanto o eFCDS quanto o eFCC obtiveram maior eficiência na construção dos agrupamentos, identificando os fluxos de dados com comportamento semelhante e cujas dimensões se correlacionam de maneira similar. Além disso, o eFCC conseguiu agrupar os fluxos de dados que mantiveram distribuição dos dados semelhante em um período de tempo. Os métodos possuem como uma das aplicações imediatas a extração de padrões de interesse de fluxos de dados proveniente de sensores climáticos, com o objetivo de apoiar pesquisas em Agrometeorologia.

2018

https://doi.org/10.11606/T.55.2018.tde-19102018-145846

Christian Cesar Bones

Caracterização e recuperação de imagens usando dicionários visuais semanticamente enriquecidos

A análise automática da similaridade entre imagens depende fortemente de descritores que consigam caracterizar o conteúdo das imagens em dados compactos e discriminativos. Esses dados extraídos e representados em um vetor-de-características tem o objetivo de representar as imagens nos processos de mineração e análise para classificação e/ou recuperação. Neste trabalho foi explorado o uso de dicionários visuais e contexto para representar e recuperar as características locais das imagens utilizando formalismos estendidos com alto poder descritivo. Esta tese apresenta em destaque três novas propostas que contribuem competitivamente com outros trabalhos da literatura no avanço do estado-da-arte, desenvolvendo novas metodologias para a caracterização de imagens e para o processamento de consultas por similaridade. A primeira proposta estende a modelagem Bag-of-Visual-Words, permitindo codificar a interação entre palavras-visuais e suas disposições espaciais na imagem. Para tal fim, três novas abordagem são apresentadas: (i) Weighted Histogram (WE); (ii) Bunch-of-2-grams e (iii) Global Spatial Arrangement (GSA). Cada uma dessas técnicas permitem extrair informações semanticamente complementares, que enriquecem a representação final das imagens descritas em palavras-visuais. A segunda proposta apresenta um novo descritor, chamado de Bag-of-Salience-Points (BoSP), que caracteriza e analisa a dissimilaridade de formas (silhuetas) de objetos explorando seus pontos de saliências. O descritor BoSP se apoia no uso de um dicionário de curvaturas e em histogramas espaciais para representar sucintamente as saliências de um objeto em um único vetor-de-características de tamanho fixo, permitindo recuperar formas usando funções de distâncias computacionalmente rápidas. Por fim, a terceira proposta apresenta um novo modelo de consulta por similaridade, denominada Similarity Based on Dominant Images (SimDIm), baseada no conceito de Imagens Dominantes, que é um conjunto que representa, de uma maneira mais diversificada e reduzida, toda a coleção de imagens da base de dados. Tal conceito permite dar mais eficiência quando se deseja analisar o contexto da coleção, que é o objetivo da proposta. Os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva para caracterizar e quantificar a similaridade entre imagens por meio de abordagens estendidas baseadas em dicionários visuais e análise contextual, reduzindo a lacuna semântica existente entre a percepção humana e a descrição computacional.

2015

https://doi.org/10.11606/T.55.2016.tde-19122015-120703

Glauco Vitor Pedrosa

Uma abordagem de predição de falhas de software no contexto de desenvolvimento ágil

A atividade de teste é essencial para a garantia de qualidade do software e deveria ser empregada durante todo o processo de desenvolvimento. Entretanto, o esforço para a sua aplicação e o alto custo envolvido, comprometem sua utilização de maneira adequada. Durante o processo de desenvolvimento ágil, onde o tempo é um fator crítico, otimizar a atividade de testes sem afetar a qualidade é uma tarefa desafiadora. Apesar do crescente interesse em pesquisas sobre testes no contexto de métodos ágeis, poucas evidências são encontradas sobre avaliação do esforço para elaboração, evolução e manutenção dos testes nesse contexto. Este trabalho propõe uma abordagem para predição de defeitos desenvolvida para o contexto do desenvolvimento ágil e, portanto, considerando as características deste processo de desenvolvimento. Essa abordagem pode ser aplicada quando se considera ou não o desenvolvimento dirigido a testes. A abordagem permite priorizar a execução dos testes com base em uma lista de arquivos que apresentam maior probabilidade de apresentarem defeitos. A abordagem proposta foi avaliada por meio de um estudo de caso conduzido em um ambiente real de desenvolvimento. Como resultado obtido, observou-se que a abordagem melhorou a qualidade do projeto desenvolvido, sem aumentar o esforço durante a atividade de teste de software.

2016

https://doi.org/10.11606/D.55.2016.tde-19122016-110134

Ricardo Fontão Verhaeg

Programação de múltiplos cross-docks com múltiplas docas

Cadeias de suprimentos podem ter operações seguindo diferentes estratégias de distribuição e a utilização de cada uma dessas estratégias pode resultar em diferentes operações e custos. A estratégia de cross-docking auxilia na redução dos custos de distribuição de produtos, consolidando cargas, e a redução de tempo e custos de armazenamento, uma vez que o tempo máximo de estoque permitido pela estratégia é de cerca de 24 horas. O objetivo deste trabalho é apresentar um modelo para o problema de cross-docking, em que cargas são entregues e reorganizadas de forma a atender a outras cargas que são coletadas e garantir que as janelas de tempo para início das operações sejam atendidas. Devido à falta de instâncias para o problema disponíveis na literatura, buscou-se gerar um benchmark e disponibilizá-las à comunidade científica. Uma vez que o problema é de difícil solução exata, um método heurístico para a resolução do problema foi desenvolvido. Os resultados mostraram que o modelo proposto resulta em boas soluções quando comparado ao modelo da literatura. O estudo de calibração do software IBM CPLEX mostrou que a calibração dos parâmetros pode resultar em melhores soluções e, por fim, a matheurística se mostrou competitiva com o CPLEX, principalmente para cenários em que a proporção de entregas e coletas diverge.

2016

https://doi.org/10.11606/D.55.2016.tde-19122016-162204

Pâmella Sátiko Miyazaki Tenório

A method to support accessible video authoring

Human qualities are only developed in human society by means of interaction with others. Since a child is born, he/she sees, hears, touches, and tastes things. That means visual and aural stimuli are natural for human beings and these stimuli are also present on videos. Perhaps, this is the reason why videos have a huge impact on society. An evidence of the popularity of videos growing in society can be observed in the large volume of videos uploaded onto YouTube or the number of videos posted on Facebook. Besides, the rise of smartphones has increased the number of users that not only watch but also produce videos. However, what happens to people who cannot access those contents because they have disabilities or some temporary illness. To avoid excluding people from understanding video content, it is important to provide a video with accessibility. Thus, about 23.9% of the Brazil population who declared themselves with disabilities will benefit from accessible videos. Standards, laws and regulations to promote video accessibility have been developed. Research studies about accessible video players, improving captioning, resources about sign language, and implementation of the content enrichment have also been developed. In spite of the video production process being well defined, current research and market practices do not take accessibility into account as part of its stages. They do not explain how amateur authors can create alternative content following guidelines or how to incorporate accessibility guidelines to the video production process. This thesis proposes a method, called Video4All, for alternative content authoring as part of an accessible video production process. Video4All is composed by a set of activities, including alternative content guidelines, and alternative content evaluation. A case study was conducted to verify the effectiveness of applying the proposed method by amateur authors, evaluating their generated alternative content. In order to describe the process, was incorporated accessibility in all stages and the case studies reported the difficulties which users had during the interaction with an accessible video player. Additionally, the proposal involved the development of an alternative content evaluation method as a means to provide a quality measure, enabling authors to better understand the accessibility level of the alternative content they create. The accessible video production process can be used by any amateur author to improve the accessibility of their videos. Moreover, Video4All helps the authoring and evaluation of alternative content.

2016

https://doi.org/10.11606/T.55.2016.tde-19122016-164955

Johana Maria Rosas Villena