Repositório RCAAP
Refinamento interativo de mapas de documentos apoiado por extração de tópicos
Mapas de documentos são representações visuais que permitem analisar de forma eficiente diversas relações entre documentos de uma coleção. Técnicas de projeção multidimensional podem ser empregadas para criar mapas que refletem a similaridade de conteúdo, favorecendo a identificação de agrupamentos com conteúdo similar. Este trabalho aborda uma evolução do arcabouço genérico oferecido pelas projeções multidimensionais para apoiar a análise interativa de documentos textuais, implementado na plataforma PEx. Foram propostas e implementadas técnicas que permitem ao usuário interagir com o mapa de documentos utilizando tópicos extraídos do próprio corpus. Assim a representação visual pode gradualmente evoluir para refletir melhor os interesses do usuário, e apoiá-lo de maneira mais efetiva em tarefas exploratórias. A interação foi avaliada utilizando uma técnica de inspeção de usabilidade, que visa identificar os principais problemas enfrentados pelos usuários ao interagir com as funcionalidades desenvolvidas. Adicionalmente, a utilidade das funcionalidades foi avaliada pela condução de dois estudos de caso, em que foram definidas tarefas a serem conduzidas pelo usuário sobre os mapas de documentos. Os resultados mostram que com o auxílio das visualizações foi possível conduzir as tarefas satisfatoriamente, permitindo manipular de forma eficiente milhares de documentos sem a necessidade de ler individualmente cada texto
2022-12-06T14:47:11Z
Renato Rodrigues Oliveira da Silva
Visualizing multidimensional data similarities: improvements and applications
Multidimensional datasetsare increasingly more prominent and important in data science and many application domains. Such datasets typically consist of a large set of observations, or data points, each which is described by several measurements, or dimensions. During the design of techniques and tools to process such datasets, a key component is to gather insights into their structure and patterns, a goal which is targeted by multidimensional visualization methods. Structures and patterns of high-dimensional data can be described, at a core level, by the notion of similarity of observations. Hence, to visualize such patterns, we need effective and efficient ways to depict similarity relations between a large number of observations, each having a potentially large number of dimensions. Within the realm of multidimensional visualization methods, two classes of techniques exist projections and similarity trees which effectively capture similarity patterns and also scale well to the number of observations and dimensions of the data. However, while such techniques show similarity patterns, understanding and interpreting these patterns in terms of the original data dimensions is still hard. This thesis addresses the development of visual explanatory techniques for the easy interpretation of similarity patterns present in multidimensional projections and similarity trees, by several contributions. First, we proposemethodsthat make the computation of similarity treesefficient for large datasets, and also allow their visual explanation on a multiscale, or several levels of detail. We also propose ways to construct simplified representations of similarity trees, thereby extending their visual scalability even further. Secondly, we propose methods for the visual explanation of multidimensional projections in terms of automatically detected groups of related observations which are also automatically annotated in terms of their similarity in the high-dimensional data space. We show next how these explanatory mechanismscan be adapted to handle both static and time-dependent multidimensional datasets. Our proposed techniques are designed to be easy to use, work nearly automatically, handle any typesof quantitativemultidimensional datasets and multidimensional projection techniques, and are demonstrated on a variety of real-world large datasets obtained from image collections, text archives, scientific measurements, and software engineeering.
2022-12-06T14:47:11Z
Renato Rodrigues Oliveira da Silva
Seleção e construção de features relevantes para o aprendizado de máquina.
No Aprendizado de Máquina Supervisionado - AM - é apresentado ao algoritmo de indução um conjunto de instâncias de treinamento, no qual cada instância é um vetor de features rotulado com a classe. O algoritmo de indução tem como tarefa induzir um classificador que será utilizado para classificar novas instâncias. Algoritmos de indução convencionais baseam-se nos dados fornecidos pelo usuário para construir as descrições dos conceitos. Uma representação inadequada do espaço de busca ou da linguagem de descrição do conjunto de instâncias, bem como erros nos exemplos de treinamento, podem tornar os problemas de aprendizado difícies. Um dos problemas centrais em AM é a Seleção de um Subconjunto de Features - SSF - na qual o objetivo é tentar diminuir o número de features que serão fornecidas ao algoritmo de indução. São várias as razões para a realização de SSF. A primeira é que a maioria dos algoritmos de AM, computacionalmente viáveis, não trabalham bem na presença de muitas features, isto é a precisão dos classificadores gerados pode ser melhorada com a aplicação de SSF. Ainda, com um número menor de features, a compreensibilidade do conceito induzido pode ser melhorada. Uma terceira razão é o alto custo para coletar e processar grande quantidade de dados. Existem, basicamente, três abordagens para a SSF: embedded, filtro e wrapper. Por outro lado, se as features utilizadas para descrever os exemplos de treinamento são inadequadas, os algoritmos de aprendizado estão propensos a criar descrições excessivamente complexas e imprecisas. Porém, essas features, individualmente inadequadas, podem algumas vezes serem, convenientemente, combinadas gerando novas features que podem mostrar-se altamente representativas para a descrição de um conceito. O processo de construção de novas features é conhecido como Construção de Features ou Indução Construtiva - IC. Neste trabalho são enfocadas as abordagens filtro e wrapper para a realização de SSF, bem como a IC guiada pelo conhecimento. É descrita uma série de experimentos usando SSF e IC utilizando quatro conjuntos de dados naturais e diversos algoritmos simbólicos de indução. Para cada conjunto de dados e cada indutor, são realizadas várias medidas, tais como, precisão, tempo de execução do indutor e número de features selecionadas pelo indutor. São descritos também diversos experimentos realizados utilizando três conjuntos de dados do mundo real. O foco desses experimentos não está somente na avaliação da performance dos algoritmos de indução, mas também na avaliação do conhecimento extraído. Durante a extração de conhecimento, os resultados foram apresentados aos especialistas para que fossem feitas sugestões para experimentos futuros. Uma parte do conhecimento extraído desses três estudos de casos foram considerados muito interessantes pelos especialistas. Isso mostra que a interação de diferentes áreas de conhecimento, neste caso específico, áreas médica e computacional, pode produzir resultados interessantes. Assim, para que a aplicação do Aprendizado de Máquina possa gerar frutos é necessário que dois grupos de pesquisadores sejam unidos: aqueles que conhecem os métodos de AM existentes e aqueles com o conhecimento no domínio da aplicação para o fornecimento de dados e a avaliação do conhecimento adquirido.
2022-12-06T14:47:11Z
Huei Diana Lee
Classificação de dados estacionários e não estacionários baseada em grafos
Métodos baseados em grafos consistem em uma poderosa forma de representação e abstração de dados que proporcionam, dentre outras vantagens, representar relações topológicas, visualizar estruturas, representar grupos de dados com formatos distintos, bem como, fornecer medidas alternativas para caracterizar os dados. Esse tipo de abordagem tem sido cada vez mais considerada para solucionar problemas de aprendizado de máquina, principalmente no aprendizado não supervisionado, como agrupamento de dados, e mais recentemente, no aprendizado semissupervisionado. No aprendizado supervisionado, por outro lado, o uso de algoritmos baseados em grafos ainda tem sido pouco explorado na literatura. Este trabalho apresenta um algoritmo não paramétrico baseado em grafos para problemas de classificação com distribuição estacionária, bem como sua extensão para problemas que apresentam distribuição não estacionária. O algoritmo desenvolvido baseia-se em dois conceitos, a saber, 1) em uma estrutura chamada grafo K-associado ótimo, que representa o conjunto de treinamento como um grafo esparso e dividido em componentes; e 2) na medida de pureza de cada componente, que utiliza a estrutura do grafo para determinar o nível de mistura local dos dados em relação às suas classes. O trabalho também considera problemas de classificação que apresentam alteração na distribuição de novos dados. Este problema caracteriza a mudança de conceito e degrada o desempenho do classificador. De modo que, para manter bom desempenho, é necessário que o classificador continue aprendendo durante a fase de aplicação, por exemplo, por meio de aprendizado incremental. Resultados experimentais sugerem que ambas as abordagens apresentam vantagens na classificação de dados em relação aos algoritmos testados
2022-12-06T14:47:11Z
João Roberto Bertini Júnior
Uma Avaliação Evolutiva dos Protocolos de Gerenciamento da Internet e suas Implementações: SNMPv1, SNMPv2 e SNMPv3
O desenvolvimento da padronização do modelo de gerenciamento de rede é uma necessidade que todos os grupos envolvidos (pesquisadores, fabricantes de equipamentos de rede, fornecedores de soluções de rede, etc.), buscam para possibilitar a interoperabilidade. Neste trabalho foram realizados estudos dos principais modelos de gerenciamento, Internet e o OS/, apresentando suas características e as deficiências. Os estudos concentraram-se sobre os protocolos de transporte das mensagens de gerenciamento, CMIP e SNMP, por serem a chave para realizar o gerenciamento, e especialmente o SNMP versão 2. Uma ferramenta de gerenciamento de rede vem sendo desenvolvida no Instituto de Ciências Matemáticas de São Carlos USP, denominada NetTracker, que passou por uma reestruturação para adaptar às novas tendências tecnológicas, Java, H I P, CORBA, SSL, entre outras. Recentemente foram publicadas documentos (RFCs) que propõem alterações no protocolo SNMP, batizado de SNMPv3. Verifica-se que a nova versão do modelo estrutural apresenta similaridades ao do NetTracker. Com as formalizações das especificações tanto da ferramenta de gerenciamento como do protocolo, o projeto estruturou um modelo de um sistema gerente que absorve as novas tecnologias, adaptado-o as novas características do protocolo e da ferramenta.
2022-12-06T14:47:11Z
Fábio Teruo Morishita
Modelos de Mistura para Dados de Sobrevivência na Presença de Covariáveis, Utilizando Métodos Bayesianos
Nesta dissertação, desenvolvemos uma análise Bayesiana de modelos de mistura finita de distribuições, para dados de sobrevivência sem censura, com censura tipo II e dados censurados por intervalos, na presença de uma covariável. Consideramos os algoritmos amostrador de Gibbs com Metropolis-Hastings, e utilizamos os estimadores de Monte Carlo para conseguir as quantitades à posteriori de interesse, assumindo diferentes escolhas para as (J = 2) densidades no modelo de mistura, como por exemplo a mistura de, duas distribuições potência exponencial a qual considera uma grande classe de distribuições simétricas, duas distribuições normais, normal-exponencial e gamma-normal. Apresentamos também ah gumas considerações na seleção do modelo utilizando as densidades preditivas (CP0)preditivas condicionais ordenadas e introduzimos três exemplos numéricos para ilustrar a metodologia proposta.
2022-12-06T14:47:11Z
Gilberto de Araujo Pereira
Sistema Híbrido Inteligente para Suporte a um Ambiente de Treinamento e Ensino
A utilização de recursos Hipermídia e técnicas de Inteligência Artificial em ambientes de ensino e aprendizado oferecem uma melhor apresentação das informações aos usuários e proporcionam melhores resultados por habilitar o sistema a \"raciocinar\" sobre o que e como apresentar ensinamentos efetivos, estimulando o estudante a aprender. Assim sendo, propõe-se, em um projeto de maior abrangência, a arquitetura de um ambiente denominado SIATE Sistema Inteligente de Apoio a Treinamento e Ensino que integra características de Sistemas Baseados em Conhecimento, Sistemas Tutores, Raciocínio Baseado em Casos, Hiperraídia e Simulação, com o objetivo de enriquecer um ambiente exploratório de ensino com conhecimento especialista do domínio e de melhorar o aprendizado do estudante. O presente trabalho, parte integrante do SIATE no domínio de Aquisição de Conhecimento, corresponde ao projeto e desenvolvimento de um Sistema Híbrido de Conhecimento, o qual contém o conhecimento especializado do domínio de aplicação e fornece apoio à geração de roteiros de páginas de uni hiperdocumento e à ferramenta de treinamento do SIATE.
2022-12-06T14:47:11Z
Jaqueline Brigladori Pugliesi
Documentos Estruturados para o Domínio de Aplicação Ensino: Modelagem, Autoria e Apresentação na WWW
A aplicação da informática na educação tem sido alvo de investigação devido à importância da exploração do uso da tecnologia nos processos de ensino e aprendizagem. Em adição, o uso da Internet tem se expandido em aplicações para o domínio ensino. Neste contexto, esta dissertação apresenta aspectos de projeto, especificação e implementação de um conjunto de ferramentas que auxiliam a autoria e disponibilização de material didático no ambiente World Wide Web (WWW). Como motivação, sistemas e aplicações recentes são apresentados e o modelo de hiperdocumentos atualmente utilizado na WWW é discutido. O Relationship Management Model (RMM) é então utilizado para a modelagem do conjunto de ferramentas de autoria. Como passo seguinte da modelagem, são discutidas as vantagens do uso fie SGML como uma técnica de especificação formal, e apresentadas as especificações para os documentos suportados pelas ferramentas de autoria. Após uma discussão sobre os aspectos da interação usuário-hipertexto, são apresentadas as ferramentas de autoria implementadas. Após uma discussão dos pontos fortes e fracos das ferramentas de autoria implementadas quando comparadas a um ambiente completo para autoria de material didático, são relatados os resultados de um experimento preliminar de usabilidade. Finalmente, são apresentados alguns projetos de pesquisa como continuidade do trabalho aqui reportado.
2022-12-06T14:47:11Z
João Benedito dos Santos Junior
Uma Ferramenta Baseada em Cenários para Elicitação e Modelagem de Requisitos
Esse trabalho apresenta algumas técnicas e métodos que apoiam a fase de engenharia de requisitos, bem como urna comparação entre as abordagens revisadas. Uma proposta de um processo para a engenharia de requisitos baseada na construção de cenários, compatível com a UML, (S.apresentada. A notação introduzida, o processo de construção dos modelos de requisitos e um conjunto- de heurísticas para a construção de um modelo de enálisasão apresentados. Um estudo cie caso referente a um sistema de apoio à escrita de docurnentos técnicos ilustra a construção dos modelos propostos pelo processo. Finalmente,, uma ferramenta que apeia a construção dos modelos introduzidos pelo processo é apresentada.
2022-12-06T14:47:11Z
João Caldas Junior
Sistema de Segurança Distribuído: Integração de Firewalls com Sistemas de Detecção de Intrusão
Atualmente, segurança de redes é um assunto de vital importância nas mais diversas áreas. O crescimento e popularização da Internet fizeram com que diversos serviços essenciais fossem realizados através da rede e cada vez mais redes privadas se conectassem para desfrutar de todos os benefícios oferecidos. Por outro lado, atos de pirataria e ataques aos computadores tem causado enormes prejuízos e danos. Este cenário exige mecanismos altamente eficazes para se aumentar a segurança cias redes conectadas à Internet. Atualmente, a solução mais utilizada é o firewall, porém, sob diversas circunstâncias ele não é capaz de impedir um ataque. Sistemas de detecção de intrusão podem se tornar uma ferramenta altamente útil trabalhando em conjunto com firewalls. Este trabalho propõe que o uso conjunto de um firewall e um sistema de detecção de intrusão adaptativo baseado em redes neurais pode fornecer um alto grau de segurança à uma rede privada na medida em que une características complementares dos dois sistemas, além de permitir respostas rápidas e automáticas frente a uma invasão em andamento. Esta integração se dará com base em um sistema de segurança distribuído com as seguintes características: modularidade, escalabilidade, gerenciamento remoto, comunicação segura entre os diversos módulos e portabilidade.
2022-12-06T14:47:11Z
José Mauricio Bonifacio Junior
Uso do Amostrador de Gibbs e Metropolis-Hastings em Análise Bayesiana de Modelos AR(p)
Neste trabalho comparamos modelos de séries temporais auto-regresivos de ordem p AR(p), ajustados pela abordagem clássica e Bayesiana. Na análise clássica a identificação do modelo é feita através da função de autocorrelação (FAC) e função de autocorrelação parcial (FACP), a escolha do melhor modelo para um conjunto de dados é feita usando-se o Critério de Informação de Alcaike (MC) e o Critério de Informação Bayesiano (MC). Na análise Bayesiana consideramos três alternativas de densidades a priori para os parâmetros, aqui a escolha do melhor modelo é feita pela densidade preditiva. Primeiramente consideramos a priori não informativa de Jeffireys, onde a densidade a posteriori marginal, para os parâmetros do modelo, pode ser calculada analiticamente e mostra-se que o valor esperado dessa posteriori coincide com o estimador de máxima verossimilhança. No segundo caso, adotamos uma função densidade a priori conjugada normal-gama. Aqui, a densidade a posteriori também pode ser calculada analiticameMe, resultando em uma densidade t-Student p-dimensional, no entanto em muitas situações reais adotar priori conjugada é pouco realista. Para contornar esse problema, no terceiro caso adotamos uma densidade a priori informativa t-Student, pdimensional, para os parâmetros e uma densidade a priori gama para o inverso da variância dos resíduos. Isto resulta em uma densidade a posteriori não padronizada. Neste caso a análise a posteriori só pode ser feita usando-se algoritmos de simulação em cadeia de Markov, MCMC.
2022-12-06T14:47:11Z
José Roberto Temponi de Oliveira
Integração sob demanda de esquemas de aplicações desenvolvidas utilizando bibliotecas de componentes genéricos
Atualmente as organizações devem trocar dados entre si, e a tendência é que estas trocas sejam efetuadas cada vez mais através de meios digitais. Os dados são consultados (alimentados) livremente nas bases de dados de organizações independentes entre si, porém quando é necessária a troca de dados, como não existe uma previsão de integração, os dados somente podem ser trocados após uma preparação que impõe alguma forma de intervenção manual, construção de filtros especiais, etc., uma vez que a não existência de .um esquema comum impede que os dados de uma base possa ser intercambiados com os de outra base. No entanto, embora as bases de dados de diferentes organizações possam ser construídas de maneira totalmente independentes, a necessidade de uma troca significa que a semântica dos elementos manipulados, em particular daqueles que devem ser compartilhados é, no mínimo, semelhante. Por exemplo, se duas organizações devem trocar dados sobre pessoas, não importa se para as diferentes organizações as pessoas são clientes, empregados, alunos ou pacientes, o significado de \"pessoa\" é sempre entendido pelos membros das organizações. O mesmo ocorre com qualquer entidade que se deseje trocar informações. Este trabalho parte da suposição que possa existir alguma forma de definição primitiva para os diversos elementos de dados que devem ser compartilhados, a partir da qual sua instanciação em elementos de um esquema de dados em particular possa ser reconhecido. Assim, busca-se identificar estruturas primitivas, com a finalidade de integrar os sistemas. Contudo, para se chegar a tal estrutura, é preciso definir regras que garantam a preservação de propriedades da mesma com a finalidade de permitir que sempre que o esquema de uma organização A, construído a partir de uma mesma estrutura primitiva que foi utilizada por outro esquema de uma organização B, a integração entre ambas possa ser feita de forma automática, e que isso não provoque inconsistência nas bases de dados que estarão recebendo as informações. Para atingir esses objetivos, este trabalho propõe que tais estruturas de esquemas primitivos sejam parte das Bibliotecas de Templates de Objetos (BTO) que são distribuídas como parte das Ferramentas de Desenvolvimento Rápido de Aplicativos (RAD) comerciais. Como um exemplo de como isso poderia ser feito, apresenta-se um componente que define genericamente um objeto pessoa, desenvolvido a partir de como \"pessoas\" são tratadas em dois sistemas reais, centrando essa estrutura em uma única Abstração: a Abstração de Generalização. Apresenta também o conjunto de regras que deve ser utilizado para a integração de componentes centrados nessa abstração, que é a mais universalmente compatível entre os diversos modelos de dados orientados a objetos disponíveis atualmente.
2022-12-06T14:47:11Z
Júlio Cesar dos Santos
Apresentação e Sincronização Multimidia no Ambiente SMmD
O projeto SMmD Sistemas Multimídia Distribuídos investiga a construção de uma estrutura de middleware para dar suporte à implementação de aplicações multimídia interativas em ambientes distribuídos e heterogêneos. Para tanto, devenvolveu-se o Ambiente SMmD, o qual inclui módulos para armazenamento e recuperação de objetos de mídia tais como áudio e vídeo, e também módulos para autoria e intercâmbio de objetos multimídia em conformidade com o padrão ISO MHEG-5. Esta dissertação descreve o trabalho de implementação de um dos módulos do Projeto SMmD, chamado Módulo de Apresentação e Sincronização (MAS). Este módulo foi implementado a partir de outro, chamado Java MBEG-5 Engine (JHEG), cuja função é interpretar e manipular objetos multimídia em conformidade com aquele padrão. Incialmente são apresentados o contexto, a motivação e os objetivos que levaram à execução deste trabalho. A seguir, é feita uma revisão dos conceitos relacionados à apresentação multimídia, enfatizando os aspectos relacionados à sincronização de seus componentes. Em seguida, apresenta-se o padrão MBEG-5 juntamente com outros padrões e recomendações relevantes no contexto deste trabalho. Com o objetivo de contextualizar o trabalho, é apresentada, então, uma visão geral dos módulos que compõem o Ambiente SMmD, seguida de uma descrição do trabalho de pesquisa que resultou na implementação do applet SyncEvent, embrião do Módulo de Apresentação e Sincronização. O Módulo de Apresentação e Sincronização, resultado principal deste trabalho, é então descrito, detalhando-se aspectos de sua arquitetura e de sua implementação. Finalmente, na conclusão, as contribuições deste trabalho são discutidas juntamente com suas limitações e possíveis trabalhos futuros, dentre os quais está a integração do MAS com os outros módulos do Projeto SMmD.
2022-12-06T14:47:11Z
Laercio Augusto Baldochi Júnior
Um Módulo de Análise de Saídas para o ASiA
Este trabalho apresenta a definição de um módulo de análise de saídas para o ASiA (Ambiente de Simulação Automático desenvolvido pelo grupo de Sistemas Distribuídos e Programação Concorrente do ICMSC-USP). O objetivo deste módulo de análise de saídas é proporcionar ao usuário do ASIA uma ferramenta para validar os resultados de sua simulação, através do cálculo do intervalo de confiança para a média de uma dada medida de interesse. Os métodos estatísticos adotados são replicações e batch means para variáveis simples e múltiplas. Além destes métodos, considera-se ainda um método para comparação entre sistemas utilizando-se diferenças entre médias. Diversos métodos estatísticos são revisados nesta dissertação, sendo que a escolha dos que compõem o módulo de análise foi efetuada adotando-se diversos critérios. Os métodos escolhidos foram testados (os diversos programas que compõem o módulo são apresentados), exemplificados e discutida sua integração com o ASiA.
2022-12-06T14:47:11Z
Laís Lemos de Oliveira Basílio
Solução Numérica Paralela de Equações Elípticas de Segunda Ordem
O objetivo deste trabalho é apresentar um algoritmo paralelo que implementa o método do gradiente conjugado com pré condicionamento para resolver equações elípticas de segunda ordem em um domínio retangular. A principal aproximação consiste em substituir as derivadas parciais por diferenças finitas para obter um sistema linear esparso. O domínio é então decomposto de acordo com o número de processadores, e cada um executa o trabalho em um subdomínio específico. A decomposição escolhida minimiza a comunicação entre os processadores, reduzindo substancialmente o tempo de solução.
2022-12-06T14:47:11Z
Lauro Cesar Galvão
Procura por Simetrias de Lie na Evolução do Código Genético
Apresentamos nesta dissertação, uma análise do modelo algébrico para o código genético proposto por Homos e Homos, o qual procura explicar as degenerescências do código genético como o resultado de uma seqüência de quebras de simetrias que tenha ocorrido durante a evolução. Fizemos uma procura sistematizada por possíveis simetrias no código genético, através de uma análise minuciosa de todas as álgebras de Lie simples que possuem uma representação irredutível de dimensão 64 e de todas as suas cadeias de subálgebras maximais. Os resultados confirmam e sistematizam as conclusões de Homos e Homos e Forger et all.
2022-12-06T14:47:11Z
Lígia Braggion Lima
Data Mining no Processo de Extração de Conhecimento de Bases de Dados
Nesta última década, houve um grande crescimento na capacidade de gerar e coletar dados, devido principalmente a três fatores: primeiro, ao constante aumento do poder de processamento dos computadores; segundo, ao armazenamento continuo de grande quantidade de dados a um baixo custo; e por último, à introdução de novas e melhores tecnologias relacionadas ao processamento e transmissão de dados. Embora os gerenciadores de bases de dados forneçam ferramentas básicas para otimizar o armazenamento e busca em grande quantidade de dados, o fato de como ajudar os humanos a entender e analisar estas grandes estruturas de dados é um problema de dificil solução. Nesse contexto, o Processo de Extração de Conhecimento de Bases de Dados (Knowledge Discovery in Databases KDD) emerge como uma nova tecnologia orientada à compreensão e busca de conhecimento embutido dentro destas grandes massas de dados, fazendo uso, principalmente, de várias técnicas apoiadas na estatística, bases de dados, ferramentas de visualização e Aprendizado de Máquina. De um modo geral, o processo KDD é composto de várias etapas, partindo da definição do domínio, um pré-processamento dos dados, uma etapa de Data Mining (Mineração de Dados) e, finalmente, uma análise e interpretação do conhecimento obtido. Este trabalho visa compreender e delimitar as diferentes etapas dentro do processo KDD, analisando o papel da etapa de Data Mining dentro deste processo. Dois estudos de casos (uma base de dados petroleira e uma base de dados do Programa de Melhoramento Genético da Raça Nelore) foram realizados para este fim. Este trabalho aborda importantes aspectos, principalmente quanto à relevância da discretizaç\'âo de dados contínuos na obtenção de melhores regras de classificação, além de mostrar o processo KDD em uma base de dados real, destacando a problemática encontrada e a importância da presença do especialista do domínio para o êxito deste processo.
2022-12-06T14:47:11Z
Luis Carlos Molina Felix
Mirador - Uma Ferramenta para Monitoramento e Gerenciamento do SPP2
O desenvolvimento da tecnologia de computadores tem facilitado a construção de máquinas paralelas MIME) com memória distribuída e de alto desempenho, a exemplo do SPP2. Exceto pelo maior desempenho apresentado, essas máquinas têm operação similar a de uma rede local de computadores, permitindo a utilização direta de urna ampla gama de ferramentas para o desenvolvimento de aplicações paralelas disponíveis para essa classe de sistemas. Por outro lado, a disponibilidade de ferramentas para o monitoramento e gerenciamento da máquina paralela é muito escassa e as poucas ferramentas disponíveis não satisfazem as necessidades dos usuários. A ferramenta Mirador, apresentada neste trabalho, cobre essa lacuna. Essa ferramenta permite o monitoramento e o gerenciamento do SPP2 em particular e, com pequenas alterações, de uma rede de computadores que esteja sendo utilizada como uma máquina paralela. Para tomar seu uso mais flexível, a ferramenta Mirador usa como interface com o usuário um navegador (browser) Internet com suporte à linguagem Java, permitindo o monitoramento e o gerenciamento da arquitetura alvo independentemente da plataforma de hardware ou de sistema operacional que o usuário utilize. A funcionalidade da ferramenta Mirador foi testada e os primeiros resultados de utilização mostram que ela pode simplificar bastante as tarefas diárias de programadores e administradores de sistemas paralelos.
2022-12-06T14:47:11Z
Luís Augusto Cassimiro de Araújo
Métodos de Aproximação e Aplicação de MCMC na Estimação de Máxima Verossimilhança para Processos AR(p) e MA(q)
Neste projeto, abordamos os modelos de séries temporais estacionárias do tipo AR(p) e MA(q). O interesse é obter para estes modelos as- estimativas de máxima verossimilhança exata. A diferenciação explicita da função de verossimilhança exata para se obter estas estimativas, não é recomendável por envolver operações complicadas. Assim, [Box, Jenkins e Reinsel - 1994] sugerem métodos numéricos baseados em aproximações. Em [Miller - 1995] são apresentadas expressões mais simples para as derivadas da função de verossimilhança junto com um algoritmo iterativo, no caso de modelos AR(p). O objetivo do presente projeto é propor o uso de algoritmos de simulação de Monte Carlo com Cadeia de Markov (MCMC) para o cálculo das estimativas de máxima verossimilhança. Aqui, os algoritmos utilizados foram o amostrador de Gibbs em conjunto com o algoritmo de Metropolis-Hastings. Os resultados obtidos usando MCMC são comparados com as estimativas feitas pelos métodos numéricos propostos em [Box, Jenlcins e Reinsel - 1994] e [Miller - 1995].
2022-12-06T14:47:11Z
Marcia Fumi Mizoi
HMBS/M - Um método orientado a objetos para o projeto e o desenvolvimento de aplicações hipermídia
Um novo método orientado a objetos para apoiar o projeto e o desenvolvimento estruturado de aplicações hipermídia, denominado HMBS/M, é proposto. O HMBS/M possui como principal característica o uso do HMBS (Hypertext Model Based on Statecharts) que utiliza como modelo formal subjacente a técnica de Statecharts para especificar a estrutura organizacional e a semântica de navegação de uma aplicação hipermídia. As quatro etapas que compõe o método - modelagem conceituai, modelagem navegacional, modelagem da interface e implementação - são apresentadas. Em cada fase do método são construídos modelos que podem ser melhorados ou incrementados na fase posterior, permitindo assim um desenvolvimento interativo. São discutidas três formas de implementação para uma aplicação hipermídia especificada pelo HMBS/M interpretada, traduzida e de tradução livre com ênfase para as duas primeiras, que são implementadas usando uma ferramenta que suporta o HMBS, o sistema HyScharts, e usando o ambiente WWW (padrão HMTL). Para ilustrar e validar o HMBS/M apresenta-se a especificação de uma aplicação hipermídia baseada nos catálogos de Graduação e Pós-graduação do Instituto de Ciências Matemáticas e de Computação da USP.
2022-12-06T14:47:11Z
Marcia Regina de Carvalho