Um Modelo Ensemble Discriminativo para Classificação de Bactérias do Solo

Autores

  • Luís Guilherme Ribeiro
  • José Carlos Ferreira da Rocha
  • Gabriel Lucas Fedacz
  • Fábio dos Santos
  • Douglas Tomachewski
  • Rafael Mazer Etto

Resumo

Abstract. The process of identifying bacteria linked to plant growth is a great challenge for biological processes and those that use machine lear- ning. Considering this, in this paper a discriminative ensemble model is developed, which consists of the union of several classifiers, to classify soil bacteria, its objective is to use a meta-learning with set of classifiers in order to increase the assertiveness. In this paper, the classifiers used were: Naïve Bayes, Logistic Regression, Decision Tree (CART) and Random Fo- rest. The tests were performed on a set of bacterial data that related the genres of bacteria derived from MALDI-TOF type mass spectra. A pre- processing was performed on the data set generating a base with 19,358 records, 36 genres of bacteria (classes) and 30 attributes. We evaluated the four classifiers in separate and the ensemble discriminative model in terms of accuracy, kappa index, precision, recall and f1-score. The results show that the ensemble discriminative model obtained a superior performance to the other classifiers in all the metrics, obtaining statistically significant differences.

Keywords: machine learning, ensemble classifier, discriminative classifi- cation.

Resumo. O processo de identificação de bactérias ligadas ao crescimento vegetal é um grande desafio para processos biológicos e aqueles que utilizam aprendizado de máquina. Considerando isto, neste trabalho é desenvol- vido um modelo ensemble discriminativo, que consiste na união de diversos classificadores, para classificar bactérias do solo, seu objetivo é utilizar um meta-aprendizado com conjunto de classificadores a fim de aumentar a as- sertividade do modelo. Neste trabalho, os classificadores utilizados foram: Naïve Bayes, Regressão Logística, Árvore de Decisão (CART) e Floresta Randômica. Os testes foram realizados sobre um conjunto de dados bac- terianos que relacionavam o gênero das bactérias provindos de espectros de massa do tipo MALDI-TOF. Foi realizado um pré-processamento no conjunto de dados gerando uma base com 19.358 registros, 36 gêneros de bactérias (classes) e 30 atributos. Foram avaliados os quatro classificadores em separados e o modelo ensemble discriminativo em termos de acurácia, índice kappa, precisão, revocação e f1-score. Os resultados obtidos mostram que o modelo ensemble discriminativo obteve um desempenho superior aos demais classificadores em todas as métricas, obtendo diferenças estatistica- mente significativas.

Palavras-chave: aprendizado de máquina, classificadores em conjunto, classificação discriminativa.

Downloads

Publicado

2018-11-20

Edição

Seção

Oral