论文题目 |
基于集成机器学习模型的无监督异常检 测方法研究 |
答辩人 |
张佳 |
指导教师 |
李智勇 |
答辩委员会 主席 |
彭飞教授 |
学科专业 |
计算机科学与技术 |
学院 |
信息科学与工程学院 |
答辩地点 |
视频答辩 |
答辩时间 |
2020年9月19日 下午2:00 |
学位论文简介
随着大数据时代的到来,人们不再为数据匮乏而感到困扰,反而越来越关注数据的质量问题并开始探讨从大量数据中提取最有价值信息的方法设计与理论研究。作为该系列研究的重大研究课题之一,异常检测侧重于检测和识别数据集中与大部分样本存在显著差异的异常样本,已成为在多个领域的热门研究话题。目前大多数的异常检测研究专门针对某个领域的特定异常类而设计,因此无法同时实现对不同领域的多种异常类的有效检测,从而具有较差的泛化能力。为了进一步提升异常集成算法的泛化性能,本文重点关注异常集成中基本检测模型的训练过程,从集成数据准备、集成模型训练、集成模型组合以及集成学习框架四个方面进行了系统的研究与分析。本文主要创新点概括如下四个方面:
(1)为了缓解训练数据集中异常样本对异常检测算法训练过程产生的负面影响,本文提出了一种基于集成的联合训练方法以实现样本预处理和异常评分的多次迭代优化;
(2)为了解决异常集成算法仅具有有限多样性的问题,本文提出了一种基于多样性感知的序列集成方法,通过提升模型多样性来提高算法的异常检测效果;
(3)考虑到异常集成算法对元算法性能的依赖性问题和数据子采样过程导致的信息损失问题,本文提出了一种基于双层集成学习的异常检测算法,可进一步提升算法的泛化性能并减少由子空间采样造成的信息损失;
(4)为了弥补目前序列异常集成算法匮乏的问题,本文设计了一种基于积极模型的无监督序列集成框架以实现数据预处理技术、模型训练技巧和模型组合策略三个部分在统一学习框架中的同步或迭代优化,并提出了一种基于非度量局部异常评分的自适应集成方法来实例化该框架。
主要学术成果
[1] Jia Zhang, Zhiyong Li, Ke Nai, Yu Gu, Ahmed Sallam. DELR: A double-level ensemble learning method for unsupervised anomaly detection [J]. Knowledge-Based Systems, 2019, 181:1-15. (SCI, 第一作者)
[2] Jia Zhang, Zhiyong Li, Shaomiao Chen. Diversity aware-based sequential ensemble learning for robust anomaly detection [J].IEEE Access, 2020, 8: 42349-42363. (SCI, 第一作者)