论文标题:Eight years of AutoML: categorisation, review and trends
论文链接:https://link.springer.com/article/10.1007/s10115-023-01935-1
本文主要围绕自动机器学习(AutoML)展开了系统性的文献综述,总结了该领域的主要观点和发现。以下是对每个章节的主要观点的归纳总结:
摘要
AutoML的目的:解决机器学习方法在实际应用中所需的技术知识和背景,以及耗时和重复的步骤,使其更加实用。
AutoML的发展历程:自2014年出现以来,AutoML领域的发表数量显著增长。
主要技术趋势:神经架构搜索(NAS)的增长明显,算法选择问题逐渐被工作流程组合所取代。
2. 理论背景
AutoML的目的:自动化机器学习过程中的各个阶段和任务,以及应用的技术。
AutoML的主要任务:超参数优化、神经架构搜索、算法选择和工作流程组合。
3. 综述方法
研究问题:对AutoML领域的研究进行了四个主要问题的调查,包括术语的提取、定量发展趋势、自动化阶段和技术的覆盖范围,以及未来的趋势和开放性问题。
4. AutoML分类法
AutoML分类方法是根据文献综述中提出的三维分类法,对AutoML方法进行分类的一种方法。这个分类方法包括三个维度:自动化的知识发现过程阶段、执行的任务以及应用的技术。让我们对这三个维度进行更详细的介绍:
自动化的知识发现过程阶段:这个维度涉及到AutoML方法所涉及的知识发现过程的不同阶段,例如数据预处理、数据挖掘和后处理等。文献综述发现,AutoML主要集中在数据挖掘阶段,而对于预处理和后处理阶段的自动化研究相对较少。这个维度的分类可以帮助研究人员了解不同AutoML方法在知识发现过程的不同阶段上的应用情况。
执行的任务:这个维度涉及到AutoML方法所执行的具体任务,例如超参数优化、神经架构搜索、算法选择和工作流程组合等。文献综述发现,AutoML方法主要集中在超参数优化和神经架构搜索等任务上。这个维度的分类可以帮助研究人员了解不同AutoML方法在执行不同任务时所采用的方法和技术。
应用的技术:这个维度涉及到AutoML方法所应用的具体技术和方法,例如进化算法、贝叶斯优化、梯度下降等。文献综述发现,不同的AutoML方法采用了不同的技术和方法来解决自动化问题。这个维度的分类可以帮助研究人员了解不同AutoML方法所采用的技术和方法的差异和特点。
这个三维分类法为AutoML方法的分类提供了一个全面的框架,帮助研究人员更好地理解和比较不同的AutoML方法。
5. 定量结果
发现AutoML领域的研究数量自2014年以来呈现显著增长,2021年的发表数量几乎是2014年的五倍。
发现AutoML主要集中在数据挖掘阶段,而其他阶段的自动化研究相对较少。
AutoML历年相关论文数量
6. 质性结果
发现AutoML领域的主要研究集中在数据挖掘阶段,而对于预处理和后处理阶段的自动化研究相对较少。
发现AutoML方法倾向于将自动化过程视为黑匣子问题,限制了生成模型的可解释性或关于达到生成解决方案的过程的解释。
7. 阶段、任务和技术的交叉分析
对AutoML方法在不同维度之间的关系进行了分析。这个分析旨在揭示不同阶段、任务和技术之间的关联,以便更好地理解当前的AutoML研究趋势和存在的挑战。
阶段和任务的关系:通过分析不同任务在自动化知识发现过程的不同阶段中的应用情况,研究人员发现了一些趋势和模式。例如,他们可能发现某些任务在特定阶段中的应用频率较高,而在其他阶段中较低。这有助于了解不同任务在知识发现过程中的角色和重要性。
任务和技术的关系:通过分析不同任务所应用的技术和方法,研究人员可以揭示不同任务所采用的技术趋势。例如,他们可能发现某些任务更倾向于采用特定的技术或方法,而其他任务则更倾向于采用不同的技术。这有助于了解不同任务所涉及的技术和方法的差异和特点。
这种交叉分析有助于揭示AutoML研究中不同维度之间的关系,为研究人员提供了更深入的理解和见解。这种分析有助于发现当前的研究趋势、存在的挑战以及未来的研究方向。
8. 开放性问题、挑战和趋势
在挑战部分,研究人员指出了AutoML领域面临的一些挑战和问题,并对未来的发展趋势进行了推测和讨论。
未覆盖的阶段:研究发现,AutoML主要集中在数据挖掘阶段,而对于预处理和后处理阶段的自动化研究相对较少。这意味着AutoML方法尚未涵盖整个知识发现过程,而是集中在部分阶段的自动化上。这表明未来的研究需要更多地关注知识发现过程中其他阶段的自动化,以实现更全面的自动化支持。
缺乏互操作性:目前的AutoML方法通常只自动化知识发现过程的单个阶段,而缺乏不同方法之间的互操作性。这意味着不同的AutoML方法往往是孤立的,难以相互配合和复用。未来的研究需要考虑如何实现不同AutoML方法之间的互操作性,以便更好地支持整个知识发现过程的自动化。
人类角色的作用:AutoML方法通常作为黑匣子方法,缺乏对生成模型的解释和人类参与的支持。未来的研究需要考虑如何将人类纳入AutoML系统的自动化过程中,以实现更好的交互和指导。此外,未来的研究还需要关注如何生成可解释的模型,以便更好地支持人类的理解和解释。
实证验证和可复制性:研究发现,许多AutoML方法在实验验证方面存在一些不足。例如,一些方法只是与简单的机器学习基准进行比较,而缺乏与其他研究的比较。此外,一些方法也缺乏适当的统计框架支持。未来的研究需要更加重视实证验证和可复制性,以确保AutoML方法的有效性和可靠性。
这些挑战和问题为AutoML领域的未来发展提出了一些重要的方向和目标。未来的研究需要关注如何解决这些挑战,以实现更全面、有效和可靠的AutoML方法。
结论
AutoML仍然是一个新兴的领域,面临着许多有前途的挑战,尤其是在神经架构搜索方面的显著发展趋势。
提出了一个AutoML分类法,将有助于未来研究的分类,并为对AutoML感兴趣的研究人员和从业者提供参考。
这些总结突出了AutoML领域的主要发现和趋势,为该领域的研究和实践提供了有价值的见解。