1.人工智能概述
68年前,约翰·麦卡锡在“达特茅斯会议”正式提出人工智能概念。直到2023年,ChatGPT掀起全球AI大模型浪潮,英伟达市值一年飙涨2.4倍,真正意义上的“人工智能元年”到来了。
提到人工智能(artificial intelligence,AI)大家可能感到熟悉又陌生。熟悉的是,近年来,随着信息科技的发展,人工智能这个概念早已深入人心、耳熟能详。陌生的是,人工智能是什么?只是科技展上的机器人吗?它为什么这么智能?
这次我们不讲人工智能的具体算法,而是从宏观上去理解人工智能到底是什么?
从机器学习的定义来讲,如下图所示,AI是通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而预测未来,即对新输入的数据进行准确的分类或预测。
下面是机器学习和深度学习的实操流程
三要素
人工智能的三个关键要素是数据、算法和计算能力。这三者相互作用,共同推动着人工智能技术的发展。
数据
重要性:数据是人工智能的根基。数据的数量和质量直接决定了预测模型的好坏。大量、高质量的数据是训练机器学习算法的必备条件。机器学习模型需要通过对输入数据的学习来进行训练,从而能够进行推断、决策或预测。数据的多样性和覆盖面直接影响到模型的性能和泛化能力。
类型:数据可以分为结构化数据和非结构化数据。结构化数据以表格形式呈现,如数据库中的表格;非结构化数据包括文本、图像、音频等形式。
收集和清洗:数据的采集和清洗是繁重但必不可少的任务。收集的数据原始数据往往会存在缺失、不完整等问题,所以会涉及到数据预处理、数据清洗等工作,这样能够确保数据的准确性、完整性,并解决缺失或异常值有助于提高模型的鲁棒性。
算法
算法是人工智能的核心。算法是实现人工智能的根本途径,是挖掘数据智能的有效方法。 算法是指在数据的基础上进行计算和学习的一系列规则和过程。机器学习算法可以分为监督学习、无监督学习、强化学习等多种类型,它们用于处理不同类型的任务,如分类、回归、聚类等。优秀的算法能够从数据中提取模式、进行推理,并在未见过的数据上做出准确的预测。
种类:有监督学习算法使用有标签的数据进行训练,无监督学习算法使用无标签数据进行训练,强化学习算法通过试错学习来制定决策策略。
优化和调整: 选择和调整合适的算法对于模型的性能至关重要。超参数调整、交叉验证等技术用于优化模型的泛化能力。
算力
从宏观上讲,有了大量的数据,以及一个好的AI算法模型还不够,还需要对大量的数据进行训练,才能得到一个好的预测模型。
人工智能的发展得益于计算能力的不断提升。复杂的机器学习模型和深度学习神经网络需要大量的计算资源来进行训练和推断。图形处理单元(GPU)和专用的人工智能芯片(如TPU)等硬件加速器在提高计算速度和效率方面发挥了关键作用。云计算平台也为开发者提供了大规模计算资源的便利。
人工智能训练需要强大的算力支持,而算力的底层是芯片。这也就是为什么美国对我国实施芯片制裁,以遏制我国人工智能等高新科技的发展。
美国新一轮的“芯片禁令”正在加速国产替代。华为的昇腾芯片、阿里旗下的平头哥及中兴旗下的中兴微电子都有了自己的先进制程AI芯片。去年11月,百度为200台服务器订购了1600颗华为昇腾910B AI芯片,以替代Nvidia A100芯片,被视为AI芯片国产化替代的标志性事件。
参考:
2024 年,十大预测