7个用于机器学习和数据科学的基本 Python 库

推荐:使用 NSDT场景编辑器 助你快速搭建3D应用场景

这篇文章针对的是刚开始使用Python进行AI的人,以及那些有经验的人,但对下一步要学习什么有疑问的人。我们将不时花点时间向初学者介绍基本术语和概念。如果您已经熟悉它们,我们鼓励您跳过更基本的材料并继续阅读,以了解对图形执行和急切执行等更精细的观点的看法。这篇文章将解释人工智能最重要的 Python 库和包,解释如何使用它们,并介绍它们的优点和缺点。

用于AI和ML的最广泛使用的Python库

将正确的库组合添加到开发环境中至关重要。以下包和库对于大多数 AI 开发人员至关重要。所有这些都可以作为开源发行版免费提供。

Scikit-learn:如果你需要做机器学习

它是什么:Scikit-learn是一个用于实现机器学习算法的Python库。

背景:一位名叫David Cournapeau的开发人员最初在2007年以学生身份发布了scikit-learn。开源社区迅速采用了它,多年来已经多次更新它。

特征: Scikit-learn中的软件包专注于建模数据。

  • Scikit-learn包括所有核心机器学习算法,其中包括向量机,随机森林,梯度提升,k均值聚类和DBSCAN。
  • 它旨在与 NumPy 和 SciPy(如下所述)无缝协作,以进行数据清理、准备和计算。
  • 它具有用于加载数据以及将其拆分为训练集和测试集的模块。
  • 它支持文本和图像数据的特征提取。

最适合:Scikit-learn是任何从事机器学习工作的人的必备品。如果您需要实现分类、回归、聚类、模型选择等算法,它被认为是可用的最佳库之一。

缺点:Scikit-learn是在深度学习起飞之前建立的。虽然它非常适合核心机器学习和数据科学工作,但如果你正在构建神经网络,你将需要TensorFlow或Pytorch(下图)。
最佳学习场所:Python 中的机器学习与数据学校的 Scikit-Learn 一起。(注意:Scikit-learn是最容易学习的Python库之一。一旦你精通Python本身,Scikit-learn就很容易了。

NumPy:如果您需要处理数字

它是什么:NumPy是一个Python包,用于处理数组或大型同质数据集合。您可以将数组视为电子表格,其中数字存储在列和行中。

背景:Python在1991年推出时最初并不是为了数值计算。尽管如此,它的易用性还是很早就引起了科学界的注意。多年来,开源社区开发了一系列用于数值计算的软件包。2005年,开发人员Travis Oliphant将十多年的开源开发合并到一个用于数值计算的库中,他称之为NumPy。

特征:NumPy的核心功能是对数组的支持,它允许您快速处理和操作大型数据集合。

  • NumPy 中的数组可以是 n 维的。这意味着数据可以是单列数字,也可以是多列和多行数字。
  • NumPy有用于执行一些线性代数函数的模块。
  • 它还具有用于绘制和绘制数字数组的模块。
  • NumPy 数组中的数据是同质的,这意味着它必须全部定义为相同的类型(数字、字符串、布尔值等)。这意味着数据得到有效处理。

最适合:操作和处理数据以进行更高级的数据科学或机器学习操作。如果你正在处理数字,你需要NumPy。

缺点:由于 NumPy 数组是同类的,因此它们不适合混合数据。你最好使用Python列表。此外,当处理超过 500,000 列时,NumPy 的性能往往会下降。
最佳学习场所:Linear Regression with NumPy and Python from Coursera。

Pandas:如果您需要操作数据

它是什么:Pandas是一个同时处理不同类型的标记数据的软件包。例如,如果您需要分析包含数字、字母和字符串数据的 CSV 文件,则可以使用它。

背景:韦斯·麦金尼(Wes McKinney)于2008年发行了《熊猫》。它建立在 NumPy 之上(事实上,您必须安装 NumPy 才能使用 Pandas),并扩展该包以处理异构数据。

特征:Pandas的核心功能是其多样化的数据结构,允许用户执行各种分析操作。

  • Pandas 有各种用于数据操作的模块,包括重塑、连接、合并和透视。
  • 熊猫具有数据可视化功能。
  • 用户可以执行数学运算,包括微积分和统计,而无需调用外部库。
  • 它具有可帮助您解决丢失数据的模块。

最适合:数据分析。

缺点:在vanilla Python和Pandas之间切换可能会令人困惑,因为后者的语法稍微复杂一些。熊猫的学习曲线也很陡峭。这些因素,再加上糟糕的文档,可能使其难以上手。
最好的学习场所:我从 DeepLearning.AI 开始介绍pandas。

SciPy:如果你需要为数据科学做数学

它是什么:SciPy是一个用于科学计算的Python库。它包含用于执行计算的包和模块,可帮助科学家进行或分析实验。

背景:在 1990 年代末和 2000 年代初,Python 开源社区开始开发一系列工具以满足科学界的需求。2001年,他们以SciPy的形式发布了这些工具。社区保持活跃,并始终更新和添加新功能。

特征:SciPy 的软件包包括一个完整的数学技术工具包,包括微积分、线性代数、统计学、概率等。

  • 它对数据科学家来说最受欢迎的一些软件包是用于插值、K 均值检验、数值积分、傅里叶变换、正交距离回归和优化。
  • SciPy 还包括用于图像处理和信号处理的软件包。
  • Weave功能允许用户在Python中用C / C++编写代码。

最适合:SciPy是数据科学家最好的朋友。

缺点:一些用户发现 SciPy 的文档缺乏,并批评它的几个软件包不如 MatLab 中的类似软件包。

最佳学习场所:Ahmad Bazzi 的 SciPy 编程。

如果你需要做机器学习:TensorFlow vs. PyTorch

TensorFlow和PyTorch执行与深度学习相关的相同基本任务:它们使获取数据,训练模型和生成预测变得容易。从人脸识别到大型语言模型,许多神经网络都是使用TensorFlow或PyTorch进行编码的。这些库曾经在前端和后端都明显不同。随着时间的推移,他们围绕同一套最佳实践趋同。

尽管如此,人工智能社区内部仍在争论哪个是最好的。2015年发布的TensorFlow是第一个出现在现场。它在商业人工智能和产品开发中占主导地位,但许多用户抱怨它的复杂性。

PyTorch于2016年发布,被广泛认为它更容易学习,实施起来更快。它是学术界的最爱,并在工业界稳步普及。但是,众所周知,它在缩放方面很困难。

选择哪个?

TensorFlow仍然是业界占主导地位的深度学习库。这部分是由于惯性,部分原因是TensorFlow在处理大型项目和复杂工作流程方面比PyTorch更好。它能够处理针对商业部署进行扩展的 AI 产品,使其成为产品开发的最爱。

如果你只是跳入深度学习,并希望专注于快速构建和原型设计模型,PyTorch可能是更好的选择。请注意,根据你的工作要求和公司技术,你可能有一天必须学习TensorFlow(特别是如果你梦想的工作是在TensorFlow的故乡谷歌)。

在下面详细了解这两个库的优缺点。

TensorFlow

这是什么? TensorFlow 是一个端到端的开源库,用于开发、训练和部署深度学习模型。

背景: TensorFlow最初由Google Brain于2015年发布。最初,它的前端不是用户友好的,并且它具有冗余的API,这使得构建和实现模型变得繁琐。随着时间的推移,其中许多问题已经通过更新以及通过将 Keras(见下文)集成为默认前端而得到解决。

特征: TensorFlow有许多用于构建深度学习模型并将其扩展以进行商业部署的软件包。

  • TensorFlow用户可以调用Dev Hub和Model Garden中的数百个预先训练的模型。开发人员中心包含即插即用模型,而模型花园适用于习惯于进行自定义的更高级用户。
  • 它在使用内存方面非常有效,可以并行训练多个神经网络。
  • TensorFlow 应用程序可以在各种硬件系统上运行,包括 CPU、GPU、TPU 等。
  • TensorFlow Lite针对移动和嵌入式机器学习模型进行了优化。
  • 用户可以在 Tensorboard.dev 上自由上传和分享他们的机器学习实验。

最适合:大规模构建生产就绪的深度学习模型。

缺点:一些用户仍然抱怨前端相当复杂。您可能还会遇到TensorFlow执行缓慢的批评。这主要是TensorFlow 1.0的遗留问题,当时它默认以图形模式执行操作。TensorFlow 2.0默认为预先执行模式。

最佳学习场所:来自 DeepLearning.ai 的TensorFlow开发人员专业证书。

Keras:

它是什么:Keras是一个适合初学者的工具包,用于处理神经网络。它是TensorFlow的前端接口。

背景:谷歌工程师Francois Choillet于2015年发布了Keras,作为许多深度学习库的API。截至 2020 年,Keras 是 TensorFlow 独有的。

特征: Keras 处理在 TensorFlow 中构建神经网络的高级任务,因此包含激活函数、层、优化器等基本模块。

  • Keras 支持原版神经网络、卷积神经网络和递归神经网络以及实用程序层,包括批量归一化、辍学和池化。
  • 它旨在简化深度神经网络的编码。

最适合:开发深度学习网络。

缺点:它仅适用于TensorFlow用户。如果你使用TensorFlow,你就是在使用Keras。

最佳学习场所: IBM 的 Keras 深度学习和神经网络简介。

PyTorch

它是什么:PyTorch是Facebook AI研究实验室对TensorFlow的回答。它是一个开源的通用库,用于机器学习和数据科学,特别是深度学习。

背景: Facebook在2016年发布了PyTorch,比TensorFlow晚了一年,它迅速受到对快速原型感兴趣的学者和其他研究人员的欢迎。这是由于其简化的前端以及其默认模式立即执行操作的事实(而不是像TensorFlow那样将它们添加到图形中以供以后处理)。

特征:PyTorch有许多类似于TensorFlow的特性。事实上,自推出以来的几年里,每个库都进行了更新,以包含用户最喜欢的功能。

  • PyTorch有自己的预训练模型库。PyTorch Hub 面向想要尝试模型设计的学术用户,生态系统工具包含预先训练的模型。
  • PyTorch 具有内存效率,可以并行训练多个模型。
  • 它支持多种硬件类型。

最适合:深度学习模型的快速原型设计。Pytorch 代码运行快速高效。

缺点:一些用户报告说,PyTorch 在处理大型项目、大型数据集和复杂的工作流程时遇到了困难。构建要大规模部署的AI产品的开发人员可能更喜欢TensorFlow。

最佳学习地点:来自 PyTorch.org 的 PyTorch 教程。

结论

Python库的成熟是它在AI社区中如此受欢迎的主要原因之一。它们可以轻松地将Python扩展到远远超出其原始设计的任务。一旦你牢牢掌握了 Python 语言和与你的工作相关的库,你将能够为广泛的应用程序构建、训练和迭代机器学习模型。

原文链接:7个用于机器学习和数据科学的基本 Python 库 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/94589.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

windows服务器查看网络带宽

windows服务器查看网络带宽? 鼠标右键单击win标志,进入计算机管理 另外一个方法:

【golang】15、cobra cli 命令行库

Cobra 是 golang 最流行的命令行库,文档见 一、脚手架 mkdir pt && cd pt && go mod init cobra-cli init # 在项目下运行即可生成脚手架# tree . ├── LICENSE ├── cmd # 生成了cmd目录 │ └── root.go # 生成了root.go, 其中定义了ro…

他们朝我扔泥巴(scratch)

前言 纯~~~属~~~虚~~~构~~~(同学看完短视频要我做,蟹蟹你) 用scratch做的,幼稚得嘞( ̄_ ̄|||)呵呵(强颜欢笑) 完成视频 视频试了好久,就是传不上来,私信我加我…

Flutter问题记录 - Unable to find bundled Java version

新版本的Android Studio真的移除了JRE,jre目录找不到,怪不得报错了,不过多了一个jbr目录,找了个以前的Android Studio版本对比 搜了一下jbr(JetBrains Runtime),原来IDEA老早就开始用了&#xf…

一文速学-让神经网络不再神秘,一天速学神经网络基础(一)

前言 思索了很久到底要不要出深度学习内容,毕竟在数学建模专栏里边的机器学习内容还有一大半算法没有更新,很多坑都没有填满,而且现在深度学习的文章和学习课程都十分的多,我考虑了很久决定还是得出神经网络系列文章,…

购买腾讯云服务器搭建网站全流程_新手建站

使用腾讯云服务器搭建网站全流程,包括轻量应用服务器和云服务器CVM建站教程,轻量可以使用应用镜像一键建站,云服务器CVM可以通过安装宝塔面板的方式来搭建网站,腾讯云服务器网分享使用腾讯云服务器建站教程,新手站长搭…

SpringMVC 第二天

第 1 章 ModelAttribute 和 SessionAttribute[ 应 用 ] 1.1ModelAttribute 1.1.1 使用说明 作用: 该注解是 SpringMVC4.3 版本以后新加入的。它可以用于修饰方法和参数。 出现在方法上,表示当前方法会在控制器的方法执行之前,先执行…

【Azure】Virtual Hub vWAN

虚拟 WAN 文档 Azure 虚拟 WAN 是一个网络服务,其中整合了多种网络、安全和路由功能,提供单一操作界面。 我们主要讨论两种连接情况: 通过一个 vWAN 来连接不通的 vNET 和本地网络。以下是一个扩展的拓扑 结合 vhub,可以把两个中…

【Centos8配置节点免密登陆】

登录Centos8 配置免密登录 为什么需要配置免密登录,玩大数据,玩集群的朋友们,都需要使用RPC通讯,完成集群命令同步,数据操作通讯。要实现RPC通讯,就需要配置节点之间的免密登录。 # 配置登录秘钥 ssh-key…

【已解决】pycharm突然双击无法打开,重启电脑也不管用

1.问题: pycharm突然双击无法打开,重启电脑也不管用 2.解决 2.1 方法一(修改Roaming) 1.找到C盘对应路径下的pycharm版本 2. 用记事本打开文件类型为VMOPTIONS文件 3. 修改或删除最后一行的映射路径 4.保存退出 2.2 方法二…

大二在校生一把通关云计算HCIE:考证,没你想得那么难

大家好,我是誉天云计算的任同学,在不久前的考试中顺利通过,拿到了云计算HCIE的证书。 我目前还是一名在校大学生,就读的专业也是云计算相关。考HCIE认证,一方面是想强化一下自己的专业能力,另一方面也是为今…

文件夹无法删除?简单3招,轻松解决问题!

“我电脑里有一个文件夹占用了很大的内存,我想将它删除来释放一些内存,但是根本没法删除,为什么会这样呢?文件夹无法删除应该怎么办呢?” 在日常电脑使用中,有时候会遇到文件夹无法删除的情况,这…

WPF基础入门-Class4-WPF绑定

WPF基础入门 Class4&#xff1a;WPF绑定 一、简单绑定数据 1、cs文件中设置需要绑定的数据&#xff1a; public partial class Class_4 : Window{public Class_4(){InitializeComponent();List<Color> test new List<Color>();test.Add(new Color() { Code &q…

深度剖析:利用Charles抓包工具进行iOS逆向分析

抓包是逆向中非常重要的一个环节&#xff0c;今天我们来详细介绍一款在iOS逆向分析中常见的Charles抓包工具。 1. Charles工具介绍&#xff0c;下载和安装 Charles是一款强大的代理工具&#xff0c;可用于拦截、监视和修改网络通信。您可以从Charles的官方网站下载并安装适用于…

2023腾讯云服务器多少钱一年?CPU内存带宽配置报价

腾讯云服务器租用价格表&#xff1a;轻量应用服务器2核2G4M带宽112元一年&#xff0c;540元三年、2核4G5M带宽218元一年&#xff0c;2核4G5M带宽756元三年、云服务器CVM S5实例2核2G配置280.8元一年、GPU服务器GN10Xp实例145元7天&#xff0c;腾讯云服务器网长期更新腾讯云轻量…

如何实现AI的矢量数据库

推荐&#xff1a;使用 NSDT场景编辑器 助你快速搭建3D应用场景 然而&#xff0c;人工智能模型有点像美食厨师。他们可以创造奇迹&#xff0c;但他们需要优质的成分。人工智能模型在大多数输入上都做得很好&#xff0c;但如果它们以最优化的格式接收输入&#xff0c;它们就会真正…

2023.8.25 关于 Selenium 常用 API 详解

目录 引言 打开页面 查找页面元素 输入文本 点击操作 提交操作 清除文本 获取文本和属性值 ​编辑 选择多个元素 获取页面标题和URL 等待操作 浏览器操作 多层框架定位 窗口操作 屏幕截图 下拉框元素选择操作 ​编辑 执行脚本 文件上传 引言 本文讲的所有…

如何选择合适的自动化测试工具?

自动化测试是高质量软件交付领域中最重要的实践之一。在今天的敏捷开发方法中&#xff0c;几乎任一软件开发过程都需要在开发阶段的某个时候进行自动化测试&#xff0c;以加速回归测试的工作。自动化测试工具可以帮助测试人员以及整个团队专注于自动化工具无法处理的各自任务&a…

与面试官互动:建立积极的技术讨论氛围

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

引领未来商业:循环购模式的创新突破-微三云门门

尊敬的创业者们&#xff0c;我是微三云门门。今天&#xff0c;我将与您深入探讨一种崭新的商业模式——循环购模式。该模式在私域流量领域取得了巨大成功&#xff0c;仅用6个月时间就创造了超过400万的用户数量&#xff01; 循环购商业模式的核心概念涵盖三个关键要素&#xf…