大数据与人工智能|万物皆算法(第三节)

要点一:数据与智能的关系

        1. 一切的核心都是数据,数据和智能之间是密切相关的。

        数据是对客观现实的描述,而信息是数据转化而来的。
例如,24是数据,但说“今天的气温是24摄氏度”是信息,而说“班可以分成24个小组”是数据。

        2. 数据和信息是可以互相转化的,人类通过人类的语义结构(semantics)来赋予数据信息。
处理数据成为信息是由人类主观导向的,加入了对数据的理解和认知。
        3.信息可以通过观察现象总结出结论,形成理论。两个关键词:phenomenon和theory。知识体系是由现象和理论的循环构成的, 理论对现象可以进行验证、修正或解释,理论对现象的作用包括检验、预测和解释, 知识通过变成信息,再变成智能。

要点二:人工智能和数据的关系

        人工智能是基于知识库和新现象的探索,通过不断提升自身能力来实现智能;大数据和人工智能之间存在深层次联系;人工智能在画图等方面展现出了技术能力,但有时也会出现别扭的效果,引发恐怖谷现象;恐怖谷理论解释了为何人物模型越像人越受欢迎的规律;人工智能和数据在行为学和组织行为方面也有涉及。

        1.智能产生的基础本质上还是人类的知识库还是人类的知识库。
        2.恐怖谷效应。有些人物模型精细的图片会让人感到别扭,这种现象被称为恐怖谷效应。恐怖谷理论解释了为什么AI在某一阈值后会被人们反感。恐怖谷效应不仅仅存在于计算机图形领域,也存在于其他领域,如游戏、毛绒玩具等。恐怖谷效应的原因是人对于陌生、不熟悉的事物会感到不适,但随着迭代精度的提高,人们逐渐接受了这种现象。恐怖谷效应是一个跨学科的概念,涉及到技术、管理、组织等多个维度。

要点三:大数据专业学习指南※

        1. 学习数据分析需要掌握数据的存储、清洗和处理(可视化、数据挖掘、最优化)等技能。
        2. 建议学习《数据库系统概论》(王珊和萨世轩)和《数据挖掘概念与技术》(韩家伟)两本书,解决数据存储和分析问题。学习PYTHON编程语言,可以使用B站上的教程(小甲鱼)或者《零基础入门学PYTHON 》一书。
        3. 对于计算机专业的同学,建议学习《普林斯顿微积分读本》和《韩江磊的算法基础课》等课程。有人觉得数学难,但有人建议可以尝试普林斯顿微积分教材。

要点四:大数据的学习定义

        1. 麦肯锡公司将大数据定义为数据量过大且复杂到无法使用传统工具处理的数据集合。Gartner公司将大数据定义为具有高数量、高速度和高延伸性特性的数据集合。
每天人类社会产生的数据量约为2.5QB级别,其中2的10次方就是1024。主要原因是设备多、信息内存大以及延展性高。

        大数据指的是数据量大(volume)且类型多样的数据(variety)、第三个(velocity)是流动的。然后我们今天的流媒体数据是很常见的.数据的类型比较复杂、流媒体数据是常见的、数据是不确定的这些特性共同出现时,是大数据。

        2. 传统的分析问题方式是通过观察现象提出问题,然后收集数据验证观点。大数据分析方式是通过左手的数据和右手的算法,将算法应用于数据中得出结果。大数据分析可以挖掘隐藏的模式和有用的信息,提高决策和预测的准确性。

要点五:数据可视化和数据挖掘的分类聚类关联※

1. 数据分析部分的逻辑是先解决过去和现在的问题,即可视化。 接下来是预测和规范。
 

        2. 数据可视化工具可以展示过去和现在的数据情况,具备一定的解释性。

        类型一:理解和修改已有代码即可

A.Matplotlib — Visualization with Python

        左边是各种类型的图,如饼图、柱状图、条形图、散点图和气泡图。选择一种图形后,可以进入相应的界面,其中包含PYTHON代码。这些图形可以通过使用jupiter notebook来实现。

        B.seaborn

https://seaborn.pydata.org/

        类型二:导入数据(在进行改动,难度比全改简单)

        绘制网页(图形比较复杂之后可以借用这些形式):

Apache ECharts(还需要改代码)

        chartcool:(有些不免费)(https://www.ichartcool.com/zh/index.html)

左边是代码,右边是显示。代码是JavaScript和TypeScript两种不同的编码体系。这种平台适合处理复杂的图形,比如流动的图形和公交路线图。还有一个工具叫做Chat库,更适合用户使用。

要点六:数据挖掘

        1. 数据挖掘处理的问题是什么?解决what will happen和why will happen。数据挖掘解决的问题是站在数据可视化的基础上。

        A.对数据挖掘的总体印象

        数据挖掘是基于数字的,可以将文字和网页转化为数字进行处理。数据挖掘里边你看这有data mining、test mining和web mining。这东西就是数据挖掘,文本挖掘和网页挖掘,一切的核心都是数据挖掘,可以使用数学模型将文字转化为数字。
         图形可以通过RGB编码标准将其转化为数字。
        数据挖掘可以处理不同类型的数据,如文字、图像、音频和视频。

        B.数据挖掘是挖隐藏的模适合关系,数据挖掘的任务可以分为分类、聚类和关联三类。
不同的数据挖掘算法服务于不同的任务,如人工神经网络适用于分类任务,遗传算法适用于聚类任务。
        数据挖掘的目标是挖掘隐藏的模式和关系,通过对数据进行分析和整理,实现对数据的预测和决策。
        数据挖掘的应用范围广泛,包括抖音推荐、头条搜索、AI画图和特斯拉自动驾驶等。
         数据挖掘需要掌握经典算法和数据库数据挖掘等技术,以实现对大量数据的分析和挖掘。

        3.算法的基础与应用
        A.万物皆算法,包括西红柿炒鸡蛋和人的行为,感知和视觉神经传输是一种算法。算法是指完成一项任务的步骤和规范。人工智能可以通过算法实现各种事情。

        B.关联问题解释了淘宝购物车中的商品关系,类似于商业领域中的购物篮分析。 聚类问题解释了机器视觉中的目标识别和扫地机器人如何看到世界。 分类问题解释了自动驾驶中的复杂问题,如chatgpt。

        讨论了一个分数叫做支持度,它表示某个事物在某个方面的得分情况。例如,假设有八张购物小票,每张小票代表一个支持度分数,表示在购买的物品中,面包的得分情况。具体来说,支持度分数是N分之X,其中N代表购物小票的数量,X代表面包的出现次数。因此,面包的支持度分数是8分之X,表示在这八张购物小票中,面包出现了8次。

        支持度表示两个物品之间的关系,支持度越大关系越大。置信度来解决无法理解的复杂公式或定义的问题。
        4. 这个技巧可以用于其他课程中难以理解的公式或定义。

        4.如何将算法细化为PYTHON代码。
        强调了掌握算法和数学的重要性。 提到了分析现实问题的步骤,包括讲算法、细化为PYTHON代码、导入数据和跑出结果。

        5. 提到了Apriori算法,是一个代表性的三页分析的四最后一页是整合的。

        频繁出现的物品集的子集一定是频繁的;不频繁出现的物品级的超级它一定不频繁。比如:电池不频繁出现,所以它和其他物品的组合也不频繁。

        6. 聚类问题是指将散列的点分成若干堆,通过衡量点与中心点的距离来确定堆的分组。 聚类算法可以帮助找出数据中相似的群体,并观察他们的共同特性。聚类算法在日常生活中的应用包括推荐商品、了解用户购买偏好等。

        机器人的视觉聚类问题是通过将不同像素格的RGB数字进行聚类,分出不同的层次。人眼和机器人的视觉看到的世界是一样的,但在大脑中的还原过程可能存在差异,这需要通过聚类算法来解决。

        7.分类问题及神经网络的实现
         分类的过程需要借助历史数据和新数据的特征来进行训练和分类。训练分类器是分类问题的一个重要部分,通过训练分类器,可以将新数据分成不同的组。

        A. 人类大脑中有大量的神经元,每个神经元与其他神经元相连。神经元的放电时间为1秒钟,而计算机晶体管的放电时间为10的负10次方秒,是神经元的七倍快。人类的视觉识别速度为0.1秒,而计算机目前无法达到这个速度。
        神经网络在处理重复和复杂问题时比计算机快,但在没有训练过的情况下,计算机仍然比人类快。自动驾驶利用神经网络识别路况并让车辆进行相关操作,未来的5G时延可以实现在云端处理。

        神经网络和自动驾驶


        B.遗传算法是一种简单的迭代方法,可以用于人工选择。

         遗传算法的上限非常高,可以帮助解决不知道结果的问题。 遗传算法可以在不断迭代中帮助解决实验中的问题.遗传算法可以用于解决各种问题,包括组合数学和计算机科学领域的问题。

        要点七:数据挖掘和自然语言处理的影响

        用户在抖音和头条上的操作也是遗传算法的筛选过程,最终决定了推送的内容。通过不断迭代,用户的偏好会影响推送内容的策略,但回到之前的迭代路径是不可能的。

        1. 技术原理非常简单,将文字、图像、音频视频转化为数字,进行数据挖掘。自然语言处理有趣,通过将文字转化为数字,利用分类关联进行数据挖掘,发现文字之间的关联。数据挖掘的对象是文字和文字之间的关联。

        1. NLP(自然语言处理)是一种处理语言的能力,不同语言文字的处理能力不同,英文相对容易,汉语没有空格,所以处理起来更困难。
        2. 在自然语言处理的应用过程中,情感分析是一种常见的应用。情感分析是指对文本进行情感分析,理解文本中的情感倾向。情感分析可以应用于各种领域,如营销、广告、客户服务等。
        3. 情感分析需要通过学习和训练来提高处理能力,可以使用各种算法和模型来实现。

技术原理是将数字转换成算法来处理各个领域的问题。
        4. 在数据分析、自然语言处理和挖掘等领域中,需要了解相关专业知识。学好本专业基础上,了解相关技术可以为职业发展提供优势,不一定要跨学科学习IT专业,因为该专业供大于求。

要点八:提出的问题。

1. 讨论了未来数据分析专业在工商、劳经等相关专业中的角色和影响。
2. 提出了思考未来应该从事什么样的工作或学习什么样的技能来提升竞争优势。
3. 强调了写出判断和规划的重要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/276844.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity Shader UVLightReveal (紫外线显示,验钞效果)

Unity Shader UVLightReveal (紫外线显示,验钞效果) UVLight Reveal 实现验钞机的效果实现方案操作实现1.Light2.将另一个图形加入3.加上图形效果4.加上灯光的颜色自定义判定 源码 UVLight Reveal 实现验钞机的效果 大家应该都有见过验钞机验…

电脑系统坏了用U盘重装系统教程

我们平时办公、学习都会用到电脑,如果电脑系统坏了,就会影响自己正常使用电脑,这时候就可以通过U盘来重装一个正常的操作系统。如果您不知道具体的重装操作步骤,那么可以参考下面小编分享的利用U盘快速完成操作系统重装的步骤介绍…

VSCODE : SSH远程配置+免密登录

SSH基础配置 填入地址,回车 ssh userhost-or-ip 然后选择默认的配置,回车,得到以下结果: 点击链接 选择远程的系统 输入密码 免密登录 生成SSH密钥: 首先,确保你已经在本地生成了SSH密钥。你可以使…

在电脑上免费分区的 5 个有效磁盘分区软件工具

磁盘分区可能是一个脆弱而复杂的过程,磁盘崩溃或用户设备受到病毒攻击的风险很高。因此,它们很难由用户单独或手动管理。本文详细介绍了可以帮助简化磁盘分区过程的不同软件工具、它们的功能和优点。那么让我们开始吧。 什么是磁盘分区工具? …

企业级依赖管理: 深入解读 Maven BOM

一、背景 当开发者在一个大型项目中使用 Maven 进行依赖管理时,项目往往会包含多个模块或子项目,并且这些模块会共享相同的依赖项。但是,不同模块可能会独立地指定各自的依赖版本,这可能导致以下问题: 依赖版本不一致…

116基于matlab的盲源信号分离

基于matlab的盲源信号分离。FASTICA方法,能够很好的将信号解混,可以替换数据进行分析。具有GUI界面,可以很好的进行操作。程序已调通,可直接运行。 116matlab盲源信号分离FASTICA (xiaohongshu.com)

java对象整理

1.对象的创建过程 首先class文件加载到内存中 这个过程如下 “加载”是“类加载”(Class Loading)过程的第一步。这个加载过程主要就是靠类加载器实现的, 包括用户自定义类加载器。 加载到内存后做的事情 申请对象内存 成员变量赋默认值 调用构造方法 成员变量顺序…

nginx报错upstream sent invalid header

nginx报错upstream sent invalid header 1.报错背景 最近由于nginx 1.20的某个漏洞需要升级到nginx1.25的版本。在测试环境升级完nginx后,发现应用直接报错502 bad gateway了。 然后查看nginx的errlog,发现: upstream sent invalid head…

【计算机视觉】角点检测(Harris、SIFT)

Harris 角点指的是窗口延任意方向移动,都有很大变化量的点。 用数学公式表示为: E(u,v)反映的移动后窗口的差异,w(x,y)为每个像素的点权值,I(xu,yv)是移动的像素值,I(x,y)是移动前的像素值。 将E(u,v)进行泰勒展开&am…

uni-appcss语法

锋哥原创的uni-app视频教程: 2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中..._哔哩哔哩_bilibili2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中...共计23条视频,包括:第1讲 uni…

二-从C到C++

本章会介绍一些C拓展的非面向对象的功能 引用 1 概念 引用从一定程度上讲是指针的平替,几乎被所有的面向对象语言所使用。引用相当于对某一目标变量起“别名”。 操作这个别名,与操作原变量一样。(操作同一块地址)不能有相同别名 …

ssrf之dict协议和file协议

1.dict协议 dict是什么协议呢? 定义:词典网络协议,在RFC 2009中进行描述。它的目标是超越Webster protocol,并允许客户端在使 用过程中访问更多字典。Dict服务器和客户机使用TCP端口2628。 官方介绍:http://dict.o…

文件监控-IT安全管理软件

文件监控和IT安全管理软件是用于保护企业数据和网络安全的工具。这些工具可以帮助企业监控文件的变化,防止未经授权的访问和修改,并确保数据的安全性和完整性。 一、具有哪些功能 文件监控软件可以实时监控文件系统的活动,包括文件的创建、修…

k8s配置安装ingress服务

k8s配置安装ingress服务 在kuboard页面,网络安装 安装完配置名称保存 apiVersion: networking.k8s.io/v1 kind: Ingress metadata:namespace: testname: pipeline spec:ingressClassName: ingressrules:- host: test.pipeline.comhttp:paths:- path: /pathType: Prefixbacke…

3D视觉-结构光测量法

概述 结构光测量法是一种通过光学投射模块将具有编码信息的结构光投射到物体表面,在被测物表面上形成由被测物体表面形状调制的光条图像,再由图像采集系统采集被测物表面漫反射的光条图像,通过高精度算法处理后,得出被测物表面的三…

oracle与mysql的分析函数(窗口函数)

分析函数定义 在SQL语句中,很多查询语句需要进行GROUP BY分组汇总,但是一旦经过分组,SELECT返回的记录数就会减少。为了保留所有原始行记录,并且仍可以进行分组数据分析,分析函数应运而生。 Oracle 8i 版本开始支持窗…

WebService

调试工具:Postman、SoapUI Soap WebService :.net WCF 、Java CFX WebService三要素: SOAP(Simple Object Access Protocol):用来描述传递信息的格式, 可以和现存的许多因特网协议和格式结合使用&#x…

ClickHouse基础知识(六):ClickHouse的副本配置

副本的目的主要是保障数据的高可用性,即使一台 ClickHouse 节点宕机,那么也可以 从其他服务器获得相同的数据。 1. 副本写入流程 2. 配置步骤 ➢ 启动 zookeeper 集群 ➢ 在hadoop101的/etc/clickhouse-server/config.d目录下创建一个名为metrika.xml…

VUE3实现点击按钮下载文件功能

VUE3实现点击按钮下载文件功能 在写vue项目时,有个需求是点击表格中某一行的下载按钮,然后开始下载这一行对应的文件,效果如下: 表格每行的最右侧的蓝色按钮就是点击下载,这里涉及到原生的JavaScript写法,…

Android集成OpenSSL实现加解密-集成

导入so 将编译生成的 OpenSSL 动态库文件(.so 文件)复制到你的 Android 项目的 libs 目录中 导入头文件 将编译生成的include文件夹导入到项目中 build.gradle添加配置 defaultConfig {……testInstrumentationRunner "androidx.test.runner…