AI知识架构之数据采集

数据采集

  • 数据格式
    • 结构化数据:以固定格式和结构存储,如数据库中的表以及 Excel 表格,易于查询和分析。
    • 半结构化数据:有一定结构但不如结构化数据严格,XML 常用于数据交换,JSON 在 Web 应用中广泛用于数据传输和存储。
    • 非结构化数据:无预定义结构,文本、图像、音频和视频属于此类,处理和分析这类数据需特定技术。
    • 实时数据流:由传感器和物联网设备实时产生,需实时处理以获取及时洞察。
  • 采集方法
    • 基于文件传输:通过 FTP(文件传输协议)或 SFTP(安全文件传输协议)在不同系统间传输数据文件。
    • 数据库导入:利用 JDBC(Java 数据库连接)或 ODBC(开放数据库互连)标准接口从数据库提取数据。
    • 网络爬虫:通过发送 HTTP 请求获取网页内容,再解析 HTML 提取数据,但需遵守网站的 robots 协议。
    • 消息队列:像 Kafka 和 RabbitMQ,可异步处理和缓冲数据,在高并发场景下保证数据的可靠传输。
    • 数据集成工具:Talend 和 Informatica 等工具提供图形化界面,简化复杂的数据集成任务。
    • 传感器数据获取:从各类传感器采集物理世界的数据,如温度、湿度等。
  • 数据质量把控
    • 准确性提升策略:通过数据验证、与权威数据源比对等方式提高数据准确性。
    • 完整性检查措施:检查数据记录和字段是否完整,确保无遗漏。
    • 一致性保障手段:保证数据在不同系统和存储中的一致性,避免冲突。

数据清洗

  • 数据质量问题
    • 缺失值:因数据录入遗漏、系统故障等原因产生,影响数据分析结果准确性。
    • 重复值:包括记录重复和字段重复,会干扰分析并浪费存储资源。
    • 错误值:格式错误(如日期格式错误)或逻辑错误(如年龄为负数)影响数据可用性。
    • 异常值:偏离其他数据的离群点,可能由数据录入错误或真实异常情况导致。
  • 清洗技术
    • 缺失值处理:可删除缺失值过多的记录,或用均值、中位数等填充,也可采用插补技术如线性插补。
    • 重复值删除:依据唯一标识或相似度匹配算法找出并删除重复记录。
    • 错误值纠正:通过数据验证规则和模式匹配纠正错误。
    • 异常值处

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/975625.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

postman调用ollama的api

按照如下设置,不需要设置key 保持长会话的方法 # 首次请求 curl http://localhost:11434/api/generate -d {"model": "deepseek-r1:32b","prompt": "请永久记住:110,1-12,之后所有数学计算必…

【Linux】多线程 -> 线程同步与基于BlockingQueue的生产者消费者模型

线程同步 条件变量 当一个线程互斥地访问某个变量时,它可能发现在其它线程改变状态之前,它什么也做不了。 例如:一个线程访问队列时,发现队列为空,它只能等待,直到其它线程将一个节点添加到队列中。这…

ChatGPT各模型版本对比分析

文章目录 1. GPT-3.5(2022年11月)2. GPT-4(2023年3月)3. GPT-4o(2024年5月)4. GPT-4o mini(2024年7月)5. o1系列(2024年9月至12月)6. o3-mini(202…

萌新学 Python 之自定义函数

函数主要用来封装功能,具有独立功能的代码块,可以提高代码重复利用率,便于模块管理 函数的定义: def 函数名(形参): 函数体,独立功能的代码 return ‘函数的返回值’ 函数注意事项: 1.函数的命名通常使…

【工作流】Spring Boot 项目与 Camunda 的整合

【工作流】Spring Boot 项目与 Camunda 的整合 【一】Camunda 和主流流程引擎的对比【二】概念介绍【1】Camunda 概念:【2】BPMN 概念 【三】环境准备【1】安装流程设计器CamundaModeler【画图工具】(1)下载安装 【2】CamundaModeler如何设计…

【Linux】基于UDP/TCP套接字编程与守护进程

目录 一、网路套接字编程 (一)基础概念 1、源IP地址与目的IP地址 2、端口号 3、TCP与UDP 4、网络字节序 (二)套接字编程接口 1、socket 常见API 2、sockaddr结构 (三)UDP套接字 1、UDP服务器创建…

【图像处理】:两幅图中相同区域的相似度比较

两幅图中相同区域的相似度比较 1.OpenCV和Python实现的两幅图相似度衡量方法1. 均方误差(MSE)2. 结构相似性指数(SSIM)图像协方差能显示结构特征的原因 3. 直方图相似度4. 特征点匹配5. 相关系数(Pearson Correlation&…

[python脚本]论文1.(一)CPU/内存数据分析和分组

CPU 收集到的CPU数据,格式如下: 由于这里6个数据为一组来收集latency的数据以及各个分位值的数据,而本质上每一行都是一次完整的测试,因此这里将这个csv文件分为两个文件,第一个是和latency相关的,将6条数…

綫性與非綫性泛函分析與應用_1.例題(下)-半母本

第1章 實分析與函數論:快速回顧(下) 五、基數;有限集和無限集相關例題 例題1:集合基數的判斷 判斷集合和集合B=\{a,b,c,d,e\}的基數關係。 解析: 可以構造一個雙射,例如,,,,。 所以,兩個集合具有相同的基數。 例題2:可數集的證明 證明整數集是可數集。 解析: …

MQTT实现智能家居------3、源码分析(超详细)

一、连接服务器 1、初始化: mqtt_log_init();是一个空函数,自己定义宏 client mqtt_lease();//创建一个client结构体,从此以后client代表客户端 platform_memory_alloc();//是一个分配内存的总函数,可以适用于Linux、FreeRTos…

Qt常用控件之日历QCalendarWidget

日历QCalendarWidget QCalendarWidget 是一个日历控件。 QCalendarWidget属性 属性说明selectDate当前选中日期。minimumDate最小日期。maximumDate最大日期。firstDayOfWeek设置每周的第一天是周几(影响日历的第一列是周几)。gridVisible是否显示日历…

智慧废品回收小程序php+uniapp

废品回收小程序:数字化赋能环保,开启资源循环新时代 城市垃圾治理难题,废品回收小程序成破局关键 随着城市化进程加速与消费水平提升,我国生活垃圾总量逐年攀升,年均增速达5%-8%,其中超30%为可回收物。然…

SkyWalking集成Kafka实现日志异步采集经验总结

SkyWalking日志异步采集架构 【重点知识】 1、【Agent】kafka-reporter-plugin-x.x.x.jar包放plugins目录后必走kafka(kafka没有正确配置就会报错) 2、【Agent】异步如不开启数据压缩,日志数据较大,pod多、业务大时容易造成网络…

C++第十六讲:红黑树

C第十六讲:红黑树 1.什么是红黑树1.1红黑树的特点 2.MyRBTree实现2.1红黑树的结构2.2红黑树的插入2.2.1插入的总体逻辑2.2.2情况一:变色2.2.3情况二:单旋 变色2.2.4情况三:双旋 变色2.2.4插入代码总结 2.3红黑树的检查2.4完整代…

KubeKey一键安装部署k8s集群和KubeSphere详细教程

目录 一、KubeKey简介 二、k8s集群KubeSphere安装 集群规划 硬件要求 Kubernetes支持版本 操作系统要求 SSH免密登录 配置集群时钟 所有节点安装依赖 安装docker DNS要求 存储要求 下载 KubeKey 验证KubeKey 配置集群文件 安装集群 验证命令 登录页面 一、Ku…

Java 值传递

1 形参&实参 方法的定义可能会用到参数,参数在程序语言中分为: 实参:用于传递给函数/方法的参数,必须有确定的值。 形参:用于定义函数/方法,接收实参,不需要有确定的值。 String hello …

开源一款I2C电机驱动扩展板-FreakStudio多米诺系列

总线直流电机扩展板 原文链接: FreakStudio的博客 摘要 设计了一个I2C电机驱动板,通过I2C接口控制多个电机的转速和方向,支持刹车和减速功能。可连接16个扩展板,具有PWM输出、过流过热保护和可更换电机驱动芯片。支持按键控制…

论文笔记(七十二)Reward Centering(三)

Reward Centering(三) 文章概括摘要3 基于值的奖励中心化4 案例研究: 以奖励为中心的 Q-learning5 讨论、局限性与未来工作致谢 文章概括 引用: article{naik2024reward,title{Reward Centering},author{Naik, Abhishek and Wan…

内部知识库的核心模块是什么?

内容概要 现代企业内部知识库的架构设计遵循系统性、可扩展性与安全性三重原则,其核心模块的协同运作构成完整的知识资产运营体系。在知识存储层,基于结构化分类的存储管理采用多级目录架构(如客户服务库、培训学习库)&#xff0…

kafka基本知识

什么是 Kafka? Apache Kafka 是一个开源的分布式流处理平台,最初由 LinkedIn 开发,后来成为 Apache 软件基金会的一部分。Kafka 主要用于构建实时数据管道和流处理应用程序。它能够高效地处理大量的数据流,广泛应用于日志收集、数…