从零到一:如何使用亮数据代理快速收集训练数据打造自己的AIGC大模型

这里写自定义目录标题

  • 前言
    • 项目内容
    • 项目进展
  • 1、本章节事项
    • 1.1、确定2个分类
    • 1.2、寻找来源网站
      • 1.2.1、京东搜索
      • 1.2.2、淘宝搜索
      • 1.2.3、唯品会搜索
    • 1.3、编写代码,收集数据,并按照分类存放图片
      • 1.3.1、在Java项目里加载Selenium+ChromeDriver+Jsoup的jar包
      • 1.3.2、编写代码从唯品会网站收集苹果手机、面霜分类数据
        • 1.3.2.1、准备好ChromeDriver路径,网络图片下载到本地的方法
        • 1.3.2.2、编写代码采集数据
    • 1.4、解决网站反爬策略(使用IP代理)
      • 1.4.1、使用亮数据代理IP解决上述问题
        • 1.4.1.1、注册亮数据并登录
        • 1.4.1.2、创建动态IP代理通道
  • 2、亮数据的亮点

前言

近年来,AIGC大模型火得一塌糊涂,大学的专业正好是人工智能专业,赶紧上车抓住风口,做一个电商AI识别大模型项目。项目使用PyTorch搭建卷积神经网络模型、训练模型和使用模型进行图像识别,使用Java+Selenium+ChromeDriver+Jsoup爬取数据集,并在爬取数据时做好分类。由于我们所需要的数据集非常多,所以还需要使用亮数据动态IP代理,解决单位时间内频繁访问来源网站、下载商品图片的问题。

亮数据代理快速的收集训练数据集数据,打造自己的AIGC大模型

项目内容

图像识别的过程一般可以分成以下几个步骤:

  • 建立图像(包含标签)数据集;
  • 加载到神经网络进行训练,得到模型文件
  • 加载新图片(不在数据集),对图像进行处理(灰度、滤波去噪声、轮廓提取、腐蚀等)
  • 与模型文件进行匹配,最后得到预测结果

项目进展

工欲善其事必先利其器,今天我们花一些时间做一个自动化收集数据集以及自动分类的工具,

1、本章节事项

  • 确定2个分类
  • 寻找来源网站
  • 编写代码,收集数据,并按照分类存放图片
  • 解决网站反爬策略(使用亮数据动态IP代理)

1.1、确定2个分类

在观测一些电商网站数据以及综合日常生活后,我们选择其中2个爆款分类:手机、化妆品的细分分类,苹果手机和面霜。

1.2、寻找来源网站

确定了分类后,我们去寻找苹果手机、面霜2个分类数据的来源网站,我们首先把目标定为京东、淘宝、唯品会、得物。我们在按顺序评测这几个目标网站的优缺点后(对编写收集数据的程序是否有阻碍),确定了唯品会可以作为我们的数据集来源网站。

1.2.1、京东搜索

京东搜索的网址:https://search.jd.com/Search?keyword=苹果手机
缺点:需要登录才能使用京东搜索(手机站也一样需要登录验证)
在这里插入图片描述

1.2.2、淘宝搜索

淘宝搜索的网址:https://s.taobao.com/search?ie=utf8&page=1&search_type=item&tab=all&q=苹果手机
缺点:需要登录才能使用淘宝搜索(跟上面的京东搜索一样)
在这里插入图片描述

1.2.3、唯品会搜索

唯品会搜索的网址:https://category.vip.com/suggest.php?keyword=苹果手机
优点:在不需要登录的情况下,就可以使用唯品会搜索功能
在这里插入图片描述
在这里插入图片描述

1.3、编写代码,收集数据,并按照分类存放图片

我们使用Java+Selenium+ChromeDriver+Jsoup爬取数据集,并在爬取数据时做好分类。

  • 1、安装Idea+jdk8+Maven3(可自行百度,案例非常多);
  • 2、创建Java Maven项目(方便管理jar包);
  • 3、下载ChromeDriver , chrome浏览器(可自行百度,案例非常多);
  • 4、在Java项目里加载Selenium+ChromeDriver+Jsoup的jar包;
  • 5、编写代码从唯品会网站收集苹果手机、面霜分类数据;
  • 6、增加反爬策略(使用亮数据动态代理IP),提高收集数据的安全性和速度。

下面我们重点讲解4、5、6核心内容,完成机器化数据收集程序。

1.3.1、在Java项目里加载Selenium+ChromeDriver+Jsoup的jar包

引入Selenium+Jsoup的jar包

 	<parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.7.7</version>
        <relativePath/> <!-- lookup parent from repository -->
    </parent>
    
    <properties>
        <java.version>17</java.version>
    </properties>
 
    <dependencies>    
    	<!-- 网页Dom解析神器 -->
    	<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

		<!-- selenium自动化测试框架,可与chromeDriver集成 -->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>4.9.1</version>
        </dependency>
			
		<!-- 需要用到字符串辅助类 -->
        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.7.9</version>
        </dependency>
    </dependencies>

下载ChromeDriver,并放入指定的文件夹
在这里插入图片描述

1.3.2、编写代码从唯品会网站收集苹果手机、面霜分类数据

1.3.2.1、准备好ChromeDriver路径,网络图片下载到本地的方法

在这里插入图片描述

1.3.2.2、编写代码采集数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.4、解决网站反爬策略(使用IP代理)

在运行的过程中,我们发现了几个问题。
1、图片下载过于频繁,导致出现了异常图片
在这里插入图片描述

2、为了加快收集数据的速度,我们调整成了多线程运行,频繁的访问网站,导致出现了连接异常的错误
在这里插入图片描述
在这里插入图片描述

1.4.1、使用亮数据代理IP解决上述问题

1、注册亮数据并登录;
2、创建动态IP代理通道;
3、获取动态IP代理并导入程序中;
4、使用动态IP代理解决问题;

1.4.1.1、注册亮数据并登录

亮数据(<··快速跳转到亮数据首页并注册)为粉丝提供了10美金的抵用券,成功注册账户,并登录后在用户界面里输入折扣代码即可享受抵扣!
折扣代码:xiaobaibai
访问页面:电商 - Bright Data
如有问题,可以关注“Bright_Data”亮数据官微,联系后台客服。

可以看到下图,这里是我已经创建好的动态IP代理通道,动态住宅IP按照流量计费,$8.4/GB,费用还是很便宜的,赠送的10美金,足够我们收集几百万条商品图片数据了。
在这里插入图片描述

1.4.1.2、创建动态IP代理通道

在注册并登录之后,来到个人工作台,我们第一步选择左边的导航:代理IP网络和爬火车东基础设施
第二步选择动态住宅代理,点击【开始使用】。
接下来按照提示,创建动态住宅代理,最终可以看到有通道名、主机、用户名、密码、有使用权限的IP等;创建成功之后,回到工作台,就可以看到我们新创建的通道了(见【1.4.1.1】)。
在这里插入图片描述
在这里插入图片描述

3、获取动态IP代理并导入程序中
在【1.4.1.2】的第2张图中,有获取代理IP的命令,我们直接复制到cmd命令窗口执行,就可以获取到代理IP了。
其中IP就是代理IP,asnum就是代理端口。
在这里插入图片描述

在程序里使用动态IP代理,通过chromeOptions去加载动态IP代理,数据格式:ip:端口
在这里插入图片描述

4、使用动态IP代理解决问题
在使用动态IP代理后,我们可以放心的使用多线程收集收据,并且在下载图片时,可以加入到图片下载队列里,循环使用我们的动态IP代理去下载图片。举个例子:原来1秒钟单IP20个请求,变为现在的1秒钟10个IP20个请求,请求总量还是20个,但是每秒钟每个IP只用处理2个请求,就很接近自然人的操作,从而不会被唯品会网站拒绝访问了。
在这里插入图片描述

2、亮数据的亮点

亮数据不仅有动态代理IP,还有静态住宅IP、机房代理、移动代理、亮数据浏览器、亮网络解锁器等,可以全方位的解决我们在获取数据中遇到的实际问题。
比如亮数据的Web Scraper IDE,就可以在线全程可视化的收集数据,非常的便捷与先进,都不需要我们来编写代码了。
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/524212.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【计算机毕业设计】医院电子病历管理系统

&#x1f389;**欢迎来到琛哥的技术世界&#xff01;**&#x1f389; &#x1f4d8; 博主小档案&#xff1a; 琛哥&#xff0c;一名来自世界500强的资深程序猿&#xff0c;毕业于国内知名985高校。 &#x1f527; 技术专长&#xff1a; 琛哥在深度学习任务中展现出卓越的能力&a…

蓝桥杯刷题-05-子串简写-暴力

#include <iostream>using namespace std; string s; int main() {// 请在此输入您的代码int k0;int num0;char c1,c2;cin>>k;cin>>s;cin>>c1>>c2;int lens.size();for(int i0;i<len-k1;i){for(int ji1;j<len;j){if(s[i]c1&&s[j]c…

基于R语言地理加权回归、主成份分析、判别分析等空间异质性数据分析教程

原文链接&#xff1a;基于R语言地理加权回归、主成份分析、判别分析等空间异质性数据分析教程https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247600473&idx6&sn431e9408a42862d29fe4f4ef7703595b&chksmfa8208becdf581a820d9479d2aa61b88e96612c4ab72b0…

用苹果CMS一小时搭建自己的私人影院(仅供学习与参考,请勿用于商业用途)

用苹果CMS一小时搭建自己的私人影院&#xff08;仅供学习与参考&#xff0c;请勿用于商业用途&#xff09; 一、购买域名和服务器空间或虚拟主机空间。 二、下载苹果CMS影视安装程序到本地。 三、上传苹果CMS安装程序至你的空间并安装。 四、后台设置完善你的电影网站。 五、…

亚马逊店铺引流:海外云手机的利用方法

在电商业务蓬勃发展的当下&#xff0c;亚马逊已经成为全球最大的电商平台之一&#xff0c;拥有庞大的用户群和交易量。在激烈的市场竞争中&#xff0c;如何有效地吸引流量成为亚马逊店铺经营者所关注的重点。海外云手机作为一项新兴技术工具&#xff0c;为亚马逊店铺的流量引导…

4.网络编程-websocket(golang)

目录 什么是websocket golang中使用websocket Server端 Client端 什么是websocket WebSocket是一种在互联网上提供全双工通信的协议&#xff0c;即允许服务器和客户端之间进行双向实时通信的网络技术。它是作为HTML5的一部分标准化的&#xff0c;旨在解决传统HTTP协议在实…

“Java泛型” 得所憩,落日美酒聊共挥

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. &#x1f92d;&#x1f92d;&#x1f92d;可能说的不是那么严谨.但小编初心是能让更多人能接…

Leetcode 64. 最小路径和

心路历程&#xff1a; 第一反应像是一个回溯问题&#xff0c;但是看到题目中要求最值&#xff0c;大概率是一道DP问题。并且这里面的递推关系也很明显。 这里面边界条件可以有多种处理方法。 解法&#xff1a;动态规划 class Solution:def minPathSum(self, grid: List[List…

代码随想录算法训练营第42天| 背包问题、416. 分割等和子集

01 背包 题目描述&#xff1a;有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品只能用一次&#xff0c;求解将哪些物品装入背包里物品价值总和最大。 二维dp数组01背包&#xff1a; 确定dp数组以及下标的含义 …

【aster-boot】1.快速搭建springboot3.x多模块项目

springboot3已经出来一段时间了&#xff0c;正好最近也不太忙&#xff0c;就把之前搭的架子整理了一下。   关于springboot3的介绍&#xff0c;以及它的新特性就不再赘述&#xff0c;大家自行百度。 0.前期准备 因springboot3对jdk的最低要求是jdk17&#xff0c;所以需先下载…

河海大学-海洋学院2024年硕士研究生调剂通知

一、调剂专业及计划具体调剂专业及计划可参见河海大学研究生院官网《河海大学2024年硕士研究生调剂通知》和附件。 二、调剂报名与复试要求 1.报名条件&#xff1a;调剂原则见《河海大学202 4年硕士研究生调剂通知》&#xff0c;详细要求见中国研究生招生信息网“全国硕士研究…

Redis数据库③主从复制+哨兵模式+集群模式

一.Redis主从复制 1.概念 主从复制&#xff0c;是指将一台Redis服务器的数据&#xff0c;复制到其他的Redis服务器。前者称为主节点(Master)&#xff0c;后者称为从节点(Slave)&#xff1b;数据的复制是单向的&#xff0c;只能由主节点到从节点。 默认情况下&#xff0c;每台…

【动态规划-状态压缩dp】【蓝桥杯备考训练】:毕业旅行问题、蒙德里安的梦想、最短Hamilton路径、国际象棋、小国王【已更新完成】

目录 1、毕业旅行问题&#xff08;今日头条2019笔试题&#xff09; 2、蒙德里安的梦想&#xff08;算法竞赛进阶指南&#xff09; 3、最短Hamilton路径&#xff08;《算法竞赛进阶指南》&模板&#xff09; 4、国际象棋&#xff08;第十二届蓝桥杯省赛第二场C A组/B组&#…

每日学习笔记:C++ STL算法之查询容器元素

目录 本文的API 元素计数 查找最大、最小元素 查找第一个匹配元素 查找前N个连续匹配值 查找第一个子区间 查找最后一个子区间 查找两个区间都有的元素的第一次出现的位于第一区间的位置 查找两个连续且相等的元素 本文的API count() count_if(....,op) min_element…

pbootcms模板网站饰品首饰玛瑙水晶钻石饰品玉石戒指复古珠宝饰品pbcms网站源码下载

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 pbootcms模板网站饰品首饰玛瑙水晶钻石饰品玉石戒指复古珠宝饰品pbcms网站源码下载PC版 pbootcms内核开发的网站模板&#xff0c;该模版适用于饰品首饰类企业网站&#xff0c;复古珠…

网络工程师笔记18(关于网络的一些基本知识)

网络的分类 介绍计算机网络的基本概念&#xff0c;这一章最主要的内容是计算机网络的体系结构-ISO 开放系统互连参考模型&#xff0c;其中的基本概念&#xff0c;例如协议实体、协议数据单元&#xff0c;服务数据单元、面向连接的服务和无连接的服务、服务原语、服务访问点、相…

[每天一道面试题] HTTP,FTP,TFTP的底层实现协议是什么

HTTP、FTP和TFTP等这些协议都是属于互联网协议网络层模型中的应用层协议。它们的底层实现主要依赖于传输层的两种协议—— TCP(传输控制协议) 和 UDP(用户数据报协议)。 HTTP: 超文本传输协议(HTTP)通常在TCP协议的基础上操作。HTTP用于在网络上传输超文本&#xff0c;是万维网…

【MySQL】游标和触发器

一、游标 1.1 什么是游标 1、使用背景 在我们使用update或者delete操作数据时&#xff0c;一般都会根据条件语句查询出很多条记录组成的数据集&#xff0c;然后一次性批量操作 假设我们想要对这个结果集中的数据 一行一行的进行操作&#xff0c;比如某个条件满足后&#xff…

一开始我只是接单试试水而已,后来我居然财富自由了!

一开始我只是抱着试一试的心态&#xff0c;浅浅的尝试了一下网上接单&#xff0c;没办法&#xff0c;这风太大了&#xff01;网上个个儿说的神乎其神的&#xff0c;尤其是动不动就几十W&#xff0c;没办法&#xff0c;我眼红啦&#xff01;赚钱嘛&#xff0c;不丢人&#xff01…

设计模式总结-建造者模式

建造者模式 模式动机模式定义模式结构模式分析建造者模式实例与解析实例&#xff1a;KFC套餐 模式动机 无论是在现实世界中还是在软件系统中&#xff0c;都存在一些复杂的对象&#xff0c;它们拥有多个组成部分&#xff0c;如汽车&#xff0c;它包括车轮、方向盘、发送机等各种…