电商API接口|Javascript抓取京东、淘宝商品数据

图片

“ 不知怎么建站?就找怎么建站! 

背景:

EDI许可证网站和ICP许可证网站需要有丰富的商品数据来应付EDI、ICP许可证下证审核。下面介绍的这种方法是我之前主要的抓取数据的方法,大概用了一年多。这几天又对这个方法进行了一些优化改进。

之前用的方法:

let temp = []var lists = $('#J_goodsList li.gl-item')$.each(lists,function(idx,item){ temp.push({   id:$(item).data('sku'),   goods_img:$(item).find('img').attr('src'),   goods_name:$(item).find('.p-name em').text(),   market_price:$(item).find('.p-price i').text(), })})console.log(temp)

 电商API接口

  1. 通过分类查询京东、淘宝的商品,比如搜索“电子产品”,获取到电子产品的列表

  2. 通过JavaScript操作页面dom元素,获取到商品信息数组

  3. 通过在线工具将json数组转成excel文件

  4. 处理图片地址,包裹上img标签,通过浏览器加载并下载图片

    //img13.360buyimg.com/n7/jfs/t1/181788/14/25091/44594/63c0c017F11c3c118/4521648b22e0dd3a.jpg 
    1. 原图片

    2. 将链接中的n7改成n1(尺寸变大),并且加上img标签

      <img src=https://img13.360buyimg.com/n1/s450x450_jfs/t1/181788/14/25091/44594/63c0c017F11c3c118/4521648b22e0dd3a.jpg />
    3. 将图片下载到本地

  5. 将生成的excel文件数据和EDI网站商品数据合并

  6. 将商品图片上传到服务器

  7. 手动给每个商品添加商品详情,这个是主要的工作量

这种方式主要有两个缺点:

  1. 列表获取不到商品详情图片,需要手动去抓取

  2. 过程比较繁琐,有很多需要手动操作的地方

这几天优化后的方法:

获取到的商品信息如下:

图片

  1. 通过分类查询京东、淘宝的商品,比如搜索“电子产品”,获取到电子产品的列表。将首图带有京东Logo的商品去掉,留下符合要求的商品

    图片

  2. 通过JavaScript操作页面dom元素,获取到除了商品详情以外的完整的商品信息

    let temp = []let img_dir = 'dzcp'var lists = $('#J_goodsList li.gl-item')$.each(lists,function(idx,item){    var img_url = $(item).find('.p-img img').attr('src')    img_url = img_url.indexOf('http')<0 ? 'https:'+img_url : img_url    var index = img_url.lastIndexOf('/')    var img_file = img_url.substring(index)    //将n7改成n1(图片尺寸变大),并包裹上img标签    var img_tag = "<img src="+img_url.replace("n7","n1")+' />'    temp.push({        id:'https://item.jd.com/'+$(item).data('sku')+'.html',        name:$(item).find('.p-name a em').text().replace(/\s*/g,""),        market_price:$(item).find('.p-price i').text(),        path:'391_394_',        cateid:394,        img_file:img_dir+img_file,        //img_url:img_url,        img_tag:img_tag    })})copy(temp)console.log(temp)
  3. 通过JavaScript自动将获取到的商品信息转成excel

    function jsonToExcel(data, head, name = 'template') {    let str = head ? head + '\n' : '';    data.forEach(item => {      // 拼接json数据, 增加 \t 为了不让表格显示科学计数法或者其他格式        for(let key in item) {            str = `${str + item[key] + '\t'},`        }        str += '\n'    });    console.log(str)    // encodeURIComponent解决中文乱码    const uri = 'data:text/csv;charset=utf-8,\ufeff' + encodeURIComponent(str);     // 通过创建a标签实现     const link = document.createElement("a");     link.href = uri;     // 对下载的文件命名     link.download =  `${name + '.xlsx'}`;     link.click();}jsonToExcel(temp, "商品链接,标题,商品价格,分类树,分类,图片地址,图片标签,商品详情")

    通过执行jsonToExcel函数获取到的excel文件:

    图片

  4. 通过浏览器将图片下载到本地,具体的操作方法就是将第二步中获取到的img标签,放到一个网页中加载图片,另存为

  5. 将生成的excel文件数据和EDI网站商品数据合并

  6. 将商品图片上传到服务器

  7. 手动给每个商品添加商品详情,这个是主要的工作量

    详情图片也分为两种,一种是在img标签中的

    图片

    另外一种是在css属性background中的,这种相对来说比较麻烦,要一张一张复制

    图片

这样一来,比较麻烦的事情只有一件了:

  1. 列表获取不到商品详情图片,需要手动去抓取

这个问题也找到了很好的解决方案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/326875.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

k8s 存储卷和pvc,pv

存储卷---数据卷 容器内的目录和宿主机的目录进行挂载。 容器在系统上的生命周期是短暂的&#xff0c;deletek8s用控制器创建的pod&#xff0c;delete相当于重启&#xff0c;容器的状态也会回复到初始状态。 一旦回到初始状态&#xff0c;所有的后天编辑的文件的都会消失。 …

docker screen 常用基础命令

1.docker基础命令 1.1开启docker systemctl start docker #开启docker service docker restart #重启docker systemctl stop docker #关闭docker 1.2查看命令 docker images #查看docker镜像docker ps #查看正在运行的镜像或者容器docker ps -a #查看所有容器1.3运…

算法部署过程中如何确保数据的安全?

在数字化时代&#xff0c;数据安全成为了企业和个人面临的一项主要挑战。随着技术的迅速发展&#xff0c;尤其在算法部署过程中&#xff0c;确保敏感数据的安全性变得更加复杂和关键。在这个背景下&#xff0c;软件加密和授权机制的作用显得尤为重要。软件加密不仅仅是转换数据…

IF=16.6 | Quick CTL细胞免疫佐剂免疫HLA转基因小鼠,助力TCR- T细胞构建!

023年10月12日&#xff0c;中国科学院微生物研究所高福研究团队和谭曙光研究团队于Nature Communications发表了题为KRAS G12V neoantigen specific T cell receptor for adoptive T cell therapy against tumors的研究论文。 影响因子&#xff1a;16.6 Doi&#xff1a;KRAS G…

HCS私有云简介

1、HCS简介和发展史 华为云产品&#xff1a;私有云和公有云&#xff0c;现在的私有云已经和公有云越来越像了FusionSphere是华为的一个品牌2016年&#xff0c;在5.0版本的时候&#xff0c;华为Openstack叫FusionSphere Openstack 5.0&#xff0c;底层用的是suse操作系统&#…

PLC编程中ST语言操作符的使用方法

ST&#xff08;Structured Text&#xff09;语言操作符主要用于PLC编程&#xff0c;主要包括算术运算符、比较运算符和逻辑运算符等。 算术运算符包括加&#xff08;&#xff09;、减&#xff08;-&#xff09;、乘&#xff08;*&#xff09;、除&#xff08;/&#xff09;和指…

深信服技术认证“SCCA-C”划重点:交付和运维体系

为帮助大家更加系统化地学习云计算知识&#xff0c;高效通过云计算工程师认证&#xff0c;深信服特推出“SCCA-C认证备考秘笈”&#xff0c;共十期内容。“考试重点”内容框架&#xff0c;帮助大家快速get重点知识。 划重点来啦 *点击图片放大展示 深信服云计算认证&#xff…

记一次用Qt开发 “启动器” 的经历

项目背景 背景 工具多&#xff0c;需要频繁切换。Windows环境&#xff0c;因为日常用到的软件较多&#xff0c;大致如下 浏览器涉及3款 FirefoxChromeEdge 开发的编译器及IDE涉及 Visual StudioVisual Studio CodePycharmSublime Text 设备涉及 DeskTopMackbook AirNoteBook…

【模板规范】会议纪要模板

文章目录 1、简介2、纪要模板2.1、表格类会议纪要2.2、文档类会议纪要2.3、简易版项目纪要 3、会议纪要3.1、作用3.2、特点3.2.1、工作会议纪要3.2.2、代表会议纪要3.2.3、座谈会议纪要3.2.4、联席会议纪要3.2.5、办公会议纪要3.2.6、汇报会议纪要3.2.7、技术鉴定会议纪要 3.3、…

NVMe系统内存结构 - SGL

NVMe系统内存结构 - SGL 1 SGL简介2 SGL Segment3 SGL Descriptor3.1 SGL Data Block descriptor3.2 SGL Bit Bucket descriptor3.3 SGL Segment descriptor3.4 SGL Last Segment descriptor 4 SGL组织结构4.1 SGL1为SGL Data Block descriptor4.2 SGL1为SGL Last Segment desc…

【每日一题】2719. 统计整数数目-2024.1.16

题目; 2719. 统计整数数目 给你两个数字字符串 num1 和 num2 &#xff0c;以及两个整数 max_sum 和 min_sum 。如果一个整数 x 满足以下条件&#xff0c;我们称它是一个好整数&#xff1a; num1 < x < num2min_sum < digit_sum(x) < max_sum. 请你返回好整数的…

解决Windows 10/11不能连接WiFi的几种办法,可以尝试

没有什么事情比电脑无法连接到互联网更令人沮丧了。当你的Windows 10/11电脑无法连接到网络时,本文将帮助你完成一些修复。 为什么我不能连接到网络 无线网络是复杂的,因为有几个故障点。从Wi-Fi交换机到软件冲突、路由器问题和ISP问题,找出网络故障可能很困难。 Windows…

兴达易控EtherCAT转Profibus网关让工业自动化变得轻松快捷

EtherCAT转Profibus网关&#xff08;XD-ECPBM20&#xff09;是一种用于实现不同通信协议间互联互通的设备。它主要用于工业控制系统中&#xff0c;能够将EtherCAT总线的数据传输转换为Profibus网络可接受的格式。这样的网关设备在工业自动化领域有着广泛的应用&#xff0c;因为…

zds1104示波器使用指南

1、设置语言 2、功能检测验证示波器是否正常工作 3、示波器面板按钮详解 3.1、软键 3.2、运行控制与操作区 3.3、水平控制区 3.4、垂直控制区 3.5、多功能控制区 3.6、断电启动恢复&#xff0c;auto setup&#xff0c;default setup&#xff0c;恢复出厂设置详细解释 3.7、触…

UE5 RPG AttributeSet的设置

AttributeSet 负责定义和持有属性并且管理属性的变化。开发者可以子类化UAttributeSet。在OwnerActor的构造方法中创建的AttributeSet将会自动注册到ASC。这一步必须在C中完成。 Attributes 是由 FGameplayAttributeData定义的浮点值。 Attributes能够表达从角色的生命值到角色…

基于ArcGIS的晕线制作

在借助ArcGIS进行制图时&#xff0c;我们有时需要为矢量边界添加晕线&#xff0c;今天就来探索一下基于ArcGIS的晕线制作操作。 软件版本&#xff1a;ArcMap10.4.1 方法一&#xff1a;制作多环缓冲区 工具路径&#xff1a;Analysis Tools-Proximity-Mutiple Ring Buffer 思…

SUKER书客重磅发布全新系列:书客Sun立式护眼台灯,护眼养眼新境界

近日&#xff0c;国内知名的光学国货品牌——SUKER书客在2024年新品发布上&#xff0c;正式发布了全新系列的书客Sun立式护眼台灯。 SUKER书客作为近年来快速发展的创新型光学技术品牌&#xff0c;曾推出的一系列产品都取得了刷新行业标准的成绩&#xff0c;他们坚持以创新为动…

Flink启动Yarn Session报错:Couldn‘t deploy Yarn session cluster

Flink版本&#xff1a;1.1.3 启动Yarn Session的语句&#xff1a;bin/yarn-session.sh -nm test -d 报错截图如下&#xff1a; 仅通过ERROR信息只能知道是yarn session集群未能正常启动&#xff0c;因此继续向下查找&#xff1a; 找到报错信息的Caused by部分&#xff1a; 报…

[ PyQt入门教程 ] Qt Designer工具的使用

Qt Designer是PyQt程序UI界面的实现工具&#xff0c;使用Qt Designer可以拖拽、点击完成GUI界面设计&#xff0c;并且设计完成的.ui程序可以转换成.py文件供python程序调用。本文主要通过用户登录需求描述Qt Designer工具开发界面的使用方法。 主要内容 1、Qt Designer程序主界…

WEB 3D技术 three.js 3D贺卡(2) 加入天空与水面效果

上文 WEB 3D技术 three.js 3D贺卡(1) 搭建基本项目环境 我们简单搭了一个贺卡雏形 然后 我们要引入一个hdr的一个天空的效果 所以 我们需要在代码中导入 RGBELoader //导入 RGBELoader hdr工具 import { RGBELoader } from "three/examples/jsm/loaders/RGBELoader"…