爬虫(bilibili热门课程记录)

什么是爬虫?程序蜘蛛,沿着互联网获取相关信息,收集目标信息。

一、python环境安装

1、先从Download Python | Python.org中下载最新版本的python解释器

2、再从Download PyCharm: Python IDE for Professional Developers by JetBrains中下载community版本的pycharm(免费且够用)

    pycharm安装中文插件(安装后重启pycharm即可)

3、如果向博主一样需要直接打开文件运行,可能需要添加一下解释器

 二 爬虫的流程

1、获取网页内容(浏览器会将内容渲染成更直观的页面,而程序获得的网页是一串代码)

http请求(python request实现)

2、解析网页内容(在全面的内容中把想要的数据提取出来)

html格式 (python Beautiful Soup库)

3、储存或分析数据 

注意事项

1、请求数量和频率不要太高(无异于DDoS攻击)

2、有反爬限制(例如验证码)就不要强行突破

 三、什么事HTTP请求和响应

HTTP(Hypertext Transfer Protocol超文本传输协议)

HTTP请求

GET方法:获得数据

POST方法:创建数据

七、什么是HTML网页结构

网页三大要素:

(1)HTML定义网页的结构和信息(爬虫最需要关心的)

(2)CSS  定义网页的样式 //网站背景 样式

(3)JavaScript 定义用户和网页的交互逻辑

<!DOCTYPE HTML>
<html>
    <body>
        <h1>这是一个标题</h1>
        <p>这是一段文字这是一段文字这是一段文字<p>
    </body>
<!html>

显示网页源代码

mac用户 先在safari高级选项中设置,然后在开发中打开

 七、HTML常见标签

7.1 标题 数字越小,字号越大

<h1> 这是一个一级标题 </h1>
<h2> 这是一个二级标题 </h2>
<h3> 这是一个三级标题 </h3>
<h4> 这是一个四级标题 </h4>
<h5> 这是一个五级标题 </h5>
<h6> 这是一个六级标题 </h6>

7.2 文本段落

<p>给岁月<br>以文明</p>
<p>而不是给文明以岁月</p>
<br>   //是强制换行
<b> </b> //加粗
<i> </i> //斜体
<u> </u> //下划线
<img src="链接" width=“500px”> //图片
<a href="https://...">我的主页</a> //超链接

7.3 容器

 

 7.4 有序列表ordered list/无序列表unordered list

<ol> //有序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ol>

<ul> //无序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ul>

7.5 表格行

7.6 class属性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/93663.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【解决】idea启动spring MVC报错:一个或多个listeners启动失败Listener ClassNotFoundException

idea配置教程。tomcat调试报错Artifact :war exploded: Error during artifact deployment。 修改代码后&#xff0c;启动不生效&#xff0c;仍是旧代码。 根本原因是&#xff1a; Modules output path和Artifacts output directory不匹配 Modules output path一定要等于Ar…

Linux和其他类Unix系统的GNU coreutils 知多少

GNU coreutils是GNU项目的一部分&#xff0c;它是一组基本的命令行工具集&#xff0c;用于操作和管理Linux和其他类Unix系统中的文件和数据流。这些工具被广泛用于终端和脚本中&#xff0c;提供了许多常用的功能和实用程序。Linux和其他类Unix系统的GNU coreutils 知多少&#…

【JavaEE】Spring全家桶实现AOP-统一处理

【JavaEE】AOP&#xff08;2&#xff09; 文章目录 【JavaEE】AOP&#xff08;2&#xff09;1. 统一登录校验处理1.1 自定义拦截器1.2 将自定义拦截器加入到系统配置1.3 测试1.4 对于静态资源的处理1.5 小练习&#xff1a;统一登录拦截处理1.6 拦截器原理1.6.1 执行流程1.6.2 源…

习题练习 C语言(暑期第二弹)

编程能力小提升&#xff01; 前言一、表达式判断二、Assii码的理解应用三、循环跳出判断四、数字在升序数组中出现的次数五、整数转换六、循环语句的应用七、函数调用八、两个数组的交集九、C语言基础十、图片整理十一、数组的引用十二、数组的引用十三、字符个数统计十四、多数…

ssm校园快递一站式服务系统源码和论文

ssm校园快递一站式服务系统源码和论文076 开发工具&#xff1a;idea 数据库mysql5.7 数据库链接工具&#xff1a;navcat,小海豚等 技术&#xff1a;ssm 选题的目的和意义&#xff1a; 目的&#xff1a; 校园快递一站式服务系统的研究目的有两个&#xff0c;一个为校园及…

【案例】登录注册

<template><div class"loginhome"><Header :butShow"butShow"></Header><div class"formdiv"><div style"text-align:center;padding:10px;"><h3>你好登录账号{{ stauts 3? 注册:登录 }}…

轻松正确使用代理IP

Hey&#xff0c;亲爱的程序员小伙伴们&#xff01;在进行爬虫时&#xff0c;你是否曾使用过别人的代理IP&#xff1f;是否因此慌乱&#xff0c;担心涉及违法问题&#xff1f;不要惊慌&#xff01;今天我将和你一起揭开法律迷雾&#xff0c;为你的爬虫之路保驾护航。快跟上我的节…

无涯教程-机器学习 - 数据加载

假设如果要启动ML项目&#xff0c;那么您需要做的第一件事也是最重要的事情是什么?这是无涯教程启动任何ML项目都需要加载的数据。关于数据&#xff0c;对于ML项目&#xff0c;最常见的数据格式是CSV(逗号分隔值)。 基本上&#xff0c;CSV是一种简单的文件格式&#xff0c;用…

【Python】requests实现cookie 登陆

Python 系列 文章目录 Python 系列前言一、requests是什么&#xff1f;二、使用步骤1.引入库 总结 前言 session 登录获取接口数据的&#xff0c;操作不需要header 等数据&#xff0c;print(my_session.headers)&#xff0c;如果有需要可以自己重新去设置&#xff0c;包括cook…

无涯教程-PHP - Filtered反序列化

PHP 7引入了Filtered unserialize()函数&#xff0c;以在对不受信任的数据上的对象进行反序列化时提供更好的安全性。 <?phpclass MyClass1 { public $obj1prop; }class MyClass2 {public $obj2prop;}$obj1new MyClass1();$obj1->obj1prop1;$obj2new MyClass2();$obj…

【java并发编程的艺术读书笔记】AQS队列同步器简介、实现自定义锁

AQS介绍 AQS&#xff08;AbstractQueuedSynchronizer&#xff09;是 Java 并发包&#xff08;java.util.concurrent&#xff09;中一个重要的基础类&#xff0c;用于实现同步器&#xff08;Synchronizer&#xff09;的框架。AQS 提供了一种基于 FIFO 等待队列的机制&#xff0…

CentOs下面安装jenkins记录

目录 一、安装jenkins 二、进入jenkins 三、安装和Gitee&#xff0c;Maven等插件 一、安装jenkins 1 wget -O /etc/yum.repos.d/jenkins.repo \ https://pkg.jenkins.io/redhat-stable/jenkins.repo 2 rpm --import https://pkg.jenkins.io/redhat-stable/…

Qt 自定义菜单、右键菜单

在接触Qt这段时间以来&#xff0c;经常遇到菜单项的问题&#xff08;右键菜单、托盘菜单、按钮菜单等&#xff09;&#xff0c;QMenu用于菜单栏,上下文菜单,弹出菜单等&#xff0c;利用QMenuQAction就可以达到效果&#xff01; 右键菜单实现&#xff1a;通过重写contextMenuEv…

抖音web主页视频爬虫

文章内容仅供参考学习&#xff0c;如有侵权请联系作者进行删除 原理分析&#xff1a; 1、通过列表接口获取用户主页视频数据。 2、通过web端的视频详情页获取视频详情数据。 1&#xff09;需要代码构造cookie参数。 2&#xff09;访问到详情页可拿到视频数据。 抖音主页视频爬…

C++字符串详解

C 大大增强了对字符串的支持&#xff0c;除了可以使用C风格的字符串&#xff0c;还可以使用内置的 string 类。string 类处理起字符串来会方便很多&#xff0c;完全可以代替C语言中的字符数组或字符串指针。 string 是 C 中常用的一个类&#xff0c;它非常重要&#xff0c;我们…

Spring Boot进阶(60):5种判断线程池任务是否全部完成的方案 | 实用技巧分享!

1. 前言&#x1f525; 多线程编程在现代软件开发中非常常见且重要&#xff0c;而线程池是多线程编程的常用技术。在使用线程池时&#xff0c;通常需要判断线程池中的任务是否全部完成&#xff0c;以便决定程序继续执行的下一步操作。本文将介绍5种判断线程池任务是否全部完成的…

【送书活动】AI时代,程序员需要焦虑吗?

前言 「作者主页」&#xff1a;雪碧有白泡泡 「个人网站」&#xff1a;雪碧的个人网站 「推荐专栏」&#xff1a; ★java一站式服务 ★ ★ React从入门到精通★ ★前端炫酷代码分享 ★ ★ 从0到英雄&#xff0c;vue成神之路★ ★ uniapp-从构建到提升★ ★ 从0到英雄&#xff…

常见API架构介绍

常见API架构介绍 两个服务间进行接口调用&#xff0c;通过调用API的形式进行交互&#xff0c;这是常见CS架构实现的模式&#xff0c;客户端通过调用API即可使用服务端提供的服务。相较于SPI这种模式&#xff0c;就是服务端只规定服务接口&#xff0c;但具体实现交由第三方或者自…

mysql和mybatisPlus实现:datetime类型的字段范围查询

前提说明 数据库在存储数据时,我们为了精确一下时间,便会把改时间类型的字段设置为datetime类型; 在过滤数据库数据时,我们又需要对该字段进行一个范围的过滤 由此,便出现了这篇博客 datetime数据类型 在MySQL中,datetime数据类型用于保存日期和时间的值。它的格式为Y…

MyBatis分页查询与特殊字符处理

目录 目录 一、引言 1.1 简介Mybatis 1.2分页查询的重要性 1.3MyBatis特殊字符处理的挑战 挑战1&#xff1a;SQL注入漏洞 挑战2&#xff1a;查询结果异常 挑战3&#xff1a;数据完整性问题 挑战4&#xff1a;跨平台兼容性 挑战5&#xff1a;用户体验 如何应对挑战 二…