爬虫可以不必自己写,使用ChatGPT编写抓取电影评论数据脚本

经常去新华书店看看有没有什么新书上架,还是更新挺及时的,可以反映新的技术趋势。这不,最近就看到了这本《巧用 ChatGPT 快速搞定数据分析》,作者是个大牛,第一次看到prompt可以这么写,得写这么长,P.S.据说prompt也只是个打字员的过渡阶段。书中分享了多个爬虫,这里先测试一个亲测能成功的豆瓣爬虫分享下!应该是chatgpt3.5的知识更新到了2022年左右,估计豆瓣的网页代码比较稳定吧,或者它的策略愿意让更多人获得这个评分和评论。

你是网络数据抓取的高手,熟练掌握 Python 编程语言,具有良好的网络编程基础,能够熟练使用网络爬虫框架,具备数据处理和分析能力,以及自我学习和解决问题的能力。这些技能使你能够快速、准确地抓取网络数据,并从中提取出有用的信息,为数据分析和其他领域的应用提供支持。
现在我需要抓取豆瓣网站上《泰坦尼克号》电影的评论数据,包括评论者、评分、评论内容。在抓取到对应的信息后,将这些信息存到一个 CSV文件中。
请直接给我完整的 Python 代码,以代码块的格式输出。

然后,我们就得到了代码,当然,可能有个别报错,一般来讲对应修正下就可以啦,或者让gpt自己纠错下!Devin这个AI程序员,以及metaGPT等也做了开源的程序员,应该比这个是强大了,不管怎样,简单的代码gpt还是hold住的。

import requests
from bs4 import BeautifulSoup
import csv

def scrape_douban_reviews(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    reviews = []

    for comment in soup.find_all('div', class_='comment-item'):
        reviewer = comment.find('a', class_='name').get_text().strip()
        rating = comment.find('span', class_='rating').get('title').strip()
        content = comment.find('p', class_='comment-content').get_text().strip()
        reviews.append([reviewer, rating, content])

    return reviews

def save_to_csv(data, filename):
    with open(filename, 'w', encoding='utf-8', newline='') as file:
        writer = csv.writer(file)
        writer.writerow(['Reviewer', 'Rating', 'Comment'])
        writer.writerows(data)

if __name__ == "__main__":
    url = 'https://movie.douban.com/subject/1292722/comments'
    reviews = scrape_douban_reviews(url)
    save_to_csv(reviews, 'titanic_reviews.csv')
    print("Reviews saved to titanic_reviews.csv")

这里是会报错的,以下是纠错后的代码,我觉得GPT的爬虫水平比我好啦,因为我已经好久没写啦,忘光啦!

import requests
from bs4 import BeautifulSoup
import csv

def scrape_douban_reviews(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    reviews = []

    for comment in soup.find_all('div', class_='comment-item'):
        reviewer = comment.find('a', class_='name')
        rating = comment.find('span', class_='rating').get('title').strip()
        content = comment.find('p', class_='comment-content').get_text().strip()
        reviews.append([reviewer, rating, content])

    return reviews

def save_to_csv(data, filename):
    with open(filename, 'w', encoding='utf-8', newline='') as file:
        writer = csv.writer(file)
        writer.writerow(['Reviewer', 'Rating', 'Comment'])
        writer.writerows(data)

if __name__ == "__main__":
    url = 'https://movie.douban.com/subject/1292722/comments'
    reviews = scrape_douban_reviews(url)
    save_to_csv(reviews, 'titanic_reviews.csv')
    print("Reviews saved to titanic_reviews.csv")

成功获取到了结果:

怎么样,伙伴们,要不要试试更多的网站和app等?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/693647.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ipynb转markdown的简单方法

在线转换 推荐在线转换,拖进去后下载就行,简单易操作。 Convert Jupyter notebook to GitHub-Flavored Markdown for free on AlldocsThe free text converter for all your documents.https://alldocs.app/convert-jupyter-notebook-to-markdown vsc…

【C51】DIY电子音乐贺卡:C51单片机项目设计与实现

文章目录 前言:1. 要求:2. 实现效果:3. 准备工作:4. 编写代码:5. 导出bmp格式图片总结: 前言: 在当今数字化时代,电子贺卡以其独特的互动性和个性化特点,成为人们表达情…

Data Mining2 复习笔记6 - Optimization Hyperparameter Tuning

6. Optimization & Hyperparameter Tuning Why Hyperparameter Tuning? Many learning algorithms for classification, regression, … Many of those have hyperparameters: k and distance function for k nearest neighbors, splitting and pruning options in decis…

软件游戏d3dcompiler_47.dll缺失怎么办,多种有效的解决方法分享

在计算机使用过程中,我们可能会遇到各种软件错误提示,其中之一就是“d3dcompiler47.dll缺失”。这个错误提示可能会影响到我们的正常使用,甚至导致某些软件无法运行。那么,d3dcompiler47.dll缺失究竟会造成哪些问题呢?…

看似不同的事情,却是相同的坑

目录 一、背景二、过程1.遭遇战-微盘股的下杀2.不失为一件好事3.一切向后看吧,最近的学习感受4.该有的心境 三、总结 一、背景 也在一点点改变,期间势必要经历流血的过程;所谓无疯狂不成长,积极的心态去应对,去总结总…

R语言数据探索和分析22-使用随机森林和聚类算法探索和预测健康状况

一、研究背景 在两个实验中,使用了一组综合性的生物统计数据来探索和预测健康状况(特别是疾病的发生)。实验的核心在于应用高级数据分析技术,具体包括随机森林分类和聚类分析,来洞察和预测个体的健康状况。首先&#…

专业学习|南开大学《随机过程》学习笔记(一)

(1)有哪些经典的关于基本随机过程的书籍推荐? 对于想要系统学习基本随机过程的学生来说,可以参考Sheldon M.Rose编著的经典著作《随机过程》。该书涉及的内容也比较宽泛。但并不局限于单个细节论证。 此外,萨缪尔科林(…

SpringAOP 常见应用场景

文章目录 SpringAOP1 概念2 常见应用场景3 AOP的几种通知类型分别有什么常见的应用场景4 AOP实现 性能监控4.1 首先,定义一个切面类,用于实现性能监控逻辑:4.2 定义自定义注解4.3 注解修饰监控的方法 5 AOP实现 API调用统计5.1 定义切面类&am…

连续状态方程的离散化例子

连续状态方程的离散化 在控制系统中,连续状态方程的离散化是一个重要的步骤,用于将连续时间系统转换为离散时间系统,以便在数字控制器中实现。这通常涉及将连续时间的微分方程转换为离散时间的差分方程。常用的离散化方法 前向欧拉法(Forward Euler)简单易实现,但精度较…

在Anaconda中安装keras-contrib库

文章目录 1. 有git2. 无git2.1 步骤12.2 步骤22.3 步骤3 1. 有git 如果环境里有git,直接运行以下命令: pip install githttps://www.github.com/farizrahman4u/keras-contrib.git2. 无git 2.1 步骤1 打开网址:https://github.com/keras-tea…

刷代码随想录有感(97):动态规划——斐波那契数列

题干&#xff1a; 代码&#xff1a; class Solution { public:int fib(int n) {if(n < 1)return n;vector<int> dp(n 1);dp[0] 0;dp[1] 1;for(int i 2; i < n; i){dp[i] dp[i - 1] dp[i - 2];}return dp[n];} }; 动态规划五部曲&#xff1a; 1.dp数组的定…

【数据结构】二叉树专题

前言 本篇博客我们来看一些二叉树的经典题型&#xff0c;也是对上篇博客的补充 &#x1f493; 个人主页&#xff1a;小张同学zkf ⏩ 文章专栏&#xff1a;数据结构 若有问题 评论区见&#x1f4dd; &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐文章 ​ 目录 1.单值二叉树 …

鲜为人知的英伟达创始人:早早退出,身价不如黄仁勋零头

内容提要 普里姆因为婚姻纠纷等个人生活的干扰无法专注在工作上&#xff0c;在成立公司的10年后&#xff0c;也就是2003年宣布退休离开英伟达&#xff0c;并在2006年出售剩余的所有英伟达股份&#xff0c;过上不与外界联系、离群索居的生活&#xff0c;在家中鼓捣着如何“拯救…

数据结构【堆排序】

前言 在上一篇文章主要讲解了二叉树的基本概念和堆的概念以及接口的实现&#xff08;点此处跳转&#xff09; 我们简回顾下堆的基本概念&#xff1a; 1.堆分为大堆和小堆 大堆&#xff1a;父亲结点比左右孩子都大&#xff0c;根结点是最大的小堆&#xff1a;父亲结点比左右孩…

Redis系列-4 Redis集群介绍

Redis集群 Redis提供了持久化能力&#xff0c;保证了重启不会丢失数据&#xff1b;但Redis重启至完全恢复期间&#xff0c;缓存不可用。另外&#xff0c;对于高并发场景下&#xff0c;单点Redis服务器的性能不能满足吞吐量要求&#xff0c;需要进行横向扩展。此时&#xff0c;…

Java基础_Stream流

Java基础_Stream流 Stream流的简单使用Stream流的获取Stream流的中间方法Stream流的终结方法综合练习数字过滤字符串过滤并收集自定义对象过滤并收集 来源Gitee地址 Stream流的简单使用 public class StreamDemo01 {public static void main(String[] args) {/*** 创建集合添加…

【C++ | 拷贝赋值运算符函数】一文了解C++的 拷贝赋值运算符函数

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; ⏰发布时间⏰&#xff1a;2024-06-09 1…

API接口测试工具:jmeter的安装、汉化、Jmeter桌面快捷图标和基本使用

文章目录 测试工具&#xff1a;JmeterJmeter安装和配置Jmeter汉化设置中文语言&#xff1a;永久方式设置中文语言&#xff1a;临时方式 设置Jmeter桌面快捷图标jmeter基本用法Jmeter无法保存测试问题解决 测试工具&#xff1a;Jmeter Jmeter依赖于JDK&#xff0c;所以必须确保…

kafka集成flink api编写教程

1.引入依赖&#xff08;pox.xml&#xff09; <dependencies><dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.13.6</version></dependency><dependency><gro…

C# WPF入门学习主线篇(十六)—— Grid布局容器

C# WPF入门学习主线篇&#xff08;十六&#xff09;—— Grid布局容器 欢迎来到C# WPF入门学习系列的第十六篇。在前几篇文章中&#xff0c;我们已经探讨了 Canvas、StackPanel、WrapPanel 和 DockPanel 布局容器及其使用方法。本篇博客将介绍另一种功能强大且灵活的布局容器—…