DeepSeek-R1性能如何?如何使用DeepSeek-R1和o1 Pro模型

我们一起来看看DeepSeek-R1模型和OpenAI o1模型的能力如何?接下来,我们先看数据结果,然后再实际体验,我们今天就让他们写个python爬虫脚本来爬取所有有关孙颖莎和樊振东的相关报道和图片。

DeepSeek-R1

DeepSeek介绍自己说 "我们推出了自己的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。在 RL 的帮助下,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 面临着诸如无休止重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,现在DeepSeek引入了 DeepSeek-R1,它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini,为密集模型取得了新的最先进成果。"

image

image

DeepSeek-R1 Models

image

DeepSeek-R1-Distill Models

image

image

OpenAI VS DeepSeek-R1英文环境常规处理能力

image

OpenAI VS DeepSeek-R1代码能力:

image

OpenAI VS DeepSeek-R1数学得分

image

OpenAI VS DeepSeek-R1中文支持得分

image

实例展示:

OpenAI o1 pro模型(因为o1模型今天被我用完了,所以用o1 pro模型)

image

image

image

image

如何获取OpenAI o1模型?

image

image

PS: o1模型需要升级ChatGPT才能使用,我用了将近一年多的时间了,一直用的这种方式升级,需要的童鞋可以参考:ChatGPT Plus Pro会员订阅教程** 需要镜像账号的可以私我哦(aicygg888)!

问题描述:我是一个python小白,我的操作系统是windows, 我需要使用python语言,完成一个爬虫脚本爬取所有有关孙颖莎和樊振东的相关报道内容和图片,并汇总到word文档里面,请给出运行全部流程,解释相关代码实现,并展示爬取结果

以下是o1 pro model的全部回答:

我将为您提供一个详细的Windows系统下Python爬虫实现方案。这个方案包含完整的代码解释和安全注意事项,请严格按照步骤操作:

  1. 环境准备

1.1 安装Python(推荐3.9+版本)

1.2 安装所需库(CMD执行):

pip install requests beautifulsoup4 python-docx Pillow
  1. 完整代码实现(分模块讲解)

import os
import time
import requests
from bs4 import BeautifulSoup
from docx import Document
from docx.shared import Inches
from urllib.parse import urljoin

# 配置参数
KEYWORDS = ["孙颖莎", "樊振东"]
BASE_URL = "https://news.baidu.com/ns?word={}&pn={}"
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Cookie': '您的实际Cookie'  # 需要实际获取
}

def get_news_links():
    """获取新闻链接和标题"""
    news_data = []
    for keyword in KEYWORDS:
        page = 0
        while page < 30:  # 控制爬取页数
            url = BASE_URL.format(keyword, page*10)
            try:
                response = requests.get(url, headers=HEADERS, timeout=10)
                soup = BeautifulSoup(response.text, 'html.parser')
                results = soup.find_all('div', class_='result')
                
                for item in results:
                    title = item.h3.get_text(strip=True)
                    link = item.h3.a['href']
                    news_data.append({
                        'title': title,
                        'link': link,
                        'keyword': keyword
                    })
                page += 1
                time.sleep(2)  # 降低请求频率
            except Exception as e:
                print(f"获取页面错误:{str(e)}")
                break
    return news_data

def download_images(content, folder):
    """下载并保存图片"""
    os.makedirs(folder, exist_ok=True)
    soup = BeautifulSoup(content, 'html.parser')
    img_urls = [img['src'] for img in soup.find_all('img') if 'src' in img.attrs]
    
    saved_paths = []
    for idx, img_url in enumerate(img_urls):
        try:
            full_url = urljoin(content.url, img_url)
            response = requests.get(full_url, stream=True, timeout=10)
            if response.status_code == 200:
                img_path = os.path.join(folder, f"img_{int(time.time())}_{idx}.jpg")
                with open(img_path, 'wb') as f:
                    for chunk in response:
                        f.write(chunk)
                saved_paths.append(img_path)
        except Exception as e:
            print(f"下载图片失败:{str(e)}")
    return saved_paths

def save_to_word(news_data, doc_path):
    """生成Word文档"""
    doc = Document()
    
    for item in news_data:
        # 添加标题
        doc.add_heading(item['title'], level=1)
        
        # 获取正文内容
        try:
            response = requests.get(item['link'], headers=HEADERS, timeout=10)
            soup = BeautifulSoup(response.text, 'html.parser')
            content = soup.find('div', class_='article-content') or soup.find('body')
            
            # 添加正文
            for p in content.find_all('p'):
                doc.add_paragraph(p.get_text(strip=True))
                
            # 下载并插入图片
            img_folder = os.path.join(os.getcwd(), 'images', item['keyword'])
            images = download_images(response.content, img_folder)
            for img_path in images:
                doc.add_picture(img_path, width=Inches(4.5))
                
            doc.add_page_break()
            time.sleep(1)
        except Exception as e:
            print(f"处理文章失败:{str(e)}")
            continue
    
    doc.save(doc_path)

if __name__ == "__main__":
    # 执行流程
    print("开始爬取新闻链接...")
    news_items = get_news_links()
    print(f"共获取到 {len(news_items)} 篇相关报道")
    
    print("开始生成Word文档...")
    save_to_word(news_items, "sports_report.docx")
    print("文档已生成!请查看当前目录下的 sports_report.docx")
  1. 代码关键点解释

3.1 请求配置:

  • 使用真实Cookie(通过浏览器开发者工具获取)

  • 设置合理的User-Agent

  • 增加2秒请求间隔

3.2 数据提取:

  • 使用CSS选择器定位元素

  • 处理相对链接转绝对链接(urljoin)

  • 异常处理机制

3.3 反爬策略应对:

  • 随机延时

  • 图片重命名策略

  • 请求失败重试机制

  1. 运行结果示例: 生成的Word文档将包含:

  • 按关键词分类的新闻报道

  • 带格式的正文内容

  • 插入的新闻图片

  • 自动分页排版

文件结构:

项目目录/
├── sports_report.docx
└── images/
    ├── 孙颖莎/
    │   ├── img_1620000000_0.jpg
    │   └── ...
    └── 樊振东/
        └── ...
  1. 注意事项:

① 法律合规:添加 robots.txt 检查代码(需根据目标网站具体设置)

② 性能优化:建议增加代理IP支持

③ 错误处理:添加日志记录功能

④ 隐私保护:代码中的Cookie需替换为实际值

如需更详细的某部分实现说明或遇到具体问题,请提供更多上下文信息,我会给出针对性建议。建议首次运行时先尝试少量页面的爬取(可修改while page < 3),测试通过后再进行完整采集。

DeepSeek-R1模型

如何使用DeepSeek-R1模型

image

image

 

image

 

以下是R1模型的全部回答

以下是为您定制的Python爬虫解决方案,包含详细步骤说明和代码解释:

一、环境准备

  1. 安装Python 3.x(官网下载安装包)

  2. 安装必要库(在CMD中执行):

pip install requests beautifulsoup4 python-docx lxml

二、完整代码实现

import os
import requests
from bs4 import BeautifulSoup
from docx import Document
from docx.shared import Inches
from urllib.parse import quote

# 配置参数
KEYWORDS = ["孙颖莎", "樊振东"]
SEARCH_URL = "https://news.baidu.com/ns?word={}"
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

def create_folder(folder_name):
    """创建存储文件夹"""
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)

def fetch_news():
    """抓取新闻数据"""
    document = Document()
    img_folder = "news_images"
    create_folder(img_folder)

    for keyword in KEYWORDS:
        document.add_heading(f"{keyword}相关报道", level=1)
        
        # 发起搜索请求
        encoded_word = quote(keyword)
        response = requests.get(SEARCH_URL.format(encoded_word), headers=HEADERS)
        soup = BeautifulSoup(response.text, "lxml")

        # 解析新闻结果(示例选择器,可能需要根据实际页面调整)
        news_items = soup.select(".result")
        
        for index, item in enumerate(news_items[:5]):  # 取前5条结果
            try:
                title = item.select_one("h3 a").text.strip()
                content = item.select_one(".c-summary").text.strip()
                time = item.select_one(".c-time").text.strip()
                source = item.select_one(".c-title-author").text.strip()
                img_url = item.select_one("img")["src"] if item.select_one("img") else None

                # 添加到文档
                document.add_heading(title, level=2)
                document.add_paragraph(f"发布时间:{time}")
                document.add_paragraph(f"来源:{source}")
                document.add_paragraph(content)

                # 下载并插入图片
                if img_url:
                    img_data = requests.get(img_url).content
                    img_path = f"{img_folder}/{keyword}_{index}.jpg"
                    with open(img_path, "wb") as f:
                        f.write(img_data)
                    document.add_picture(img_path, width=Inches(4))

                document.add_page_break()

            except Exception as e:
                print(f"处理第{index}条数据时出错:{str(e)}")
                continue

    document.save("news_report.docx")
    print("文档已生成!")

if __name__ == "__main__":
    fetch_news()

三、代码解析

  1. 环境配置

    • KEYWORDS:设置要搜索的关键词

    • SEARCH_URL:使用百度新闻搜索接口

    • HEADERS:模拟浏览器访问,避免被反爬

  2. 核心函数

    • create_folder():创建图片存储目录

    • fetch_news():主函数处理搜索、解析、存储全流程

  3. 工作流程

    1. 发送搜索请求获取HTML

    2. 使用BeautifulSoup解析页面

    3. 提取标题、时间、来源、正文和图片链接

    4. 保存图片到本地

    5. 将内容按格式写入Word文档

四、运行步骤

  1. 将代码保存为 news_crawler.py

  2. 在CMD中执行:

python news_crawler.py
  1. 查看生成的:
    • news_report.docx 文档文件

    • news_images 图片文件夹

五、注意事项

  1. 网站改版需调整CSS选择器

  2. 添加延时避免频繁请求(示例未包含,可添加 time.sleep(2)

  3. 实际使用时需遵守网站robots.txt协议

  4. 搜索结果可能受百度算法影响

六、示例输出效果

生成的Word文档将包含:

标题:孙颖莎晋级女单决赛
发布时间:2023-07-15 10:23
来源:新浪体育
内容:在刚刚结束的WTT比赛中...
[配图]
---
标题:樊振东卫冕男单冠军
发布时间:2023-07-14 18:45
来源:腾讯体育
内容:在昨晚的决赛中...
[配图]

建议先使用测试关键词(如"测试")验证程序,确认无误后再替换为实际关键词。如需扩展功能,可以添加:

  • 分页爬取

  • 自动摘要生成

  • 关键词高亮

  • 数据去重等功能

遇到具体问题时可进一步优化调整代码,建议先从少量数据开始测试,逐步完善功能。

END:

o1 pro VS R1总结:

1、o1 pro的思考时间比R1快一秒

2、o1 pro比R1更详细 大家快去试试

谁的正确性高,能不能正常运行吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/957697.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FunASR语言识别的环境安装、推理

目录 一、环境配置 1、创建虚拟环境 2、安装环境及pytorch 官网&#xff1a;pytorch下载地址 3、安装funasr之前&#xff0c;确保已经安装了下面依赖环境: python代码调用&#xff08;推荐&#xff09; 4、模型下载 5、启动funasr服务 二、 客户端连接 2.1 html连接 …

【Elasticsearch】 Ingest Pipeline `processors`属性详解

在Elasticsearch中&#xff0c;Ingest Pipeline 的 processors 属性是一个数组&#xff0c;包含一个或多个处理器&#xff08;processors&#xff09;。每个处理器定义了一个数据处理步骤&#xff0c;可以在数据索引之前对数据进行预处理或富化。以下是对 processors 属性中常见…

架构思考与实践:从通用到场景的转变

在当今复杂多变的商业环境中&#xff0c;企业架构的设计与优化成为了一个关键议题。本文通过一系列随笔&#xff0c;探讨了业务架构的价值、从通用架构到场景架构的转变、恰如其分的架构设计以及如何避免盲目低效等问题。通过对多个实际案例的分析&#xff0c;笔者揭示了架构设…

消息队列实战指南:三大MQ 与 Kafka 适用场景全解析

前言&#xff1a;在当今数字化时代&#xff0c;分布式系统和大数据处理变得愈发普遍&#xff0c;消息队列作为其中的关键组件&#xff0c;承担着系统解耦、异步通信、流量削峰等重要职责。ActiveMQ、RabbitMQ、RocketMQ 和 Kafka 作为市场上极具代表性的消息队列产品&#xff0…

win32汇编环境,怎么得到磁盘的盘符

;运行效果 ;win32汇编环境,怎么得到磁盘的盘符 ;以下代码主要为了展示一下原理&#xff0c;应用GetLogicalDrives、GetLogicalDriveStrings函数、屏蔽某些二进制位、按双字节复制内容等。以下代码最多查8个盘&#xff0c;即返回值中的1个字节的信息 ;直接抄进RadAsm可编译运行。…

微软预测 AI 2025,AI Agents 重塑工作形式

1月初&#xff0c;微软在官网发布了2025年6大AI预测&#xff0c;分别是&#xff1a;AI模型将变得更加强大和有用、AI Agents将彻底改变工作方式、AI伴侣将支持日常生活、AI资源的利用将更高效、测试与定制是开发AI的关键以及AI将加速科学研究突破。 值得一提的是&#xff0c;微…

网络编程套接字(二)

目录 TCP网络程序 服务端初始化 创建套接字 服务端绑定 服务端监听 服务端启动 服务端获取连接 服务端处理请求 客户端初始化 客户端启动 发起连接 发起请求 网络测试 多进程版TCP网络程序 捕捉SIGCHLD信号 孙子进程提供服务 多线程版TCP网络程序 线程池版TC…

网站HTTP改成HTTPS

您不仅需要知道如何将HTTP转换为HTTPS&#xff0c;还必须在不妨碍您的网站自成立以来建立的任何搜索排名权限的情况下进行切换。 为什么应该从HTTP转换为HTTPS&#xff1f; 与非安全HTTP于不同&#xff0c;安全域使用SSL&#xff08;安全套接字层&#xff09;服务器上的加密代…

渗透测试--攻击常见的Web应用

本文章咱主要讨论&#xff0c;常见Web应用的攻击手法&#xff0c;其中并不完全&#xff0c;因为Web应用是在太多无法囊括全部&#xff0c;但其中的手法思想却值得我们借鉴&#xff0c;所以俺在此做了记录&#xff0c;希望对大家有帮助&#xff01;主要有以下内容&#xff1a; 1…

外包公司名单一览表(成都)

大家好&#xff0c;我是苍何。 之前写了一篇武汉的外包公司名单&#xff0c;评论区做了个简单统计&#xff0c;很多人说&#xff0c;在外包的日子很煎熬&#xff0c;不再想去了。 有小伙伴留言说有些外包会强制离职&#xff0c;不行就转岗&#xff0c;让人极度没有安全感。 这…

2025 最新flutter面试总结

目录 1.Dart是值传递还是引用传递&#xff1f; 2.Flutter 是单引擎还是双引擎 3. StatelessWidget 和 StatefulWidget 在 Flutter 中有什么区别&#xff1f; 4.简述Dart语音特性 5. Navigator 是什么&#xff1f;在 Flutter 中 Routes 是什么&#xff1f; 6、Dart 是不是…

Spring Boot安全加固:基于Spring Security的权限管理

引言 在当今数字化时代&#xff0c;随着企业信息化程度的不断提高&#xff0c;应用程序的安全性成为了一个至关重要的问题。Spring Boot 作为 Java 生态系统中广泛使用的开发框架&#xff0c;以其简洁、高效的特点深受开发者的喜爱。然而&#xff0c;仅仅依靠 Spring Boot 的默…

论文笔记(六十二)Diffusion Reward Learning Rewards via Conditional Video Diffusion

Diffusion Reward Learning Rewards via Conditional Video Diffusion 文章概括摘要1 引言2 相关工作3 前言4 方法4.1 基于扩散模型的专家视频建模4.2 条件熵作为奖励4.3 训练细节 5 实验5.1 实验设置5.2 主要结果5.3 零样本奖励泛化5.4 真实机器人评估5.5 消融研究 6 结论 文章…

工业缺陷检测实战——基于深度学习YOLOv10神经网络PCB缺陷检测系统

基于深度学习YOLOv10神经网络PCB缺陷检测系统&#xff0c;其能识别六种PCB缺陷&#xff1a;names {0:missing_hole, 1:mouse_bite, 2:open_circuit, 3:short, 4:spur, 5:spurious_copper} CH_names [缺失孔,鼠标咬伤,开路,短路,杂散,伪铜] 具体图片见如下&#xff1a; 第一步…

React+AntDesign实现类似Chatgpt交互界面

以下是一个基于React和Ant Design搭建的简单ChatGPT风格前端交互界面代码框架示例&#xff0c;该示例实现了基本的用户输入、发送请求以及展示回复的功能。假设后端有一个模拟接口来处理请求并返回回复。 1. 项目初始化&#xff1a; 确保你已经安装了Node.js和npm。通过以下命…

FANUC机器人系统镜像备份与恢复的具体步骤(图文)

FANUC机器人系统镜像备份与恢复的具体步骤(图文) 镜像备份: 如下图所示,进入文件—工具—切换设备,找到插入的U盘UT1, 如下图所示,进入U盘目录后,创建目录,这里目录名称为11, 如下图所示࿰

MongoDB 备份与恢复综述

目录 一、基本概述 二、逻辑备份 1、全量备份 2、增量备份 3、恢复 三、物理备份 1、cp/tar/fsync 2、WiredTiger 热备份 3、恢复 四、快照备份 一、基本概述 MongoDB 是一种流行的 NoSQL 数据库&#xff0c;它使用文档存储数据&#xff0c;支持丰富的查询语言和索引…

【Qt 常用控件】显示类控件——QLabel

目录 1.QLabel 1.1 textFormat 文本类型 普通文本和富文本 Markdown格式 1.2 alignment 文本对齐方式 1.3 wordWrap 自动换行 1.4 indent 文本缩进 1.5 margin 边距 1.6 buddy&#xff0c;qlabel伙伴 1.7 pixmap图片 和 scaledContents自动填充 1.QLabel 功能&#x…

npm install 报错:Command failed: git checkout 2.2.0-c

[TOC](npm install 报错&#xff1a;Command failed: git checkout 2.2.0-c) npm install 报错&#xff1a;Command failed: git checkout 2.2.0-c export NODE_HOME/usr/local/node-v14.14.0-linux-x64 npm config set registry https://registry.npmmirror.com 使用如上环…

Oracle 创建并使用外部表

目录 一. 什么是外部表二. 创建外部表所在的文件夹对象三. 授予访问外部表文件夹的权限3.1 DBA用户授予普通用户访问外部表文件夹的权限3.2 授予Win10上的Oracle用户访问桌面文件夹的权限 四. 普通用户创建外部表五. 查询六. 删除 一. 什么是外部表 在 Oracle 数据库中&#x…