每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

Orca-Math 是微软研究院发布的数学推理模型,该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧!

3 月 11 日-3 月 15 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质公共教程:2 个

* 社区文章精选:3 篇

* 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1. Orca-Math-200K 微软数学单词问题数据集

Orca-Math-200K 是微软创建的一个高质量的合成数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

直接使用:

https://my5353.com/30060

2. MULTI-Benchmark:带有文本和图像的多模态理解排行榜

该数据集为上海交通大学发布的多模态基准测试 MULTI ,旨在评测多模态大模型在理解复杂的表格和图像、以及进行长文本推理的能力。该测试提供多模态输入,并要求回答是精确的或开放式的,反映了现实生活中的考试风格。MULTI 包含逾 18,000 个问题,涵盖从公式推导到图像分析及跨模态推理的多样化任务。

直接使用:

https://my5353.com/30062

3. IEPile 大规模信息抽取语料库 

IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。

直接使用:

https://my5353.com/30064

4. FFHQ-UV-Intrinsic 用于 3D 人脸重建的面部属性数据集

FFHQ-UV-Intrinsic 是 Ubisoft LaForge 基于 FFHQ-UV 数据集构建的内在面部属性数据集,该数据集包含了 10,000 个主体的面部内在属性,包括漫反射、镜面反射、环境光遮挡和半透明贴图。它是首个公开的、大规模提供高分辨率的内在属性的面部数据集。

直接使用:

https://my5353.com/30113

5. GITQA 多模态图推理问答数据集

GITQA 是香港科技大学和南方科技大学构建的首个包含视觉图的推理问答数据集。该数据集包含超过 423K 个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

直接使用:

https://my5353.com/30116

6. SMolInstruct 化学指令微调数据集

SMolInstruct 是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含 14 个不同的化学任务,共超过 300 万个样本,涵盖 160 万个独特的分子。

直接使用:

https://my5353.com/30133

7. MusicPile 大型音乐数据集

MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品等。MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。

直接使用:

https://my5353.com/30136

8. seq-monkey 序列猴子开源数据集 1.0

序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取了部分数据集向公众开放:涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:

https://my5353.com/30139

9. 豆瓣电影短评论数据集 V2

该数据集包含豆瓣电影网站中 28 部电影的超过 200 万条短评论。它可以用于文本分类、文本聚类、情感分析、语义网络构建以及其他一些与网络挖掘或 NLP 相关的领域。

直接使用:

https://my5353.com/30011

10. AdaDR—论文「基于自适应 GCN 方法进行药物重新定位」的数据集

该数据集为论文「基于自适应 GCN 方法进行药物重新定位」使用的数据集。为了全面评估所提出的模型性能,研究团队使用了四个基准数据集:Gdataset (Gottlieb et al. 2011)、 Cdataset (Luo et al. 2016)、 Ldataset (Yu et al. 2021) 和 LRSSL (Liang et al. 2017),可应用于药物重新定位任务。

直接使用:

https://my5353.com/30057

更多本周更新数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 使用迁移学习进行花卉分类

该教程演示了如何使用迁移学习在一组花卉图像数据集上执行图像分类。教程中将利用一个预训练的卷积神经网络 (CNN) 作为特征提取器,并在其上构建一个自定义分类器来预测花卉的种类。

在线运行教程:

https://my5353.com/n30069

2. 量化 Vision Transformers(Vit)以实现高效部署:策略和最佳实践

随着各行业对先进计算机视觉系统的需求持续激增,Vision Transformers 的部署已成为研究人员和从业者的焦点。然而,要充分发挥这些模型的潜力,需要对其架构有深入的了解。此外,制定有效部署这些模型的优化策略也同样重要。

本教程全面探讨了 Vision Transformer 架构、关键组件以及使它们与众不同的基本原理。在教程的最后,通过代码演示讨论了一些优化策略,使模型更加紧凑,以便于部署。

在线运行教程:

https://my5353.com/n30119

社区文章精选

1. 仅需 5% 训练样本达到最优性能,清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟

清华大学研究团队提出了一种新颖的条件去噪扩散模型 SPDiff,该模型能够有效地利用交互动力学,通过社会力引导的扩散过程来模拟人群行为。相关论文已发表于 AAAI 2024。

查看完整报道:

https://my5353.com/n30069

2. 北师大研究团队建立 ECA-Net 模型,预测中国未来 70 年的风能利用潜力

近期,来自北京师范大学环境学院的研究团队发表论文,在全球变暖的大背景下,评估了我国风能潜势将如何发生变化。该研究采用了 22 个 CMIP6 全球气候模型作为输出,从而对模型间的不确定性进行可靠评估。结果显示,本世纪我国整体的风能密度将呈现轻微下降趋势。相关论文已发表于「ACS Publications」。

查看完整报道:

https://my5353.com/n30119

3英伟达 2024 GTC 倒计时,黄仁勋会带来面向中国市场的新举措吗?

2024 年 GTC AI 大会定档 3 月 18 日—21 日,黄仁勋将在北京时间 3 月19 日凌晨 4:00—6:00 带来一年一度的分享,主题为「见证 AI 的变革时刻」。HyperAI超神经基于老黄最近的演讲访谈与行业趋势,大胆预测了一下其演讲话题。

查看完整报道:

https://my5353.com/n30151

百科词条精选

1. 平均精度 (mAP)

2. 实例分割 Instance Segmentation

3. 交并比 Intersection over Union (IoU)

4. 多项式插值 Polynomial Interopolation

5. 倒数排名融合  Reciprocal Rank Fusion (RRF)

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期

时间

内容

3 月 11 日
星期一

10:00

17:00

MIT深度学习课程 

2020

MIT深度学习课程 

2021

3 月 12 日

星期二

10:00

Python API 开发

——初学者综合课程

3 月 13 日

星期三

10:00

14:00

SQL 教程—初学者课程

生成式 AI 全套课程

3 月 14 日

星期四

21:00

面向初学者的 

Flutter 课程

3 月 15 日

星期五

10:00

面向初学者的 

Flutter 课程

3 月 16 日

星期六

10:00

哈佛 CS50

—Python 人工智能课程

3 月 17 日

星期日

10:00

一天内学习 PyTorch 

进行深度学习

超神经电视台 7×24h 不间断直播,持续输出 AI 行业见解,一起来学习吧:

http://live.bilibili.com/26483094

daf64cd73f7ecd4cb3c7c23a42c50d42.gif

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

 往期推荐 

601cc0034cc8532bfeaa9466f72f3f02.png

b87e3facb60beb600ae16601610d6cd1.png

f3ffc32d6d9c3fc1edef6b8774d20fa4.png

21e5c4903e892777dec49b35b4ea2cbc.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/467769.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

webpack5零基础入门-11处理html资源

1.目的 主要是为了自动引入打包后的js与css资源,避免手动引入 2.安装相关包 npm install --save-dev html-webpack-plugin 3.引入插件 const HtmlWebpackPlugin require(html-webpack-plugin); 4.添加插件(通过new方法调用) /**插件 *…

使用 Boot Camp 助理查明您的 Mac 需不需要 Windows 安装介质

使用 Boot Camp 助理查明您的 Mac 需不需要 Windows 安装介质 当前的 Mac 机型无需介质即可安装 Windows,也就是说,您不需要用到外置驱动器。较早的 Mac 机型需要用到 USB 驱动器或光盘驱动器。使用 Boot Camp 助理可查明您需要用到什么。 Boot Camp 助…

机器学习_聚类(k-means)

文章目录 聚类步骤k-means APIKmeans性能评估指标Kmeans性能评估指标API 聚类步骤 k-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。 1.首先,随机设K个特征空间内的点作为初始的…

day-23 N 叉树的层序遍历

思路:利用bfs,利用队列将当前层的孩子元素加入队列,再将本层元素出队即可 注意点:res.remove()执行后,ArrayList的元素索引会改变,可以先添加下一层所有元素后,再将本层元素一起出队 code: /* // Defini…

spring-boot-starter-thymeleaf加载外部html文件

在Spring MVC中,我们可以使用Thymeleaf模板引擎来实现加载外部HTML文件。 1.Thymeleaf介绍 Thymeleaf是一种现代化的服务器端Java模板引擎,用于构建漂亮、可维护且易于测试的动态Web应用程序。它适用于与Spring框架集成,并且可以与Spring M…

在ubuntu下安装MQTT 服务

ubuntu系统版本22.4.4LTS amd64 在ubuntu系统下打开终端输入命令 ## 安装MQTT 服务 sudo apt-get install mosquitto mosquitto-clients继续执行后系统就完成了安装并默认已启动服务 ## 查看MQTT运行状态 systemctl status mosquitto## 启动服务 systemctl start mosquitto…

深度学习神经网络相关记录《二》

如何判断模型是一个好模型? 模型预测效果,也就是模型预测的准确率运算速度;能够处理大量数据、短时间内急速学习、可以实时进行预测,是机器学习的重要优势;可解释性;深度学习已经不太关系这一点了&#xf…

计算机设计大赛 题目:基于深度学习的中文对话问答机器人

文章目录 0 简介1 项目架构2 项目的主要过程2.1 数据清洗、预处理2.2 分桶2.3 训练 3 项目的整体结构4 重要的API4.1 LSTM cells部分:4.2 损失函数:4.3 搭建seq2seq框架:4.4 测试部分:4.5 评价NLP测试效果:4.6 梯度截断…

【C语言】守护进程(daemon)的输出到一个文本文件

一、常用的守护进程函数 void daemonize () {//deamonizepid_t pid fork();if( pid > 0 ){ //parent exitexit(0);}//child continuesetsid();chdir("/");close(0);open("/dev/null", O_RDWR);//no env debugif(!getenv("debug")){cl…

3.18数据结构

一、数据结构----->用来组织存储数据 一组用来保存一种或多种特定关系的数据的集合(组织和存储数据) 程序 数据结构 算法 MVC:软件设计架构 M:数据的管理(数据结构) V:视图&#xff0c…

​C语言-memcmp(内存块的比较)

memcmp&#xff08;内存块的比较&#xff09; 语法 memcmp函数是C语言标准库中的一个函数&#xff0c;用于比较两个内存块的内容是否相等。它定义在<string.h>头文件中。memcmp函数在比较两个字符串或者任何内存数据时非常有用&#xff0c;它不会检查字符串的长度&…

Godot 学习笔记(3):IOC容器注入,以NlogServices为例

文章目录 前言环境注意事项Ioc注入文件夹设置Service服务搭建Nlog.configNlogService配置ButtonTest1Service控制反转Program主入口ButtonTest1从Ioc中获取服务 输出生命周期问题 总结 前言 Godot.Net中使用IOC之后&#xff0c;Godot的代码将会被极大的解耦。这里不不展开说明…

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之二 素描画风格效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之二 素描画风格效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之二 素描画风格效果 一、简单介绍 二、素描画风格效果实现原理 三、案例简单实现步骤 一、简单介绍 Python是一种跨…

MYSQL日志 redo_log更新流程 bin_log以及bin_log数据恢复

Redo_log写入策略 Redo log的Innodb_flush_log_at_trx_commit:: 这个参数有三个取值 取值为0&#xff1a;每次事务提交时&#xff0c;只是把redo_log留在 redo log buffer中&#xff0c;宕机会丢失数据&#xff1b; 取值为1&#xff08;默认值&#xff09;&#xff1a;每次事…

Zookeeper(2)常用命令,ACL权限

文章目录 前言一、zk节点和节点类型节点类型 二、常用命令1.客户端连接2.常用命令help 帮助命令创建节点getsetdeletedeleteall pathstat查看节点的状态setquota增加配额listquota /frame 查看配额delquota删除配额 三、ACL权限控制&#xff1a;1、ZooKeeper权限特性&#xff1…

从单机到分布式微服务,大文件校验上传的通用解决方案

一、先说结论 本文将结合我的工作实战经历&#xff0c;总结和提炼一种从单体架构到分布式微服务都适用的一种文件上传和校验的通用解决方案&#xff0c;形成一个完整的方法论。本文主要解决手段包括多线程、设计模式、分而治之、MapReduce等&#xff0c;虽然文中使用的编程语言…

【开发】SpringBoot 整合 Redis

目录 前言 1. Redis 的下载及安装 1.1 Redis 的下载 1.2 安装 Redis 1.3 启动 Redis 2. 创建 SpringBoot 项目整合 Redis 2.1 环境要求 2.2 SpringBoot项目构建 2.2.1 方式一 2.2.2 方式二 2.3 在 pom.xml 文件中导入依赖坐标 2.4 在 application.properties 中加…

通过docker容器安装zabbix6.4.12图文详解(监控服务器docker容器)

一、相关环境及镜像 环境&#xff1a;ubuntu 22.04&#xff0c;zabbix-server6.4&#xff0c;mysql8.0 前提&#xff1a; 1&#xff09;先安装docker环境 2&#xff09;下载相关镜像 docker pull mysql:8.0 docker pull zabbix/zabbix-java-gateway:alpine-6.4-latest docker …

25考研|北大软微会「爆炸」吗?

软微不是已经爆炸了吗&#xff1f; 大家去看看他的录取平均分就知道了&#xff0c;没有实力千万别碰&#xff0c;现在考软微已经不存在捡漏之说。 110408的复试线已经划到了465分&#xff0c;这个人真的不低了&#xff0c;因为有数学一和408两个比较难的专业课&#xff0c;复…

从零开始学习在VUE3中使用canvas(三):font(字体)

一、简介 我们可以使用font在canvas中绘制文字&#xff0c;方式如下: const ctx canvas.getContext("2d"); // 绘制文字 ctx.font "24px 黑体, 宋体"; //字体大小 首选字体 备选字体 ctx.fillText("这里是显示的字的内容", 100, 50); //文字…