传神论文中心|第14期人工智能领域论文推荐

在人工智能领域的快速发展中,我们不断看到令人振奋的技术进步和创新。近期,开放传神(OpenCSG)社区发现了一些值得关注的成就。传神社区本周也为对AI和大模型感兴趣的读者们提供了一些值得一读的研究工作的简要概述以及它们各自的论文推荐链接。

01 Claude 3.5 Sonnet

传神社区注意到这篇文章中有以下亮点:Claude 3.5 Sonnet 是一款新的语言模型,在多项常用基准测试(如 MMLU 和 HumanEval)上实现了最先进的性能。它在多个基准测试中的表现优于 Claude 3 Opus 和 GPT-4o,但在数学文字题解决任务方面除外。此外,它在视觉任务上也表现出色,这使得其在图像-文本转录和文物生成等新功能中表现卓越。

论文推荐链接:

https://opencsg.com/daily_papers/fRA8CPxCKTZU

图片

02 DeepSeek-Coder-V2

传神社区注意到这篇文章中有以下亮点:DeepSeek-Coder-V2 在代码和数学生成任务中与闭源模型竞争,取得了优异成绩。在 HumanEval 上达到了 90.2%,在 MATH 上达到了 75.7%,这些结果高于 GPT-4-Turbo-0409 的性能报告。该模型包括 16B 和 236B 参数版本,具有 128K 的上下文长度。

论文推荐链接:

https://opencsg.com/daily_papers/5y9GeyeFSCj1


 

图片

03 TextGrad

传神社区注意到这篇文章中有以下亮点:TextGrad 是一个新的框架,通过对由大型语言模型(LLM)提供的文本反馈进行反向传播实现自动微分。该框架改进了各个组件,并通过自然语言优化计算图。TextGrad 提供了一个无需调试提示或组件的目标函数。据称,当与 GPT4o 结合使用时,它在 LeetCodeHard 和 GPQA 基准测试上分别取得了最佳成绩和最先进的性能。

论文推荐链接:

https://opencsg.com/daily_papers/57J2WQD3MXrA

图片

04 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

传神社区注意到这篇文章中有以下亮点:《Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?》对长上下文大型语言模型(LLMs)在上下文检索和推理中的性能进行了深入分析。研究首先提出了一个包含需要 1M 令牌上下文的真实世界任务的基准测试。报告指出,长上下文 LLMs 在未经过任何特定任务训练的情况下,可以媲美最先进的检索和 RAG 系统。然而,这些模型在处理 SQL 类任务所需的组合推理方面仍然具有挑战性。研究还鼓励继续对高级提示策略进行研究,因为在长上下文问题中应用这些策略时,性能显著提升。

论文推荐链接:

https://opencsg.com/daily_papers/7kdtB8F2QakH

图片

05 PlanRAG

传神社区注意到这篇文章中有以下亮点:PlanRAG 是一种通过新颖的检索-生成(RAG)技术来增强决策的工具,称为迭代计划-再-RAG(PlanRAG)。它包括两个步骤:1) 一个语言模型通过检查数据架构和问题来生成决策计划;2) 检索器生成数据分析查询。最后一步检查是否需要新的计划进行进一步分析,并在之前的步骤上迭代或对数据做出决策。研究发现,PlanRAG 在提出的决策问答任务上比迭代 RAG 更为有效。

论文推荐链接:

https://opencsg.com/daily_papers/yBfVKjpCBX7Z

图片

06 Mitigating Memorization in LLMs

传神社区注意到这篇文章中有以下亮点:《Mitigating Memorization in LLMs》提出了一种名为 goldfish loss 的修改版下一个词预测目标,以帮助减少对训练数据逐字生成的记忆。该技术通过在训练时排除伪随机子集的训练令牌来实现。研究表明,goldfish loss 能够抵制记忆,同时保持模型的实用性。然而,为了更有效地从训练数据中学习,模型可能需要更长的训练时间。

论文推荐链接:

https://opencsg.com/daily_papers/gFGpq7JhQzYv

图片

07 Monte Carlos Tree Self-Refine

传神社区注意到这篇文章中有以下亮点:《Monte Carlo Tree Self-Refine》报告了一种将大型语言模型(LLMs)与蒙特卡罗树搜索(MCTS)结合的方法,达到了 GPT-4 级别的数学奥林匹克竞赛解题能力。该方法通过系统性探索、自我改进和自我评估等功能,增强了系统的数学推理性能。

论文推荐链接:

https://opencsg.com/daily_papers/dAsBR7woNqEb

图片

08 From RAG to Rich Parameters

传神社区注意到这篇文章中有以下亮点:《From RAG to Rich Parameters》深入研究了大型语言模型(LLMs)在处理事实性查询时如何利用外部知识与参数化信息。研究发现,在 RAG 管道中,LLMs 倾向于“走捷径”,强烈依赖上下文信息来回答问题,而对其参数化记忆的依赖最小。

论文推荐链接:

https://opencsg.com/daily_papers/eQHuXwn3Dmzq

图片

09 Open-Sora

传神社区注意到这篇文章中有以下亮点:Open-Sora 是一个开源的视频生成模型,可以生成16秒的720p视频。该模型拥有1.1B参数,基于超过3000万的数据进行训练,现已支持图像到视频的生成。它引入了增强的扩散模型和视频压缩网络,用于空间和时间的压缩,从而提高生成的可控性并降低训练成本。

论文推荐链接:

https://opencsg.com/daily_papers/sQZEkWwatqEz

图片

10 Tree Search for Language Model Agents

传神社区注意到这篇文章中有以下亮点:《Tree Search for Language Model Agents》提出了一种推理时间的树搜索算法,帮助语言模型代理进行探索和多步推理。该算法在交互式网络环境中进行了测试,并应用于 GPT-4o,大幅提高了其性能。研究表明,随着测试时间计算量的增加,性能也相应提升。

论文推荐链接:

https://opencsg.com/daily_papers/grjnHevQkqsZ

图片

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/753170.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【干货】一文讲清楚社群裂变的主要模式和SOP流程

一、社群裂变的主要模式 社群裂变是一种依赖于现有成员的推广以吸引新成员的增长策略。以下是几种主要的社群裂变模式: 老带新裂变 定义:通过老用户带动新用户,同时给予某一方或双方奖励的一种裂变形式。 示例:任务宝活动&…

【精选】数据治理项目实施(合集)06——数据标准在数据治理中的落地实践

导读 本文对数据标准管理进行了深入探讨。重点介绍了数据标准的定义,实施路线和具体标准定义的内容,并总结了企业开展数据标准管理面临的常见问题,由于编写的水平和时间有限, 难免有所纸漏, 欢迎大家批评指正。 在现实…

填报高考志愿时,学校、专业和城市怎么选择呢?

我的观点是: 专业>城市>学校 专业是兴趣导向,符合自己的价值观,失去了这种驱动力的专业学习,会变得非常艰难的,而且没有竞争力,所以我的排序第一位是专业。 其次是城市,最好是一线城市&…

OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!

目录 01 基于GPT-4,改进GPT-4 02 CriticGPT取得了哪些成果呢? 03 RLHF的上限不再是人类 近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。 CriticGPT能够在代码挑错中找到超过75%…

golang生成RSA公钥和密钥

目录 场景 场景一:加密、解密 场景二:微信退款 场景三:SSL证书 为什么是.key和.pem格式的文件 生成密钥、公钥 密钥、公钥保存到文件中 第一个:保存密钥到文件里 第二个:保存公钥到文件里 场景 场景一&#…

ForkJoinPool浅析

一,概述 相比传统的线程池ExecuteService,ForkJoinPool的优势在于能采用分治算法、工作窃取算法高效利用CPU资源,如下图 Fork即拆分,Join即合并, 通过将大任务拆分成多个小任务,在多个线程中执行后,合并结果即可得到大任务的结果,经典的例子有归并排序、超大数组求和…

如何保护应用?可快速部署的WAF服务器分享

Web应用攻击是安全事件和数据泄露的主要原因。相关统计表明,超过四分之三的网络犯罪直指应用及其漏洞。为保护数量日益增长的应用安全,Web应用防火墙(WAF)因此而生。本文则聚焦于WAF服务器,了解它的性能与具体的实践应用。   新加坡网络安全…

Linux应急响应靶机 2

一、靶机介绍 应急响应靶机-Linux2 前景需要:看监控的时候发现webshell告警,领导让你上机检查你可以救救安服仔吗!! 1,提交攻击者IP 2,提交攻击者修改的管理员密码(明文) 3,提交第一次Webshell的连接URL(http://xxx.xxx.xxx.…

变“回锅肉”专场的《歌手2024》,是不是高开低走了?

《歌手2024》播出已经过半,似乎出现了高开低走的不妙趋势。 6月26日,《歌手》节目组官宣第八期节目的补位歌手为谭维维,曾主动“请战”的她再次回到了《歌手》舞台,实力歌手加入节目按理说是件好事,却意外并未受到观众…

每天写java到期末考试--复习集合与泛型--6.28

1、定义一个Student类,具有name、sex、age属性,具有getName、setName、getSex、setSex、 getAge、setAge方法和三个参数的构造方法 2、编写一个类,名字为ListDemo,在main方法中做以下工作: 定义一个可以保存Student类型对象的List类型对象list1,然后向list1中放入2个学生:new S…

Web渗透:php反序列化漏洞

反序列化漏洞(Deserialization Vulnerability)是一种在应用程序处理数据的过程中,因不安全的反序列化操作引发的安全漏洞;反序列化是指将序列化的数据(通常是字节流或字符串)转换回对象的过程,如…

松下的台灯值得入手吗?书客、飞利浦真实横评大分享!

我们都知道,无论是学习还是工作,都需要一个良好的照明环境,而台灯就是我们日常生活中非常重要的照明工具。它不仅能够提供额外的光线,还能减少眼睛疲劳,提高我们的工作和学习效率。 所以,选购一款合适的台…

240622_昇思学习打卡-Day4-ResNet50迁移学习

240622_昇思学习打卡-Day4-ResNet50迁移学习 我们对事物的认知都是一点一点积累出来的,往往借助已经认识过的东西,可以更好地理解和认识新的有关联的东西。比如一个人会骑自行车,我们让他去骑摩托车他也很快就能学会,比如已经学会…

电脑提醒事项怎么显示在桌面

在繁忙的工作节奏中,我们经常会面临多项任务同时进行的情况。为了确保不遗漏任何重要事务,设置电脑提醒事项就显得尤为重要。想象一下,当你正忙于一个项目时,电脑屏幕突然弹出一个提醒,告诉你接下来的会议时间&#xf…

梦想CAD二次开发

1.mxdraw简介 mxdraw是一个HTML5 Canvas JavaScript框架,它在THREE.js的基础上扩展开发,为用户提供了一套在前端绘图更为方便,快捷,高效率的解决方案,mxdraw的实质为一个前端二维绘图平台。你可以使用mxdraw在画布上绘…

实力认可!安全狗受聘成为福建省网信系统2024年度网络安全技术支撑单位

6月6日,福建省委网信办组织召开福建省网信系统2024年度网络安全技术支撑单位座谈会。 作为国内云原生安全领导厂商,安全狗也受邀出席此次活动。 省委宣传部副部长、省委网信办主任、省互联网信息办公室主任张远出席会议并颁发支撑单位证书。安全狗凭借出…

如何用Vue3和Plotly.js绘制动态3D图表?

本文由ScriptEcho平台提供技术支持 项目地址:传送门 Plotly.js: 使用Vue.js动态加载数据并绘制图表 应用场景 在数据可视化应用中,需要将数据动态加载到图表中并进行实时更新。本文将展示如何使用Plotly.js和Vue.js实现这一功能,从加载外…

java基于ssm+jsp 电子商城系统

1管理员功能模块 管理员登录,通过填写用户名、密码进行登录,如图1所示。 图1管理员登录界面图 管理员登录进入电子商城系统可以查看个人中心、用户管理、医生管理、药品信息管理、线上诊疗管理、医生信息管理、管理员管理、论坛管理、系统管理、订单管…

snowflake 不再是个数据仓库公司了

标题先上结论,为啥这么认为,且听接下来道来。 snowflake 非常成功,开创了云数仓先河,至今在数仓架构上也是相对比较先进的,国内一堆模仿的公司,传统上我们会认为 snowflake 肯定是一家数据仓库公司。不过最…

智能工业网络,需要何种工业以太网交换机作为支撑?

随着工业企业数字化及信息化的进一步深化升级,工业领域相关控制及信息系统的业务类型不断增加、复杂性不断提升,工业控制网络与工业信息网络也呈现融合趋势,具备支持多业务、多协议、多厂商设备和数据的互联互通、共网承载以及高质量传输能力…