在人工智能领域的快速发展中,我们不断看到令人振奋的技术进步和创新。近期,开放传神(OpenCSG)社区发现了一些值得关注的成就。在当今数字化时代,人工智能(AI)已经成为了许多领域的核心驱动力。openelm和phi-3语言模型等等的出现令人眼前一亮。传神社区本周也为对AI和大模型感兴趣的读者们提供了一些值得一读的研究工作的简要概述以及它们各自的论文推荐链接。
01 Phi-3
传神社区注意到这篇文章中有以下亮点:Phi-3是一款新型的语言模型,拥有38亿个参数,经过了3300亿个令牌的训练。它的默认上下文长度为4K,还有一个上下文长度更大的版本phi-3-mini-128K。Phi-3采用了与众不同的训练方法,结合了经过严格筛选的网络数据和合成数据。此外,Phi-3还提供了更大规模的模型变体,如phi-3-small和phi-3-medium,它们在4800亿个令牌上进行了训练。这使得Phi-3成为大规模语言模型领域的领先者之一,为自然语言处理领域带来了新的进展和挑战。
论文推荐链接:
https://opencsg.com/daily_papers/S3C7brDt5uzQ
模型链接:https://opencsg.com/models/MagicAI/Phi-3-mini-4k-instruct
02 OpenELM
传神社区注意到这篇文章中有以下亮点:OpenELM采用层级缩放策略,有效分配参数,提高效率和准确性。各规模版本从270M到3B参数不等,较OLMo准确率提升2.36%,同时需预训练令牌数量减半。在自然语言处理领域,OpenELM平衡高效性和资源利用效率,是令人期待的选择。
论文推荐链接:
https://opencsg.com/daily_papers/Mewtk2Lz5ovk
03 Arctic
传神社区注意到这篇文章中有以下亮点:Arctic是一款开源语言模型(采用Apache 2.0许可证),采用独特的Dense-MoE混合变压器架构。在企业度量标准(如编码、SQL、指令遵循)方面,其表现与Llama3 70B不相上下,并声称使用的计算预算比Llama3 70B少了17倍,培训计算成本大约不到200万美元(少于3000个GPU周)。
论文推荐链接:
https://opencsg.com/daily_papers/81Su565GGjPZ
04 Make Your LLM Fully Utilize the Context
传神社区注意到这篇文章中有以下亮点:该论文提出了一种克服LLM中常见的“中间信息丢失”挑战的方法。它在Mistral-7B上应用了一种显式的“信息密集型”训练过程,使LLM能够充分利用上下文。该方法利用了一个合成数据集,其中答案需要对一个短段(约128个标记)内的微观信息进行细致的感知,在合成的长上下文(4K-32K标记)中,以及从两个或多个短段中集成和推理信息。生成的模型FILM-7B(Fill-in-the-Middle)表明,它可以在32K上下文窗口中从不同位置稳健地检索信息。
论文推荐链接:
https://opencsg.com/daily_papers/GNHmsCuVjkG2
05 FineWeb
传神社区注意到这篇文章中有以下亮点:FineWeb是一个大规模的网络数据集,包含1500万亿个标记,用于训练语言模型。它对2013年至2024年间的CommonCrawl进行了过滤和去重,旨在提高数据的质量。
论文推荐链接:
https://opencsg.com/daily_papers/8A4Macfwyzrr
06 AI-powered Gene Editors
传神社区注意到这篇文章中有以下亮点:AI动力基因编辑器采用了一种由LLM训练的生物多样性规模AI系统,实现了对人类基因组的精确编辑,设计了可编程的基因编辑器。
论文推荐链接:
https://opencsg.com/daily_papers/Y4wX8yEXtZbv
07 AutoCrawler
传神社区注意到这篇文章中有以下亮点:AutoCrawler将LLM与网络爬虫结合,旨在帮助爬虫更有效地处理多样化和变化的网络环境。其网络爬虫代理利用HTML的层次结构进行渐进式理解,采用自顶向下和回溯操作,利用DOM树结构生成完整可执行的爬虫。
论文推荐链接:
https://opencsg.com/daily_papers/yNtEQeA5V2aT
08 The Physics of Language Models
传神社区注意到这篇文章中有以下亮点:该论文全面介绍了图机器学习在LLM时代的最新进展,包括图机器学习的最新发展,LLM如何增强图特征,并解决OOD和图异构性等问题。
论文推荐链接:
https://opencsg.com/daily_papers/buUuMvJFgyua
09 Self-Evolution of LLMs
传神社区注意到这篇文章中有以下亮点:该论文提供了对LLM中自我演进方法的全面调查。系统地研究了LLM如何通过自我演进来不断提升和改进,探讨了各种自我演进的方法和技术。对于对LLM技术和发展感兴趣的研究人员和从业者来说,这是一本具有价值的参考资料,有助于深入了解LLM的演进机制和未来发展趋势。
论文推荐链接:
https://opencsg.com/daily_papers/5c7uUFUQSo4u
10 The Influence Between NLP and Other Fields
传神社区注意到这篇文章中有以下亮点:该论文培训LLM具有检查程序执行轨迹并通过合成的思维链进行运行时行为推理的能力;在MBPP和Human上,提高了PaLM 2模型的修复率26.1%和14.3%;该模型还表明能够推广到未知场景。
论文推荐链接:
https://opencsg.com/daily_papers/HdJscCViCjuM
投稿有礼
非常感谢您对传神社区的支持与认可,传神社区专注于打造中国本土化的huggingface plus,目前传神社区展开了征稿活动,主要聚焦开源技术、最新的科技动态、AGI产业应用的落地,我们诚挚的邀请您投稿,一旦投稿成功,我们传神小助手将会与您联系您并发放我们准备的礼品。
投稿方式:pr@opencsg.com
欢迎扫描下方二维码添加传神小助手微信。
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区