CSDN-AI小组2023-半年-研发总结

目录

    • 1.丐版「大模型」,Proof of concept
    • 2. LLM和AIGC的各种综述
    • 3. 基于Embedding的应用,问答,AI编程
    • 4. 评论区的AI助手
    • 5. 结合AIGC的各种数据自动计算
    • 6. 个性化推荐的系统重构
    • 7. 基于AIGC的个性化博客创作鼓励
    • 8. 博客质量分V5: 可解释性计算服务
    • 9. CSDN统一标签的持续改进
    • 小结

在这里插入图片描述

时隔6个月,做为一个技术站点的AI团队,我们能做些什么?大模型和AIGC如火如荼,这就是所有做技术的人等待的技术浪潮。不过这个技术浪潮对于一个小团队来说意味着什么,则是需要冷静的思考。我们看下我们做了哪些动作,解决了哪些问题。

1.丐版「大模型」,Proof of concept

我们很快意识到,生成式AI已经彻底崛起。作为AI团队,整个技术栈上需要扭转过来,只有掌握技术的原理,才能更好的使用技术。大模型从一开始就是大厂的战场,但是所有做AI研发的,都应该在原理上对其有深刻的一手理解才能立于不败之地。

我们用非常小的成本,挑选了RWKV模型做为基模型,验证了构建垂直大模型的主要技术栈并开源。

ChatCSDN基于RWKV1.5B基模型: https://gitcode.net/csdn/ai/chatcsdn

  • 主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。
  • 原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
  • 微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN

在这个基础上,团队有对应的原理和工程实践的博客介绍:

  • 介绍博客地址:https://blog.csdn.net/zxm2015/article/details/130227450
  • 人类反馈强化学习 (RLHF) 博客:https://blog.csdn.net/u010280923/article/details/130283628

从应用的角度。在实际验证了主要技术栈之后,我们就打破了对大模型的迷思。当有新的开源模型的时候,我们也能第一时间对其做评估和验证。符合条件的模型,则可以在被动式AI应用里做集成使用。

2. LLM和AIGC的各种综述

在这里插入图片描述

以应用为目标是AI团队的目标。但是在这个基础上,技术平台本身就应该能提供最前沿的技术博客。我们针对性的做了一组综述,包含这些博客:

  • 10分钟了解向量数据库
    • 事实上,我们在应用里已经有很多该技术的实战应用。
  • 关于 ChatGPT 必看的 10 篇论文
  • 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
  • NLP 中语言表示 (向量化) 的基本原理和历史演变综述
  • LLaMA及其子孙模型概述
  • 用LangChain实现一个ChatBlog

3. 基于Embedding的应用,问答,AI编程

实际做AIGC的应用,有两个典型的用途:

  • 回答技术问题
  • AI编程

其中,基于Embedding的技术是其中的一个重要的模式。大概的示意图如下

在这里插入图片描述

其中,在CSDN问答上,我们做了许多不断改进的迭代,问答机器人在问答周采纳榜单上稳定进入前3.

这里有问答机器人研发介绍

而,AI编程,则在 https://inscode.csdn.net 上有很系统的集成。AI编程事实上已经改变了未来编程的基本粒度。机器做的更多,人的精力会被更多地解放出来。

4. 评论区的AI助手

如何做基于AIGC的产品功能,则是一个重要的课题。经过思考后的一个设计是:在离用户需求最近的地方支持AI,包含:

  • CSDN 社区(bbs.csdn.net) 评论区支持 @ada 的会员权益功能。
  • CSDN 问答(ask.csdn.net) 回答区支持 @ada 的会员权益功能。

对于@ada 机器人的能力是经过仔细思考的:

  1. 你自己可能不知道哪里是关键「问题」例如你仔细观察 https://bbs.csdn.net/topics/615834933,提问者自己是不知道「问题在哪」,而我「懒得打字」(GPT帮我打即可,但是我知道「问题在哪」),我的价值在于,我知道「问题在哪」。从前,答者重“答”,未来,答者重“另一个问”.

  2. 解决问题需要「多人」讨论,包括human1, human2, 中间可以夹杂ai1, ai2,AI的加持,人与人的讨论更能聊的下去。

  3. 好的问题,公开解决,可以帮助更多人。

有了这个功能,如果你希望在私密的地方使用生成式AI学习,也可以在个人的私密社区的评论区里使用。希望这个功能你会喜欢。

5. 结合AIGC的各种数据自动计算

技术站点可以做各种榜单。但是在AIGC时代,可以做的更好。我们在结合传统自动化大数据处理+部分AIGC的能力,不断迭代各种推送榜单。

  1. AI前沿社区
  2. 博客之星2023社区
  3. 用户的认可页面
  4. 将社区里,是“问题类型”的帖子,通过分类器识别后,分类出来并同步到问答。同时社区也支持一个「有问题」列表:
    在这里插入图片描述

6. 个性化推荐的系统重构

个性化推荐对于内容社区起着举足轻重的作用。对此我们有一系列的研发博客介绍:

  • [1] 《如何支持研发对CSDN个性化推荐系统重构》
  • [2] 《CSDN个性化推荐系统的设计和演化
  • [3] 《CSDN 个性化推荐的数据治理
  • [4] 《CSDN个性化推荐系统-负反馈测试

在这里插入图片描述

正确反馈的系统,才能有真实的数据,才能解决繁杂的用户和平台需求。

7. 基于AIGC的个性化博客创作鼓励

AIGC时代,我们可以为每个人做个性化的写作鼓励。每个用户写博客,无论是写笔记(学),还是写专栏(教)。都希望获得正向反馈。为此,我们通过一些列的实验为所有的技术写作者服务,这确实体现了成就一亿技术人的理念

  • 工作3年内博主写作的红包评论鼓励,结合AIGC自动摘要和写作建议。
  • 新人博客前10-20篇博客的AIGC鼓励评论和建议。
  • 资深老博主的AIGC鼓励和建议。

让所有人都自动地获得AIGC的服务,为技术写作者服务,你的技术写作再也不孤单。AIGC评论只是一个催化剂,让博主们更流畅的互相交流,通过写作获得成长是其核心目标。

8. 博客质量分V5: 可解释性计算服务

我们对博客质量分做了一系列的内部分析和实验,包含了:

  • 影响博客质量分的因子的消融指标矩阵分析
  • 影响博客质量分区间分布迁移的小规模和大规模试验分析

通过这些分析,我们改进了博客质量分的计算,近期推出了博客质量分V5,V5版本在解决博客质量可计算方面的能力基础上,进一步增加了可解释性,让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升,这也是平台生态长期良性发展的基石。

我们的同事对此会有独立博客介绍: 博客质量分计算——发布 version 5

在这里插入图片描述

9. CSDN统一标签的持续改进

当然,我们在技术内容分类器上的传统强项也在持续改进。CSDN的技术分类:

  • 能保持最新
  • 准确性靠谱

作为一个技术站点,全的新的技术分类体系和准确性,是打底的能力。

小结

实际做的工作远不止这些,有重大技术突破的时代,是一个最好的时代,希望大家都能走的更远,创造更多好的技术和产品。Be greater than average! 希望能有这个勋章!

在这里插入图片描述

–end–

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/37359.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vulnhub靶机渗透:PWNLAB: INIT

PWNLAB: INIT 靶机环境介绍nmap扫描端口扫描服务扫描漏洞扫描扫描总结 80端口目录爆破LFI利用 3306端口回到80端口文件上传 获得立足点横向移动提权总结参考 靶机环境介绍 https://www.vulnhub.com/entry/skytower-1,96/ 靶机IP:192.168.56.103 kali IP&#xff…

Linux信号机制

转自:深入理解Linux信号机制(1.0)_城中之城的博客-CSDN博客 一、信号机制概览 相信大家对信号并不陌生,很多人都用过kill命令或者CtrlC组合键杀死过进程,或者遇到过程序因为收到SIGSEGV信号而崩溃的。而对信号的基本原理,估计很…

含多类型充电桩的电动汽车充电站优化配置方法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

cloud Alibab+nacos+gateway集成swaggerui,统一文档管理(注意点)

首先说明&#xff1a;本文只说整合注意点 效果图和功能参考链接 1.使用gateway访问nacos服务&#xff0c;503 在网关服务添加依赖即可解决 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign&…

一款玩法十分经典的RPG游戏《QQ宠物大乐斗2》

文章目录 1.介绍2.界面介绍2.1游戏主界面&#xff1a;2.2出城界面&#xff1a; 3.战斗系统3.1主动战斗3.2被动战斗 4.技能系统4.1主动技能4.2被动技能4.3五神技狂龙傲天拳惊天混元掌灵气寒霜指道威无极真气八卦迷踪腿 5.道具系统6.装备系统6.1装备品质6.2装备展示6.3装备获得方…

MySQL---表数据高效率查询(简述)

目录 前言 一、聚合查询 &#x1f496;聚合函数 &#x1f496;GROUP BY子句 &#x1f496;HAVING 二、联合查询 &#x1f496;内连接 &#x1f496;外连接 &#x1f496;自连接 &#x1f496;子查询 &#x1f496;合并查询 &#x1f381;博主介绍&#xff1a;博客名…

C++之重写基类虚函数添加override区别(一百六十二)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

C#打印十六进制的代码

代码为&#xff1a; for (int k0; k<16; k) {Console.Write($"{buf[k]:X2}_"); } System.Console.Write("\n"); 输出效果如下&#xff1a;

Ceph 存储(最详细!)

目录 一&#xff1a;存储基础 1、单机存储设备 &#xff08;1&#xff09;DAS&#xff08;直接附加存储&#xff0c;是直接接到计算机的主板总线上去的存储&#xff09; &#xff08;2&#xff09;NAS&#xff08;网络附加存储&#xff0c;是通过网络附加到当前主机文件系统…

奇迹MU架设教程:SQL Server 2008数据库的安装教程

不管是搭建什么游戏&#xff0c;都是有数据库的&#xff0c;奇迹MU用的是SQL 数据库&#xff0c;根据服务器系统选择SQL server版本&#xff0c;我比较喜欢用Windows server 2008R2系统&#xff0c;所以我安装的是SQL server 2008。作为架设奇迹很重要的数据库程序&#xff0c;…

暑假第七天打卡

离散&#xff1a; 主析取范式和主合取范式的应用&#xff1a; &#xff08;1&#xff09;求公式成真与成假赋值&#xff1a; 化为主析取范式后&#xff0c;下标化为二进制就是成真赋值&#xff0c;不在下标里的就是成假赋值 化为主合取范式后&#xff0c;下标化为二进制就是…

【C++】模板(函数模板与类模板)讲解

本篇文章会对C中的模板进行讲解&#xff0c;其中会对函数模板和类模板进行讲解。希望本篇文章会对你有所帮助。 文章目录 一、函数模板 1、1 模板的引入 1、2 函数模板举例讲解 1、2、1 函数模板的概念 1、2、2 函数模板格式 1、2、3 函数模板实例化 1、2、4 模板参数的匹配原则…

栈--C语言实现数据结构

本期带大家一起用C语言实现栈&#x1f308;&#x1f308;&#x1f308; 一、栈的概念&#x1f30e; 栈是一种常见的数据结构&#xff0c;它遵循后进先出&#xff08;Last In, First Out&#xff09;的原则。可以将其类比为现实生活中的一摞书或者一叠盘子。 栈由一个连续的内…

Mac环境下安装nginx并本地部署项目

1、前提 必须安装了homebrew&#xff0c;可在终端输入命令brew -v查看是否已经安装&#xff0c;如果输入指令出现版本号说明已经安装成功 如果未安装先安装&#xff08;homebrew官网地址&#xff09; /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/H…

神经网络之VGG

目录 1.VGG的简单介绍 1.2结构图 3.参考代码 VGGNet-16 架构&#xff1a;完整指南 |卡格尔 (kaggle.com) 1.VGG的简单介绍 经典卷积神经网络的基本组成部分是下面的这个序列&#xff1a; 带填充以保持分辨率的卷积层&#xff1b; 非线性激活函数&#xff0c;如ReLU&a…

1、Redis入门与应用

Redis入门与应用 Redis的技术全景 Redis一个开源的基于键值对&#xff08;Key-Value&#xff09;NoSQL数据库。使用ANSI C语言编写、支持网络、基于内存但支持持久化。性能优秀&#xff0c;并提供多种语言的API。 我们要首先理解一点&#xff0c;我们把Redis称为KV数据库&am…

优化SQL查询实现高效数据检索(一)

大家好&#xff0c;SQL&#xff08;结构化查询语言&#xff09;可以帮助大家从数据库中收集数据&#xff0c;它是专为此而设计的&#xff0c;换句话说&#xff0c;它使用行和列来处理数据&#xff0c;让使用者能够使用SQL查询来操作数据库中的数据。 SQL查询 SQL查询是一系列…

Nginx Linux安装

参考 : http://test.runoob.com/w3cnote/nginx-install-and-config.html 点击跳转 下载安装包 - 这里选择的是 nginx-1.6.3 pgp 网址 : http://nginx.org/en/download.html 点击跳转 2. 上传Linux - 这里新建了临时文件夹 mkdir /usr/local/tmp 3. 解压 tar -zxvf nginx-1.6.…

Springcloud基础(4)-Ribbon负载均衡

负载均衡 1. Ribbon简单描述2. 在SpringCloud中查看相关处理源码3. ribbon的默认策略&#xff0c;懒加载3. 实操中的相关问题 1. Ribbon简单描述 Spring Cloud Ribbon 是一套基于 Netflix Ribbon 实现的客户端负载均衡和服务调用工具。Ribbon是Netflix发布的开源项目&#xff0…

手机快充协议

高通:QC2.0、QC3.0、QC3.5、QC4.0、QC5.0、 FCP、SCP、AFC、SFCP、 MTKPE1.1/PE2.0/PE3.0、TYPEC、PD2.0、PD3.0/3.1、VOOC 支持 PD3.0/PD2.0 支持 QC3.0/QC2.0 支持 AFC 支持 FCP 支持 PE2.0/PE1.1 联发科的PE&#xff08;Pump Express&#xff09;/PE 支持 SFCP 在PP…