七个很酷的GenAI LLM技术性面试问题

不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。

大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。

然而,尽管GenAI和LLM越来越常见,但我们依然缺少能深入理解其复杂性的详细资源。职场新人在进行GenAI和LLM功能以及实际应用的面试时,往往会觉得自己像是陷入了未知领域。

为此,我们编写了这份指导手册,收录了7个有关GenAI & LLM的技术性面试问题。这份指南配有深入的答案,旨在帮助您更好地迎接面试,以充足的信心来应对挑战,以及更深层次地理解GenAI & LLM在塑造人工智能和数据科学未来方面的影响和潜力。

1. 如何在Python中使用嵌入式字典构建知识图谱?

一种方法是使用哈希(Python中的字典,也称为键-值表),其中键(key)是单词、令牌、概念或类别,例如“数学”(mathematics)。每个键(key)对应一个值(value),这个值本身就是一个哈希:嵌套哈希(nested hash)。嵌套哈希中的键也是一个与父哈希中的父键相关的单词,例如“微积分”(calculus)之类的单词。该值是一个权重:“微积分”的值高,因为“微积分”和“数学”是相关的,并且经常出现在一起;相反地,“餐馆”(restaurants)的值低,因为“餐馆”和“数学”很少出现在一起。

在LLM中,嵌套哈希可能是embedding(一种将高维数据映射到低维空间的方法,通常用于将离散的、非连续的数据转换为连续的向量表示,以便于计算机进行处理)。由于嵌套哈希没有固定数量的元素,因此它处理离散图谱的效果远远好于矢量数据库或矩阵。它带来了更快的算法,且只需要很少的内存。

2. 当数据包含1亿个关键字时,如何进行分层聚类?

如果想要聚类关键字,那么对于每一对关键字{A, B},你可以计算A和B之间的相似度,获悉这两个词有多相似。目标是生成相似关键字的集群。

Sklearn等标准Python库提供凝聚聚类(agglomerative clustering),也称为分层聚类(hierarchical clustering)。然而,在这个例子中,它们通常需要一个1亿x 1亿的距离矩阵。这显然行不通。在实践中,随机单词A和B很少同时出现,因此距离矩阵是非常离散的。解决方案包括使用适合离散图谱的方法,例如使用问题1中讨论的嵌套哈希。其中一种方法是基于检测底层图中的连接组件的聚类。

3. 如何抓取像Wikipedia这样的大型存储库,以检索底层结构,而不仅仅是单独的条目?

这些存储库都将结构化元素嵌入到网页中,使内容比乍一看更加结构化。有些结构元素是肉眼看不见的,比如元数据。有些是可见的,并且也出现在抓取的数据中,例如索引、相关项、面包屑或分类。您可以单独检索这些元素,以构建良好的知识图谱或分类法。但是您可能需要从头开始编写自己的爬虫程序,而不是依赖Beautiful Soup之类的工具。富含结构信息的LLM(如xLLM)提供了更好的结果。此外,如果您的存储库确实缺乏任何结构,您可以使用从外部源检索的结构来扩展您的抓取数据。这一过程称为“结构增强”(structure augmentation)。

4. 如何用上下文令牌增强LLM embeddings?

Embeddings由令牌组成;这些是您可以在任何文档中找到的最小的文本元素。你不一定要有两个令牌,比如“数据”和“科学”,你可以有四个令牌:“数据^科学”、“数据”、“科学”和“数据~科学”。最后一个表示发现了“数据科学”这个词。第一个意思是“数据”和“科学”都被发现了,但是在一个给定段落的随机位置,而不是在相邻的位置。这样的令牌称为多令牌(multi-tokens)或上下文令牌。它们提供了一些很好的冗余,但如果不小心,您可能会得到巨大的embeddings。解决方案包括清除无用的令牌(保留最长的一个)和使用可变大小的embeddings。上下文内容可以帮助减少LLM幻觉。

5. 如何实现自校正(self-tuning)以消除与模型评估和训练相关的许多问题?

这适用于基于可解释人工智能的系统,而不是神经网络黑匣子。允许应用程序的用户选择超参数并标记他喜欢的那些。使用该信息查找理想的超参数并将其设置为默认值。这是基于用户输入的自动强化学习。它还允许用户根据期望的结果选择他最喜欢的套装,使您的应用程序可定制。在LLM中,允许用户选择特定的子LLM(例如基于搜索类型或类别),可以进一步提高性能。为输出结果中的每个项目添加相关性评分,也有助于微调您的系统。

6. 如何将矢量搜索的速度提高几个数量级?

在LLM中,使用可变长度(variable-length)embeddings极大地减少了embeddings的大小。因此,它可以加速搜索,以查找与前端提示符中捕获到的相似的后端embeddings。但是,它可能需要不同类型的数据库,例如键-值表(key-value tables)。减少令牌的大小和embeddings表是另一个解决方案:在一个万亿令牌系统中,95%的令牌永远不会被提取来回答提示。它们只是噪音,因此可以摆脱它们。使用上下文令牌(参见问题4)是另一种以更紧凑的方式存储信息的方法。最后,在压缩embeddings上使用近似最近邻搜索(approximate nearest neighbor,ANN)来进行搜索。概率版本(pANN)可以运行得快得多,见下图。最后,使用缓存机制来存储访问最频繁的embeddings 或查询,以获得更好的实时性能。

概率近似最近邻搜索(pANN)

根据经验来看,将训练集的大小减少50%会得到更好的结果,过度拟合效果也会大打折扣。在LLM中,选择几个好的输入源比搜索整个互联网要好。对于每个顶级类别都有一个专门的LLM,而不是一刀切,这进一步减少了embeddings的数量:每个提示针对特定的子LLM,而非整个数据库。

7. 从你的模型中获得最佳结果的理想损失函数是什么?

最好的解决方案是使用模型评估指标作为损失函数。之所以很少这样做,是因为您需要一个损失函数,它可以在神经网络中每次神经元被激活时非常快地更新。在神经网络环境下,另一种解决方案是在每个epoch之后计算评估指标,并保持在具有最佳评估分数的epoch生成解决方案上,而不是在具有最小损失的epoch生成解决方案上。

我目前正在研究一个系统,其中的评价指标和损失函数是相同的。不是基于神经网络的。最初,我的评估指标是多元Kolmogorov-Smirnov距离(KS)。但如果没有大量的计算,在大数据上对KS进行原子更新(atomic update)是极其困难的。这使得KS不适合作为损失函数,因为你需要数十亿次原子更新。但是通过将累积分布函数(cumulative distribution)改变为具有数百万个bins参数的概率密度函数(probability density function),我能够想出一个很好的评估指标,它也可以作为损失函数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/657351.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PHP:phpmyadmin 将查询数据导出csv

1、输入你的SQL查询出结果 2、查出数据以后拖到最下方【导出】 3、导出CSV

搜维尔科技:拒绝毒品行为能力评估与训练系统应用案例

用户名称:山西医科大学 主要产品:虚拟现实复吸风险评估与干预系统 虚拟现实复吸风险评估与干预系统主要是为了解决物质使用障碍患者在临床治疗及康复回归正常生活出现的高复发现象⸺对毒品失控的渴求难以预测控制的问题。 整套系统由软件和硬件两部分…

RK3568平台(camera篇)V4L2查询获取设置设备

一.查询设备能力VIDIOC_QUERYCAP struct v4l2_capability cap; ioctl(fd, VIDIOC_QUERYCAP, &cap) struct v4l2_capability 结构体描述了视频采集设备的 driver 信息。 struct v4l2_capability { __u8 driver[16]; // 驱动名字 __u8 card[32]; // 设备名字 __u8 bus_inf…

基础技术-ELF系列2-ELF文件进阶与libelf库

成就更好的自己 本篇是基础技术系列中ELF相关技术的第二篇,将会详细介绍一下ELF文件的结构。 没有看过之前的文章的朋友请重新开始,博主观点比较清奇,否则可能会有一些不太明白的地方: 基础技术-ELF系列(1)-ELF文件基础-CSDN博…

STM32Cube系列教程11:使用STM32 RNG硬件随机数模块生成彩票号码

文章目录 配置RNG模块编写代码获取生成的随机数运行测试 今天写段代码测试一下STM32U083RC的(RNG)硬件随机数模块 顺便写个小demo生成7位真随机数的彩票号码,帮助那些买彩票还有选择困难症的人群 (doge)(手动狗头)。 全部代码以上传到github:https://gi…

Java注释

Java注释有三种: ①单行注释:// 注释内容 ②多行注释:/* 注释内容 */ ③文档注释:/** 注释内容(有要求) */ 文档注释内容必须为 Javadoc标签。 一行一个,以*开头,加标签和标签内容。 例如:…

【RocketMQ】安装RocketMQ5.2.0(单机版)

下载 官网下载地址:下载 | RocketMQ github地址:Tags apache/rocketmq GitHub 选择对应的版本下载。https://dist.apache.org/repos/dist/release/rocketmq/5.2.0/rocketmq-all-5.2.0-bin-release.zip 5.2.0的二进制包:下载地址 5.2.0的…

Dolphinscheduler不重启加载Oracle驱动

转载自刘茫茫看山 问题背景 某天我们的租户反馈数据库连接缺少必要的驱动,我们通过日志查看确实是缺少部分数据库的驱动,因为DolphinScheduler默认只带了Oracle和MySQL的驱动,并且需要将pom文件中的test模式去掉才可以在打包的时候引入。我…

python mp3转mp4工具

成品UI 安装moviepy库 pip install moviepy 转换demo from moviepy.editor import *# 创建一个颜色剪辑,时长与音频相同 audioclip AudioFileClip(r"C:\Users\Administrator\PycharmProjects\pythonProject44\test4\赵照 - 灯塔守望人.mp3") videoclip…

基于FMEA保证汽车电控系统的可靠性

随着汽车技术的飞速发展,电控系统已成为现代汽车的“大脑”,掌控着车辆的方方面面。然而,这一复杂的系统也面临着诸多潜在失效风险,如何确保汽车电控系统的可靠性,成为汽车制造业亟待解决的问题。幸运的是,…

LCD屏入门(基于ESP32)

主要参考资料: B站【乐鑫全球开发者大会】DevCon23 #17 |HMI 智能屏解决方案 目录 1.LCD屏幕硬件层2.LVGL驱动层 1.LCD屏幕硬件层 MCU常用的驱动接口在下面,大致可以划分为串口屏和并口屏。 串口屏相较于并行屏优势是占用IO少,相…

TOPSIS综合评价

TOPSIS法(Technique for Order Preference by Similarity to an Ideal Solution)是一种常用的综合评价方法,该方法根据有限个评价对象与理想化目标的接近程度进行排序,是在现有的对象中进行相对优劣的评价。 TOPSIS法的原理是通过…

C++ | Leetcode C++题解之第117题填充每个节点的下一个右侧节点指针II

题目: 题解: class Solution { public:void handle(Node* &last, Node* &p, Node* &nextStart) {if (last) {last->next p;} if (!nextStart) {nextStart p;}last p;}Node* connect(Node* root) {if (!root) {return nullptr;}Node *…

oracle 12c DB卸载流程

1.运行卸载程序 [rootprimary1 ~]# su - oracle [oracleprimary1 ~]$ cd $ORACLE_HOME/deinstall [oracleprimary1 deinstall]$ ./deinstall Checking for required files and bootstrapping ... Please wait ... 这里选择3 、回车、y、y、回车、ASM 这里输入y 2.删除相关目录…

联想打印APP添加打印机方法

联想打印APP添加打印机操作方法: 1、在手机上下载“联想打印”APP; 2、打开“联想打印”APP,然后在软件内右下角找到“我的”图标并选择; 3、点击“请登录/注册”; 4、勾选“我已阅读并同意”然后在上面填写手机号码后&#xff0…

【NumPy】深入了解NumPy的multiply函数:高效矩阵和数组乘法指南

🧑 博主简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

09Django项目--用户管理系统--删

对应视频链接点击直达 09Django项目--用户管理系统--删 对应视频链接点击直达删a,本质b,删除 页面相关a,index页面新增操作按钮b,ajax删除和提示c,完整版本 OVER,不会有人不会吧不会的加Q1394006513结语 一…

IDEA2024创建maven项目

1、new->project 2、创建后展示 3、生成resources文件夹 4、测试--编写一个hello文件

参数高效微调PEFT(二)快速入门P-Tuning、P-Tuning V2

参数高效微调PEFT(二)快速入门P-Tuning、P-Tuning V2 参数高效微调PEFT(一)快速入门BitFit、Prompt Tuning、Prefix Tuning 今天,我们继续了解下来自清华大学发布的两种参数高效微调方法P-Tuning和P-Tuning v2。可以简单的将P-Tuning是认为针对Prompt Tuning的改进…

用大模型理解爆火的KAN网络

五一假期的时候,KAN突然成为了热门话题。虽然最初我并没有计划弄懂它,但在老板的要求下,我还是探索了一下。 一、KAN是什么? Kolmogorov-Arnold 定理是数学领域的一个里程碑,它揭示了多元函数能够通过一组更简单的函…