小红书-社区搜索部 (NLP、CV算法实习生) 一面面经

😄 整个流程按如下问题展开，用时60min左右面试官人挺好，前半部分问问题，后半部分coding一道题。

各位有什么问题可以直接评论区留言，24小时内必回信息，放心~

文章目录

1、自我介绍
2、介绍下项目：微信-多模态小视频分类
- 2.1、看你用了cross-att来融合多模态信息，cross-att是怎么做的？
- 2.2、如何处理文本，ocr，asr输入模型？
3、resnet和vit区别在哪？
4、swin-trm相比vit做了什么改进？
5、有无对ocr，asr里的噪音进行处理？
6、有无关注类别里的长尾问题？如何处理的？
7、focal-loss原理？
8、trm里的位置编码和bert里的位置编码的区别？
9、介绍下项目：京东-商品标题实体识别？
10、标题中实体堆叠紧密，实体前后未必有强烈的上下文语义信息，怎么针对性解决？采用的模型结构有针对这方面吗？
11、对新词，也就是训练集里没出现过的词，有处理吗？
12、有无考虑采用匹配类的方法，用词库来做实体匹配？效果会不会更好呢？知识注入类的NER方法有无了解？
13、coding部分：无重复字符的最长子串
14、互问阶段

1、自我介绍

2、介绍下项目：微信-多模态小视频分类

2.1、看你用了cross-att来融合多模态信息，cross-att是怎么做的？

2.2、如何处理文本，ocr，asr输入模型？

3、resnet和vit区别在哪？

4、swin-trm相比vit做了什么改进？

5、有无对ocr，asr里的噪音进行处理？

6、有无关注类别里的长尾问题？如何处理的？

7、focal-loss原理？

8、trm里的位置编码和bert里的位置编码的区别？

9、介绍下项目：京东-商品标题实体识别？

10、标题中实体堆叠紧密，实体前后未必有强烈的上下文语义信息，怎么针对性解决？采用的模型结构有针对这方面吗？

11、对新词，也就是训练集里没出现过的词，有处理吗？

12、有无考虑采用匹配类的方法，用词库来做实体匹配？效果会不会更好呢？知识注入类的NER方法有无了解？

13、coding部分：无重复字符的最长子串

在这里插入图片描述
滑动窗口+哈希表解决：

class Solution:
    def lengthOfLongestSubstring(self, s: str) -> int:

        # 滑动窗口：记录无重复字符的最长子串
        win_dict = dict() 
        # 记录滑动窗口最左端
        left = 0 

        max_len = 0

        for i in range(len(s)):
            if s[i] in win_dict.keys():
                if win_dict[s[i]] >= left:
                    left = win_dict[s[i]] + 1 # 更新左边界
        
            win_dict[s[i]] = i
            max_len = max(max_len, i-left+1)


        return max_len