一面
没打招呼突击电话面试(30min)
- 地点ok?时间ok?(base杭州,暑期,全部ok ok ok)简单自我介绍一下,项目经历选一个说说?
- 项目中对于没有标签的数据,怎么处理,还有什么别的方法?(我用的远程监督,别的还有one-shot zero-shot label embedding)
- 假设一个情景题,微博创立初期,短文本,10w数据集,无监督,分类怎么做(我答的用label embedding做或者用embedding+聚类kmeans)
- embedding怎么实现?(fasttext or word2vec,不能用BERT,数据量大不合适)补充:你说的是词向量,句子向量怎么做呢(+average pooling最常用,还有别的方法没列举)
- 除了你说的方法,还有别的方法可以吗?U-learning听说过吗?(没听清?啥learing?这个真不知道,只听说过Q-learning)
- kmeans的k怎么选择,这么做效果好吗?为什么?(k不知道,具体情况具体分析吧(编不出来了),效果不好)
- 那如果不用聚类,别的方法怎么做,提示:抽取关键字(关键字抽取可以用词与句子做相似度匹配)
- 按你说的做不具有通用性, 那如果是长文本,又怎么做,有什么区别(长文本用词频统计+停用词过滤)
- 你没回答出我想要的答案,因为一个微博可能属于多个类别(多类别无监督分类)
- 快排知道吗?稳定不?(不稳定,因为会交换顺序)
- bagging、boosting知道吗?(知道,属于ensemble,叽里哇啦叽里哇啦)
- 用啥语言,用啥框架(python,pytorch)
- 反问:实习时间?
- 反问:表现如何?
- 个人体会:面试官人超好,很客气。感觉工程能力还有待提高,很多东西还是停留在理论上。kmeans自己挖的坑,无语了。。。后面问了大佬,这个情景题可能是LDA之类的主题模型,或者是手动标记数据,再训练。或者是用迁移学习。
二面
约好的电话面试(30min)
- 自我介绍,问论文(简单介绍一下)
- 问比赛,效果怎么样,名次之类的(问啥答啥)
- 二叉树有了解吗,遍历有哪些(前中后层次)项目用过哪些数据结构(好像没有,都是用python做的)
- 动态规划了解吗,解释一下,填表是怎么做的(吧啦吧啦)
- 操作系统了解吗?(本科学过,现在忘了。。)
- Linux会用吗(会,一般用来跑实验和配环境)Linux debug的时候怎么做的(我用的nohup,输出log日志来debug)
- 计算机网络学过吗?(本科学过,现在忘了。。)那学过哪些课(ML DeepL NLP)DeepL的课程作业有吗(没)
- BERT模型说一下,历史、演变说一下(RNN、LSTM、ELMo、Attention、Transformer、GPT、BERT、Auto-Encoder、Auto-Regression、Positional Encoder)
- 情感分析怎么做的说一下,对你后面有没有什么启发(根据项目说的,样本不均衡、评价指标等等)
- 别的语言会吗,java,c(本科学过,熟练度不高,现在捡起来很快)
- 有没有关注什么学术平台,或者线下的学术活动(知乎、群、机器之心、自己组织线下交流活动)
- 反问:表现如何
- 反问:钉钉这边的业务是什么
- 个人体会:面试官很客气,像聊天一样,很顺畅。