今天第一次体验到来自大语言模型的压力。

最近在做一个语义匹配的小任务,选择的方案是用2021年的SOTA模型SimCSE在我们的领域数据上先进一步预训练,然后再用任务数据finetune降维。前几天的时候还自我感觉良好,因为比之前的模型效果好,还修复了老语言模型的一些明显badcase。

但是今天,我们用openai的embedding模型也试了一下,recall指标直接翻了一倍。当时看到结果我都惊呆了。这个模型一千个token只要0.0004美元,相当的便宜,而且开箱即用。

之前我看到网上帖子说NLP工程师失业啥的还觉得有点夸张,现在感觉还真有可能。

首先这个事情是有正反馈的,作为一款公开的产品,而且这么便宜,你不用别人也会用,你如果没法超过他(现在看起来确实不容易),那就只能也用,不然产品竞争力就会出问题。

一旦大规模用,那很多NLP问题的处理范式真的会改变,以前大家在不同场景finetune类似bert这样的小模型,但现在可能会变成在OpenAI embedding基础上finetune最上面的输出层,例如分类层。一个底座可以支撑好几个上层需求。这样的话需要的人力大大减少,公司的inference负担也大大降低。虽然在OpenAI那花了些钱,但算下来大概率是比原来划算的。

当然这样的方案也有一些问题,例如公司的数据就都让OpenAI知道了,并且OpenAI目前不太稳定,稳定性上有点不可控。

那作为公司,感觉除了之前大家都看到的在NLG上投入大模型这条独木桥,未来在NLU上投入大模型的应该会有很多。自己跑个10B量级的模型作为底座,做到OpenAI的8、9成应该是个比较好的选择。朋友们,赶紧学起来啊,不然真要成为纺织女工了。