前言:
在把gpt等自然语言模型融合到底层的时候,我遇到了数不清的困难,虽然大多都解决了,但仍有一些硬伤。在这个过程中,我也总结出了相当多的经验,gpt可以把自然语言翻译成自然语言,一般用于给c端用户直接看是比较不错的,但想用于B端企业服务,尤其是处理数据和大量文本的时候,则漏洞百出相当不可靠。于是我总结出了一整套用gpt做底层的坑和解决办法。
但目前,我遇到了一个比较让人头疼的问题,解决方案是非常麻烦且代价高昂的,那就是大型文本的解析。这是意料之外也是必然发生的...
正文:
总结一下这个问题:当你给的简历文案越多的时候,gpt的解析结果就越偏越不准。这是作为底层数据,来用我亲手写的上百个算法套用的数据,如果不准确甚至连格式都是各种语法错误,那真的是一场灾难。
原因其实也很简单,我们知道,AI模型的基本结构是很多个中间节点,中间节点有多少层?每层是干嘛的? 每层又有多少个?这些决定了最终的输出结果。
当你文案很少的时候:它大概是这样的
也就是说,它中间的节点很少,tokens也少。所以跑偏的概率是很低的,即便跑偏也不会太偏,我们通过算法可以轻松过滤或者矫正。
但如果你的文案很多,那么动态的模型需要的节点就是这样的:
每一层都有自己的负责,最终生成的答案就和你预期的相去甚远。
就比如我现在用的简历平台,在添加项目经验之前,解析成功率可以达到:80%以上。
但是再添加上几千个项目经验的字符后,成功率直接下降到20%以下,每次不是把项目经验当做工作经历,就是很难提取成功项目经验内的各种信息。连格式都会出现很多错误。
在如此复杂的信息下,gpt的极限也就这样了。短视频那些AI博主们天天演示吹爆的,无非都是些极小的简单事务,稍微上点强度,基本全都要翻车了。
这个情况,不知道以后的gpt5.0会不会有改善,但是考虑到gpt已经学光了人类的所有知识,这个快速成长期估计也就此过去了,后面很难有本质的提升了。但是我们作为测开工程师,一定不能放弃,更不能坐等新的gpt出山。办法目前有以下几种:
1. 拆分文案:把大段的完整文档,拆分着让gpt来解析。成功率自然会恢复到较高水平,但这里的问题是,我们用算法自动拆分,还是人工手动拆分。其实就拿简历来说,人手工拆分是很方便的。毕竟人一眼就可以看出来从哪拆,但是要很麻烦,起码要在页面粘贴多次简历内容。算法拆分的话,就是要上难度了,固定算法的拆分如果是对单一固定文档那还是很简单的,但是面对各种各样的简历,那就有些困难了。
2. 多重试验:虽然大段文档的解析成功率降低了,但是毕竟还是有成功率的,可以写个循环来多次解析,直到成功。这样的好处是逻辑简单,但坏处也很明显:够笨,够慢,成本翻几倍。
3. 过程矫正:一开始仍然是给gpt完整的大文档,但每次不要问太多需求,而是转而变成单一的问题,然后对结果不断的进行校正,促使gpt走出预期中的那条解析路线。这样的好处是快捷方便够精准。但是坏处依然不少:请求成本巨大,且速度较慢,写大量过程矫正算法是很大很重的活。
以上,其实针对现在要做的简历优化平台,最好的方案是什么?
其实,产品思维告诉你,最好的方案是,人工拆分。即精准,又没增加什么成本。
相当于gpt帮你解析了99%,对gpt最难的1%让人来提前解决,对人来说就是举手之劳,但却可以让gpt获救。有的同学一定会说,那人来拆,是不是用户就麻烦了。
回答你:其实,相比较一开始的设计(随便上传份简历就能解析)来看,确实要麻烦一些,所以我们只能想办法改变思路,把麻烦的事变成好的事。
具体怎么做呢?
那就是干脆前端交互大改版!让用户一段一段的优化,然后平台帮用户生成最新的优化后的简历 供其下载!这样用户就可以在线更改建立完成剩余工作,一站式解决了!
就像这样:
用户每粘贴进一段,点击对应的优化按钮,然后右侧生成其针对这段的优化建议,还有根据建议生成的新段落文案,然后再去搞下一栏。最后点击下载,直接平台帮你生成一份新的简历,然后你自己再根据我的建议随便改改就好了,最后把简历内名字等改成自己真实的,就可以直接拿去投简历了~
虽然在增加复制粘贴次数上带来了些许麻烦,但在线精准多次优化直到最后下载完美的一份简历 这个好处 ,这就又找补回来了。
产品思维有时候也受到底层技术限制,当底层实在无法突破的时候,产品经理会用自己的新设计来转移痛点,化痛点为爽点。而且这个设计也会更加精准和专业,之后可以进行更多的升级空间。