chatgpt训练

  • 10分钟教你如何使用ChatGPT定制行业专属问答QA

    最近看到有大佬在研究私有化GPT和智能问答,觉得挺有意思的,花了两天研究了一下,大概写了一个Demo 希望通过这篇文章,可以链接到一些圈友,共同探讨AI应用 一、ChatGPT在QA问答场景目前存在的问题 首先如果ChatGPT作为一个聊天助理,如果单纯从聊天的场景来看,是完全合格的 但是如果我们想要ChatGPT做一些个性化的回答,比如基于某个产品特性,去精确回复用户的某些问题,这个目前还是比较麻烦的 举个?: 可以看到如果需要ChatGPT去回答这些问题,需要提供一些精确的上下文。但是实际场景问题可能很多,比如问:洗衣机脱水时长要多久,洗衣机最多可以洗几件衣服、洗衣机长宽高是多少等等 如果每次都把这些上下文一股脑的塞给ChatGPT,在API调用中实际消耗token费用是非常大的 二、解决这个问题思路 目前我所了解到的,解决这个问题的思路都大差不差 就是对「资料库」和「提的问题」做一些预处理,考虑到圈友大多不是技术出身,我尽可能用大白话描述清楚 假设我们有一些关于洗衣机的使用说明(随便生成的一批): 处理逻辑思路如下: 可以看出,通过这一套流程,不用每次都向ChatGPT投喂全量的数据 因此可以极大的节省Token数量,并且经过测试,实际运行后响应挺快 从这四个步骤可以看出,我们要解决的问题已经转变成:如何从一大批数据中,筛选其中的某几段,投喂到ChatGPT当中 三、实操环节 这部分可能需要一点动手能力,以及需要有梯子、openai的key 懒得动手的圈友可以看个思路,或者直接跳过即可 文末有体验环节~ 这部分数据,一般需要和实际应用场景相结合,比如是:某本手册的说明书、某个社群的QA库、电商客服常用的话术等 这部分数据没有的话,可以直接让ChatGPT写一批,可以得到类似的一批数据 拿到的数据不一定能直接用,可能存在非常多的错误,这部分就需要专门做一次数据清洗 比如删掉一些奇怪的符号:@?! 等 清洗的步骤很多,这里就不细列出 我这里偷了个懒,数据没怎么清洗,原封不动的拿来用了 最后整合数据成一个txt文件,命名为:data.txt(名字无所谓随便取) 这一步给大家画个图,简单理解一下原理(太深的需要一定的技术功底) 暂时无法在飞书文档外展示此内容 其中向量化可能大家比较陌生 简单理解就是:原始数据以及问题被转化成了下面这样 计算机可以通过这一大串数字,去计算「用户提的问题」和「准备的原始数据」的相似度(看不懂是吧,跳过跳过~) 实操环节 这一步就需要涉及到代码编写了,需要两个前置条件 到这里已经准备的差不多了,接下来就可以输入问题向ChatGPT提问了 到目前为止,目录结构应该是长这样的 更新main.py的代码为 命令行运行:python main.py,既可以拿到结果。 可以看出,其实核心就是构建一个Prompt,填入匹配到的文本段以及用户的问题 四、效果展示 这里简单得给大家展示一下效果 五、总结 可以看到目前跑出的效果,在数据量不多的情况下,匹配的还算顺利 数据量多的情况,我也没测试过,效果可能会弱一些 应用到实际应用场景,可以节省大量的人力资源,毕竟招聘一个客服人员去回复消息,成本并不低

    June 7, 2023
    146