最近三年,感觉大模型聊天进步太大了!一开始就是纯聊天,幻觉一堆,我几下就看出这东西不靠谱。它就是对一段输入概率输出,看着是接上了话,信息质量堪忧。
那时以为大模型就是聊天,我们直接和大模型聊天。有点看不上,还是我们厉害,靠谱,能看出大模型幻觉严重。很多人就是找大模型聊天逗闷子。
但是接下来,聊天引入了“联网搜索”一下厉害多了,信息质量飞跃。学术概念是RAG,搜索增强生成。
然后又引入了思维链,2025年初Deepseek展示了。输出之前先思考一段时间。
最近又进步到Agentic RAG,搜索几轮,感觉不对再搜,还能编程验证。然后还有原生多模态能力,直接输入图片视频真能理解。相关小工具、小模型不少。
最近发现还有记忆系统。在这个框子聊的,明显知道别的框子聊的东西,记住了用户的不少信息。
现在大模型聊天框已经非常靠谱了,信息质量很好,我很满意。当然还是会有问题,指出错误它会纠正。
最近一个领悟是,这不是基座大模型进步,而是主要是聊天“编排”程序的进步!也就是说,最简单的“聊天框”,也是一个很复杂的程序,调用了很多小工具、小模型,布置了很多,才能聊好。
至于基座大模型,只是API调用一下,提供基础能力,单独一个几乎是没法用的。
如果一个开发者,只会调用API调用,那很可能干不出什么。更困难的是整个编排配套,如何准备好输入context,处理输出。还有调用大模型的agent任务能力,都不简单。
如图,大模型开发者做个“聊天框”都很难。远比想象的难多了,要做的事一堆,最后才能放心调用大模型API,给出不错的输出。
大模型API编程真很难,不要小看,不是一般编程。好处是一般编程难度大幅下降,直接聊天问大模型怎么编就行了。
这里也能看出大模型的“智能”,主要是是模拟出来的。如果只是一个基座大模型API,大家去调用聊天,马上就会发现这也太差了,根本不智能。
外界觉得大模型厉害,还是大模型公司包装了各类功能,不断打磨细节,把聊天、深度调研、文档、编程等功能都做的不错了。做这些功能,需要调用细节配套,也需要训练大模型配合。如某个特殊工具调用,需要大模型来给出计划。