为什么大模型API开发特别难？从聊天程序的进步就能看出来,模型大型

最近三年，感觉大模型聊天进步太大了！一开始就是纯聊天，幻觉一堆，我几下就看出这东西不靠谱。它就是对一段输入概率输出，看着是接上了话，信息质量堪忧。

那时以为大模型就是聊天，我们直接和大模型聊天。有点看不上，还是我们厉害，靠谱，能看出大模型幻觉严重。很多人就是找大模型聊天逗闷子。

但是接下来，聊天引入了“联网搜索”一下厉害多了，信息质量飞跃。学术概念是RAG，搜索增强生成。

然后又引入了思维链，2025年初Deepseek展示了。输出之前先思考一段时间。

最近又进步到Agentic RAG，搜索几轮，感觉不对再搜，还能编程验证。然后还有原生多模态能力，直接输入图片视频真能理解。相关小工具、小模型不少。

最近发现还有记忆系统。在这个框子聊的，明显知道别的框子聊的东西，记住了用户的不少信息。

现在大模型聊天框已经非常靠谱了，信息质量很好，我很满意。当然还是会有问题，指出错误它会纠正。

最近一个领悟是，这不是基座大模型进步，而是主要是聊天“编排”程序的进步！也就是说，最简单的“聊天框”，也是一个很复杂的程序，调用了很多小工具、小模型，布置了很多，才能聊好。

至于基座大模型，只是API调用一下，提供基础能力，单独一个几乎是没法用的。

如果一个开发者，只会调用API调用，那很可能干不出什么。更困难的是整个编排配套，如何准备好输入context，处理输出。还有调用大模型的agent任务能力，都不简单。

如图，大模型开发者做个“聊天框”都很难。远比想象的难多了，要做的事一堆，最后才能放心调用大模型API，给出不错的输出。

大模型API编程真很难，不要小看，不是一般编程。好处是一般编程难度大幅下降，直接聊天问大模型怎么编就行了。

这里也能看出大模型的“智能”，主要是是模拟出来的。如果只是一个基座大模型API，大家去调用聊天，马上就会发现这也太差了，根本不智能。

外界觉得大模型厉害，还是大模型公司包装了各类功能，不断打磨细节，把聊天、深度调研、文档、编程等功能都做的不错了。做这些功能，需要调用细节配套，也需要训练大模型配合。如某个特殊工具调用，需要大模型来给出计划。