最近有个任务需要从前端抓取一些数据转换为 json ,由于格式多变,所以打算让大模型来自动化转换成 json 。试了下文心一言的 api 发现无论如何都会有输出格式不严谨的情况,导致不能从字符串转为 json. 请问有哪个大模型版本在这方面表现是比较稳定的吗
Gemini 1.5 flash/pro 用 JSON mode ,根据我几千次的测试来看 100%返回 JSON, 大约 0.5%的情况下会出现返回数组而不是 object 的情况,不过这可能跟我的 prompt 有关。GPT 4o/4o mini 虽然我没试但应该也差不多,理论上应该更好。 估计原生支持 JSON mode 的 LLM 都没问题,针对 JSON 进行过专门优化
LLM 不可能完全绝对严格,有几种做法: 1. 换一个更好的模型... 2. 选择验证相对松散的验证,当然也仍旧会有概率有问题,但会比 JSON 低 3. 提升 prompt 尝试保证更强的输出,当然这对底模有要求,底模也要单独优化过