后面我研究了一下,简单来说就是,大模型在处理复杂表格时,对“值”的理解远优于对“结构/位置”的理解,这是其核心短板。如果你只是发给它一份方案、几份简历,那它的理解力确实不错,很快就能像讲故事一样把要点讲出来。但是,在工作中,我们遇到的文件往往没有这么简单,它们有不同的章节,不同的层级,还有不同的文件格式,互相嵌套。例如一份财务报告,就包含了 8 大章 24 节 68 小点,其中还有 32 张配图以及 10 张表格,如此复杂的文档,会加速破坏 AI 理解能力。
还有一个问题就是文章的篇幅。虽说现在大模型的上下文窗口,已经能容纳百万字的小说了,把《魔戒》三部曲放进去都不成问题,可“能容纳”跟“可理解”是两个问题。如今市面上大部分的模型,理解力都相当有限,篇幅一长,后面的内容它就读不进去了,或者读一半忘一半,这时候你让它写个人物小传,甚至问它一个事件评价,它的回答都是顾头不顾尾的。
所以,平时我让大模型给我填表的时候也是这样的,它能填对内容,但是容易填错位置,而且越长的表格,错误越多,填错一个位置,手动修改特别麻烦,不如人工填了。
而且,这种问题,还是“不分模型”的。市面上有名的模型我都尝试过,或多或少都存在这个问题,越是能力差的模型,到后面越明显。
https://imgur.com/a/Guu8GR2
问题说到这里,那该怎么解决呢?
指望大模型自己进化?那恐怕是指望不上了。识别结构和层级这种事情,跟大模型“Next Token Prediction”的底层范式不一致,无论怎么进化,大模型都是要从头到尾进行识别,而非基于结构层级。
使用传统软件解决方案?传统软件不够智能,成本对于小公司来说也太高了。而且,到目前我也没有找到特别合适的方案。
总不能回归人力手搓吧?
所以,我的解决方案就是,将计就计,根据大模型的这种特性,自己做了一个填表工具,去补齐它的短板。
思路是这样的:
首先,识别并拆分文档中的独立章节,然后分批将章节内容提交给大模型处理,避免大模型“理解力超载”。其次,填表工具会把“工作经历”、“学习经历”这种需要连续多行输入的区域给识别出来,并把它们跟其它部分拆开,避免大模型混淆。此外,填表工具还会根据用户画像(如基本信息等)自动判断哪些地方是需要填的,哪些地方不用填,提高干活的精确度。
以一张大约 200 个空格的用户信息表为例,有了工具的加持,现在大模型 1 分钟就填完了,比之前快了 5-6 倍,节省了大量的 Token ;准确率也达到 90%以上,秒杀单独使用大模型填表的时候。更不用说它还能识别不同类型的资料,省得我在不同的文档格式之间转来转去了。
大家觉得有用的话,可以试用一下: https://www.gosnapfill.cn/landing?utm_source=v2ex

