小程序里的 这种我能想到是在 img 上画 div 或者 map->area 标签,然后写入对应的英文。 通过 api 转成语音。(或识别文字) 但就说画 div 这一步,几百本书。。每页的图位置都不一样。这也太苦力了吧? 