请教下各位佬一个关于文件类型及处理流程方面的问题

查看 25|回复 0
作者:AboPlus   
场景:用户提交任务,后端调用算法求解器进行任务计算(两大类型的任务),然后求解过程中会陆续产生大量的结果数据,以 bin 文件及 json 文件的形式写在了本地,然后我会把 bin 文件以及 json 文件上传到云端存储桶中,然后把 json 文件的路径记到数据库中,我使用的是腾讯云的 COS 存储桶。
这两大类任务类型其流程分别是:
第一种:
[ol]
  • 会写出大量的 bin 文件和 json 文件,json 文件是对 bin 文件内容的一种解释
  • 前端使用时,同时发请求获取 bin 文件和 json 文件,根据 json 文件解析 bin 文件然后进行模型渲染
    [/ol]
    第二种:
    [ol]
  • 会写出一个 bin 文件和很多 json 文件,数据以追加的形式追加到 bin 文件中,json 文件是对 bin 文件的一种解释说明
  • 前端使用时,先获取 json 地址,然后通过 http range 去从一个 bin 文件中获取不同的数据片段
    [/ol]
    最近开始使用 http2 ,之前一直使用的 http1.1 发现情况 1 并发受阻非常慢,使用 http2 就解决了队头阻塞的问题,然后就发现换 http2 之后的瓶颈是带宽,就考虑提高带宽利用率,说白了就是 bin 文件能否继续优化,有什么其他的文件能够替换 bin 文件,让文件大小更小,这样传输就会更快
    最近几天在调研 parquet ,结果发现好像无法得知我想要的数据在 parquet 文件中的位置,这样就无法在云端直接通过 range 获取数据片段
    所以想请教下各位佬,有没有什么合适的文件格式满足下面几条条件:
    1.比 bin 文件更小(即拥有更好的压缩效果)
    2.能够直接从云端 cos 中获取数据片断
    3.适合频繁的数据追加操作
    4.高效的数据读取
    PS:类型一的任务不把所有文件写进一个 bin 文件中也是因为该类型会有频繁的增删改操作,在一个 bin 文件中难以处理数据
    这是我想到的方案,或者各位大佬有没有其他更好的方案提供,谢谢各位佬的观看!
  • 您需要登录后才可以回帖 登录 | 立即注册

    返回顶部