这是 pubmed 2023 年的 baseline 数据库(一堆 gz 格式的 XML 文件),我全部下载到本地后,光 gz 文件合起来就超过 40G 大小了,全部解压后估计要 500G 左右。我正式工作中一直是做前端的,这么大的数据量第一次碰到。
请问如果我想做搜索和统计分析,应该如何处理呢?这种需要另外再转移到特定数据库里吗还是直接用文件系统到数据库(并发量不大,以读取为主,数据一年更新一次)。
读取数据是读取完一部分之后清掉内存占用,接着读取下一部分的内容吗(内存肯定不够加载所有内容,假定只有 8G 内存)。
有没有建议/思路可以参考。提前谢谢各位大佬。
——————
追加更新:这种服务,购买服务器配置最低需要什么样才能正常使用,是不是要买那些 1T 硬盘的。