数据开发纯小白,想问个问题

查看 65|回复 4
作者:macvis   
hdfs 可以存储文件对象,就是 jpg doc xls avi 这种纯文件,
hadoop 具有 hdfs 文件系统管理功能,
hive 则是 hadoop 的 hql 管理版增强包,
那么推论则是,hive 可以通过 hql 来管理 hdfs 内的文件对象
但是呢,我看 hive 的建表文件一定要有个分隔符,而且不管是 textfile 还是 sequencefile 都要有分隔符,要么逗号要么\001 ,那么 hive 在写入数据是一定会去解析文件吗?
换言之,如果我想用 hive 来实现文件对象的管理,就是用 hql 来查询文件对象,即 doc xls jpg 这种纯文件,hive 能实现吗

Hive, 文件, hdfs, hql

liprais   
你要读 excel 自己写个 serde 就行了
hive 管理的是数据不是文件,jpg 你也可以当成数据,不过没啥意义
macvis
OP
  
@liprais 突然明白了,我不必拘泥于文件格式,写入读取时关注序列化与反序列化,要存取什么使用对应的 serde 就好了,对吧
Alias4ck   
你这种非结构化的数据 ,hive 是无法处理的,
对于传统的 RDBMS 处理这种数据的方式也是基本存储对应的文件路径,也不会直接解析二进制数据
你真的想在 hadoop 上存储这个的话 ,你可能需要的是 hbase 或者 es
不过主流方案也是存储它在 hdfs 上面的路径吧
rrfeng   
hdfs 是 ext4
hive 是 mysql
这样对比是不是容易理解了
您需要登录后才可以回帖 登录 | 立即注册

返回顶部