apachehadoop官网,hadoop官网文档
- 数据库
- 2023-08-13
- 233
大家好,如果您还对apachehadoop官网不太了解,没有关系,今天就由本站为大家分享apachehadoop官网的知识,包括hadoop官网文档的问题都会给大家分析...
大家好,如果您还对apachehadoop官网不太了解,没有关系,今天就由本站为大家分享apachehadoop官网的知识,包括hadoop官网文档的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!
hadoop表名规则
为了避免底层业务变动对上层需求影响过大,屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层呈现业务数据,建设高内聚松耦合的数据组织,使数据从业务角度可分割,显得尤为重要。从整个集团业务条线出发,形成数据仓库总体概念框架,并对整个系统所需要的功能模块进行划分,明确各模块技术细节,建设一套完整的开发规范。
分层规范
ODS(原始数据层):也被称为贴源层,ODS层是数据仓库准备区,为DWD层提供基础原始数据。
DWD(明细数据层):和ODS粒度一致的明细数据,对数据进行去重,脏数据过滤,空处理,保证数据质量。
DWS(服务数据层):轻度汇总数据及建宽表(按主题)存放数据。
ADS(应用数据层):存放应用类表数据。
ODS-DWD-DWS-ADS
ODS-DW(轻度数据汇总层、高度数据汇总层)-DM(数据集市)
表规范
命名
维表命名形式:dim_描述
事实表命名形式:fact_描述_[AB]
临时表命名形式:tmp_正式表名_[C自定义序号]
宽表命名形式:dws_主题_描述_[AB]
备份表命名形式:正式表名_bak_yyyymmdd
表命名解释:
1)表名使用英文小写字母,单词之间用下划线分开,长度不超过40个字符,命名一般控制在小于等于6级。
2)其中ABC第一位"A"时间粒度:使用"c"代表当前数据,"h"代表小时数据,"d"代表天数据,"w"代表周数据,"m"代表月数据,"q"代表季度数据,"y"代表年数据。
3)其中ABC的第二位"B"表示对象属性,用"t"表示表,用"v"表示视图。
4)其中ABC的第三位"C"自定义序号用于标识多个临时表的跑数顺序。
注释
注释要结合表的英文名,要求注释简洁明了,体现出表的业务出处、主题和用途。
存储格式
所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了方式,那么在向表中插入数据的时候,将会使用该方式向HDFS中添加相应的数据类型。在数仓中建表默认用的都是PARQUET存储格式,相关语句如下所示:
STOREDASINPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
字符集
Hadoop和hive都是用utf-8编码的,在建表时可能涉及到中文乱码问题,所以导入的文件的字符编码统一为utf-8格式。
约定
理论上在数仓落地的表不应该出现null未知类型,对于可能出现null的字段,如果为字符型统一为空字符串,如果是数值则给0。
字段规范
命名
1)使用英文小写字母,单词之间用下划线分开,长度不超过30个字符,命名一般控制在小于等于4级;
2)和源数据ods层表字段名一致,如为新增字段,尽量言简意赅;
3)英文名尽量专业,符合业界要求,不得使用汉语拼音;
4)尽量避免使用关键字。如无法避免,使用”`”转义;
5)指标字段能使用缩写的尽量使用统一的缩写,如申请金额统计apply_amt_sum。
注释
注释本着简洁、详实、完整的原则,对于有业务含义的字段,在注释中需要枚举并解释其业务含义,如ods_loan_apidata_order_info.order_status订单状态:1待支付,2支付不成功,3支付成功;
类型
日期时间等格式统一用string类型,字符串也是用string,数值的话,会根据字段定义来确定,对于有小数点要求的,比如某些金额、利率,需要用到decimal类型,无小数点要求的用浮点类型double和整数类型(int,bigint)。
代码规范
sql编码
1)关键字右对齐,代码注释详尽,查询字段时每行不超过三个字段,缩进时空四格等相关书写规范。
2)明细数据层依赖于ods层,应用数据层依赖于服务数据层,原则上,不允许跨层查询。
3)如果SQL语句连接多表时,应使用表的别名来引用列。
4)WHERE条件中参数与参数值使用的类型应当匹配,避免进行隐式类型转化。
5)在SELECT语句中只获取实际需要的字段。
shell脚本
调度脚本主要是通过跑shell脚本,shell脚本的注意点:
1)命名与所跑的目标表名相同,注释要完善,后缀以.sh结尾。
2)脚本头需要加上分割线、作者、日期、目的、描述等信息。
学Hadoop需要哪些基础知识来支撑
Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。本简要教程提供了大数据,MapReduce算法和Hadoop分布式文件系统的快速介绍。
适合人群
本教程为希望通过HadoopFramework学习大数据分析基础知识并成为Hadoop开发人员的专业人员准备。软件专业人员,分析专业人员和ETL开发人员是本课程的主要受益人。
预备知识
在开始本教程之前,我们假设您已经接触过CoreJava,数据库概念和任何Linux操作系统。
HadoopAPI类库
更多HadoopAPI详细内容,请参考:HadoopAPI类库http://codingdict.com/article/8105
Hadoop教程内容导航
ambari可以装apache版本的hadoop吗
之前有做过这种尝试,为此还看了Ambari的具体实现,对里面的部署过程进行了一些干预,最后是部署成了ApacheHadoop
1.
2.1,但就HDFS功能正常,MapReduce是跑不起的,最后结论就是用Ambari的话,还是老老实实地装HDP吧,除非深入了解Ambari,然后改写它,但这样的话,还不如自己开发个自动部署ApacheHadoop的程序来的快些。
hadoop是哪个公司研发的
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
于2006年2月,成为一套完整而独立的软件,并被命名为Hadoop。到了2008年年初,hadoop已成为Apache的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司
apache doris 依赖hadoop吗
是的,ApacheDoris(以前称为Palo)是一个开源的分布式SQL数据仓库,它依赖于Hadoop生态系统。它使用Hadoop的分布式文件系统(HDFS)来存储数据,并使用Hadoop的计算框架(如MapReduce或ApacheSpark)来执行查询和分析操作。因此,要使用ApacheDoris,您需要先安装和配置Hadoop集群。
hadoop是由什么开发的
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(DistributedFileSystem),其中一个组件是HDFS(HadoopDistributedFileSystem)。
关于apachehadoop官网和hadoop官网文档的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
本文链接:http://www.xinin56.com/su/1713.html