开发环境准备
最近换了 M1 MBP,新电脑开发环境需要从头部署,汇总一下我开发环境常用的工具吧。 环境支持 资源下载 下载 JDK 1.8 下载 Scala 2.11.12 安装说明 win10下jdk1.8安装和环境变量的配置 scala安装教程及简单配置 开发工具 IDEA -- 插件Cosy Ja ...
阅读更多
SQL中的行转列和列转行
MySQL 的行转列case when + group by + max/sum 函数 MySQL 的列转行select 指定语句 + union 拼接即可union 去重union all 不去重FLink 中 union 不去重,相当于 SQL中的 union all Hive 行转列# 基 ...
阅读更多
Awk和Shell
awk格式 awk [选项参数] 'script' var=value file(s) 基本语法 $0 代表整个文本行 $1 代表文本行中的第 1 个数据字段 printf 打印输出更负责 默认每行按空格或TAB分割,使用$n来获取段号 段连接符OFS awk ' ...
阅读更多
hive性能优化
基础优化 Shuffle 阶段压缩 hive的数据压缩 Snappy hive的数据存储格式 ORC TextFile fetch抓取 本地模式 join的优化 小表在前,小表放入缓冲区 谓词下推,先过滤再 join SQL优化的方案 列裁剪 分区裁剪 group by 优化 count ...
阅读更多
Hbase 无法删除表问题及解决办法
问题描述 正常删除表格的方法 # 禁用表disable "TRIPDB:trip_sample"# 删除表drop "TRIPDB:trip_sample" 但是操作过程中出现如下的问题 已经禁用表 hbase(main):005:0> disa ...
阅读更多
Hive数仓缓慢渐变维之拉链表
缓慢渐变维主要是为了解决, 是否需要在数仓中维护历史变化的数据操作 注意:如果不维护一个数据的历史变化信息, 那么在进行数仓分析的时候, 是有可能对未来分析的结果产生影响 实现缓慢维的3种方式 **SCD1**对于历史变化的数据, 是进行维护操作, 直接进行覆盖即可此种操作仅适合于对于错误数据处理* ...
阅读更多
牛客网SQL练习总结
补充知识补充知识整理1.一张表可以多次被引用使用2.筛选条件包含某个值, 这个值可以通过子查询求出, 再通过 where 条件判断3.子查询没有符合要求的条件会直接返回 null4.insert ignore into 相当于 replace5.创建视图格式: create view actor_ ...
阅读更多
Redis常见面试题
前言说明学习和整理 Redis 相关的知识当中,这里汇总了一下经常被问到的 Redis 面试题 Redis 的八股无外乎这三个:缓存穿透、缓存击穿、缓存雪崩。 分片集群问题1.Redis的多数据机制了解多少1.Redis支持多个数据库,单机模式下有从db0到db15, 数据库之间不能共享2.分片集群 ...
阅读更多
WordCount案例汇总
前言说明整理一下曾经学习技术栈练习过的 WordCount 案例,总之很多计算引擎的样例都是 WordCount 经典永不过时,使用的很多函数和方法也是常用的。 MapReduceMapTaskpackage com.test;import org.apache.hadoop.io.IntWrita ...
阅读更多
管理配置文件的工具:Commons Configuration
一般读取配置文件,或者说集群环境传参的方式有如下几种: 1、Main 程序留出参数入口,通过 args 接收参数,运行 jar 的时候传入参数 2、将配置文件放入 resources ,通过类加载器获取参数文件,或者创建专门工具类读取resources 中的配置文件信息 这两种方法各有优缺点,第一种 ...
阅读更多