javahbase多线程（hbase多线程批量数据写入）

E安全 • 2024年3月30日 11:44:23 • Java • 阅读 50

本篇文章给大家谈谈javahbase多线程，以及hbase多线程批量数据写入对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、Hbase 客户端批量写入数据2、Java和大数据有什么关系,发展前景怎么样？3、学习java以后可以做什么？4、HBase优化四——HTable优化5、java是个什么东西，用来做什么的？6、hbase 的数据存储及Region变化（flush compaction spilt）和性能调优

Hbase 客户端批量写入数据

org.apache.hadoop.hbase.client.BufferedMutator主要用来对HBase的单个表进行操作。它和Put类的作用差不多，但是主要用来实现批量的异步写操作。

可以从Connection的实例中获取BufferedMutator的实例。在使用完成后需要调用close()方法关闭连接。对BufferedMutator进行配置需要通过BufferedMutatorParams完成。

BufferedMutator接收发送来的Put数据后，会根据某些因素（比如接收的Put数据的总量）启发式地执行Batch Put操作，且会异步的提交Batch Put请求。

BufferedMutator也可以用在一些特殊的情况上。多线程作业的每个线程将会拥有一个独立的BufferedMutator对象。

一个独立的BufferedMutator也可以用在大容量的在线系统上来执行批量Put操作，但是这时需要注意一些极端情况比如JVM异常或机器故障，此时有可能造成数据丢失。

官方源码路径：

Java和大数据有什么关系,发展前景怎么样？

一、 Java和大数据有什么关系？

大数据开发需要编程语言基础，Java是世界上应用最广泛的计算机编程语言，具有功能强大和简单易用两个特征，同时还具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。

Java具有的众多特性，特别适合作为大数据应用的开发语言，当下Hadoop以及其他大数据处理技术很多都是用Java，Java是大数据技术的主要支持言语，当下学大数据技术之前都会先学Java语言。

二、为什么要学习Java大数据技术？

学习Java的原因如下：

1、从各行业软件开发技术的生态圈来看：

(1)Java已经形成一种文化，有企业成熟的解决方案

(2)开源社区发展的强大，而Java在开源社设区占重要地位

(3)主流大数据框架hadoop、spark、HBase等离不开Java平台

2、从Java本身特性来看

(1)面向对象、跨平台，可以运行在Linux、Windows、Unix等系统上

(2)Java虚拟机发展非常成熟，在内存回收、并发处理、作为大数据和云计算平台等应用上有着不可替代的作用

3、在企业级的开发环境里，安全、稳定是硬道理，这方面Java有着不可替代的作用;另外还有其它很多优秀特性如多线程、分布式、函数式编程等。

学习大数据的原因：

(1)国家将发展大数据放在了战略地位，大数据前景无限;

(2)分布式存储和分布式计算框架hadoop、内存计算框架spark发展很成熟并在企业广泛部署;

(3)面向对象设计思想已经发展很成熟，自底向上的设计思想函数式编程发展的也十分成熟，海量数据并发处理技术也发展很成熟，非结构化数据的处理发展也很成熟等等，并且在企业广泛部署的主流框架大数据hadoop、spark上得到体现;

(4)海量数据的智能分析已被广泛应用，例如：推荐系统、金融风险预测、天气预报等等;

(5)人工智能的核心学科—机器学习，其中的深度学习算法已经具备处理“海量数据训练集”的条件、硬件的海量图形处理或者海量图片处理已经具备处理条件，如GPU、TPU，甚至现在已经研发出专门的AI芯片。

根据行业预测，2021年行业在Java大数工作岗位需求将激增，其中Java大数据工程师的缺口在14万到19万人之间，Java大数据工程师实习月薪一般在8000元左右。学Java大数据，前途跟钱途兼具。

学习java以后可以做什么？

java是一门应用非常广泛的计算机语言，发展是比较不错的。

学成之后的就业岗位还是非常多的，网页制作，软件应用，服务器应用等等，都是java可以做的。想要学好Java，需要有正确的学习路线，有坚持不懈的学习毅力，也需要有专业老师的指导，这样才能学得更好。那么，学习Java需要掌握哪些知识和技能呢？这里简单列举一些。

Java学习需要掌握的知识与技能：

1、Java SE部分初级语法，面向对象，异常，IO流，多线程，Java Swing，JDBC，泛型，注解，反射等。

2、数据库部分，基础的sql语句，sql语句调优，索引，数据库引擎，存储过程，触发器，事务等。

3、前端部分， HTML5 CSS3 JS， HTML DOM Jquery BootStrap等。

4、Java EE部分，Tomcat和Nginx服务器搭建，配置文件，Servlet，JSP，Filter，Listener，http协议，MVC等。

5、框架部分，每个框架都可以分开学，在去学如何使用SSM 或者SSH框架，如何搭建，如何整合。开发中为什么会用框架，Rest是啥？Spring为啥经久不衰，底层如何实现等。

6、23种设计模式，掌握常用的，比如单例模式的多种实现，责任链模式，工厂模式，装饰器模式等，了解常用场景。

7、基础算法和数据结构，八大排序算法，查找算法。

8、熟练使用maven等构建工具，git等版本控制工具，熟悉常用linux命令，log4j，dubug，junit单元测试，日志打印工具，Redis等NoSql。

互联网行业目前还是最热门的行业之一，学习IT技能之后足够优秀是有机会进入腾讯、阿里、网易等互联网大厂高薪就业的，发展前景非常好，普通人也可以学习。

想要系统学习，你可以考察对比一下开设有相关专业的热门学校，好的学校拥有根据当下企业需求自主研发课程的能力，能够在校期间取得大专或本科学历，中博软件学院、南京课工场、南京北大青鸟等开设相关专业的学校都是不错的，建议实地考察对比一下。

祝你学有所成，望采纳。

HBase优化四——HTable优化

HTable是HBase客户端与HBase服务端通讯的Java API对象，客户端可以通过HTable对象与服务端进行CRUD操作（增删改查）。它的创建很简单：

Configuration conf = HBaseConfiguration.create();

HTable table = new HTable(conf, “tablename”);

//TODO CRUD Operation……

HTable使用时的一些注意事项：

1.规避HTable对象的创建开销

因为客户端创建HTable对象后，需要进行一系列的操作：检查.META.表确认指定名称的HBase表是否存在，表是否有效等等，整个时间开销比较重，可能会耗时几秒钟之长，因此最好在程序启动时一次性创建完成需要的HTable对象，如果使用Java API，一般来说是在构造函数中进行创建，程序启动后直接重用。

2.HTable对象不是线程安全的

HTable对象对于客户端读写数据来说不是线程安全的，因此多线程时，要为每个线程单独创建复用一个HTable对象，不同对象间不要共享HTable对象使用，特别是在客户端auto flash被置为false时，由于存在本地write buffer，可能导致数据不一致。

3.HTable对象之间共享Configuration

HTable对象共享Configuration对象，这样的好处在于：

• 共享ZooKeeper的连接：每个客户端需要与ZooKeeper建立连接，查询用户的table regions位置，这些信息可以在连接建立后缓存起来共享使用；

• 共享公共的资源：客户端需要通过ZooKeeper查找-ROOT-和.META.表，这个需要网络传输开销，客户端缓存这些公共资源后能够减少后续的网络传输开销，加快查找过程速度。

因此，与以下这种方式相比：

HTable table1 = new HTable(“table1”);

HTable table2 = new HTable(“table2”);

下面的方式更有效些：

Configuration conf = HBaseConfiguration.create();

HTable table1 = new HTable(conf, “table1”);

HTable table2 = new HTable(conf, “table2”);

备注：即使是高负载的多线程程序，也并没有发现因为共享Configuration而导致的性能问题；如果你的实际情况中不是如此，那么可以尝试不共享Configuration。

这里要介绍优化HTable的一种方案——HTablePool

HTablePool可以解决HTable存在的线程不安全问题，同时通过维护固定数量的HTable对象，能够在程序运行期间复用这些HTable资源对象。

Configuration conf = HBaseConfiguration.create();

HTablePool pool = new HTablePool(conf, 10);

1.HTablePool可以自动创建HTable对象，而且对客户端来说使用上是完全透明的，可以避免多线程间数据并发修改问题。

2.HTablePool中的HTable对象之间是公用Configuration连接的，能够可以减少网络开销。

HTablePool的使用很简单：每次进行操作前，通过HTablePool的getTable方法取得一个HTable对象，然后进行put/get/scan/delete等操作，最后通过HTablePool的putTable方法将HTable对象放回到HTablePool中。

下面是个使用HTablePool的简单例子：

public void createUser(String username, String firstName, String lastName, String email, String password, String roles) throws IOException {

HTable table = rm.getTable(UserTable.NAME);

Put put = new Put(Bytes.toBytes(username));

put.add(UserTable.DATA_FAMILY, UserTable.FIRSTNAME,

Bytes.toBytes(firstName));

put.add(UserTable.DATA_FAMILY, UserTable.LASTNAME,

Bytes.toBytes(lastName));

put.add(UserTable.DATA_FAMILY, UserTable.EMAIL, Bytes.toBytes(email));

put.add(UserTable.DATA_FAMILY, UserTable.CREDENTIALS,

Bytes.toBytes(password));

put.add(UserTable.DATA_FAMILY, UserTable.ROLES, Bytes.toBytes(roles));

table.put(put);

table.flushCommits();

rm.putTable(table);

}

java是个什么东西，用来做什么的？

在现实社会中有很多地方使用到了Java，从电子商务网站到Android apps，从科学应用到金融产品，例如电子交易系统，从类似Minecraft的游戏再到Eclipse,Netbeans和IntelliJ的桌面应用，从开源的资源库J2MEapps等等。下面带你一起详细了解Java的应用领域。

1、安卓Apps

如果你想知道Java应用在哪里，你离答案并不远。打开你的安卓手机或者任何的App，它们完全是用有着谷歌AndroidAPI的Java编程语言编写的，这个API和JDK非常相似。前几年安卓刚开始起步而到今日已经很多Java程序员是安卓App的开发者。

2、在金融服务行业的服务器应用

Java在金融服务业有着很大应用。很多的全球性投资银行例如GoldmanSachs(高盛投资公司)，Citigroup(花旗集团)，Barclays(巴克莱银行)，StandardCharted(英国渣打银行)和一些其他银行都用Java编写前台和后台的电子交易系统，结算、信息确认系统，数据处理项目和以及其他的项目。

Java被运用于编写服务端应用，但大多数没有前端，都是从一个服务端(上一级)接收数据，处理数据后发向其他的处理系统(下一级)。JavaSwing由于能开发出图形用户界面的客户端供交易者使用而备受欢迎，但是现在C#正在快速地取代Swing的市场，这让Swing倍有压力。

3、网站应用

Java同样也在电子商务和网站开发上有着广泛的运用。你可以运用很多RESTfull架构，这些架构是用SpringMVC，Struts2.0和类似的框架开发出来的。甚至简单的Servlet，JSP和Struts在各种政府项目也是备受欢迎，许多政府，医疗，保险，教育，国防和其他部门的网站都是建立在Java之上的。

4、软件工具

很多有用的软件和开发工具都是运用Java编写和开发的，例如Ecilpse，InetelliJIdea和NetbansIDE.。我认为这些都是经常使用的用Java编写的桌面应用程序。

就如上面所说，Swing曾经在图形用户界面的客户端开发非常流行，它们大多数应用在金融服务领域以及投资银行。虽然现在JavaFx正在逐渐地流行起来，但仍然无法替代Swing，而且C#已经在大部分金融领域中代替了Swing。

5、交易系统

第三方交易系统，金融服务行业的一大部分，同样也是使用Java编写的。例如像Murex这种受欢迎的交易系统，运用于与许多的银行前端链接，同样也是用Java编写的。

java300集零基础入门教程：网页链接

6、J2MEApps

虽然IOS和Android的到来几乎扼杀了J2ME的市场，但是仍然有很多的低端诺基亚和三星手机在使用着J2ME。曾经有段时间大部分的游戏,手机应用都是利用MIDP和CLDC,或者J2ME部分平台编写的，以适用于Android系统。.J2ME依然在蓝光、磁卡、机顶盒等产品中流行着。app之所以如此流行是因为对于所有的诺基亚手机，app仍然适用于J2ME。

7、嵌入式领域

Java在嵌入式领域也有很大的应用。你只需要130KB就能够使用Java技术(在一块小的芯片或者传感器上)，这显示了这个平台是多么的可靠。Java当初是为了嵌入式设备而设计的。事实上，这也是Java当初的一项“立即编写，随处运行”主旨的一部分。

8、大数据技术

Hadoop和其他的大数据技术也在不同程度使用着Java，例如Apache的基于Java的Hbase，Accumulo(开源)，以及ElasticSearch。但是Java并没有占领整个领域，还有其他的大数据技术例如MongoDB就是使用C++编写的.如果Hadoopor和ElasticSearch逐渐发展，那么Java就能有潜力在大数据技术领域上得到更大的发展空间。

9、高频交易领域

Java平台已经大大提高了性能特点和JITS，并且Java也拥有像C++级别的传输性能。因此，Java也流行于编写高并发系统。虽然Java的传输性能不比C++，但你可以不用考虑Java的安全性，可移植性和可维护性等问题(Java内部已经实现好了)，而且Java有着更快的运行速度。安全性等问题会使一个没有经验的C++程序员编写的应用程序变得更加缓慢和不可靠。

10、科学应用

现在Java经常是科学应用的默认选择，包括了自然语言处理。这主要的原因是因为Java比起C++或者其他语言有更加的安全，可移植，可维护，而且Java有着更好的高级并发工具。

其实不管是选择哪个领域只要自己技术够强高新就不是问题。

hbase 的数据存储及Region变化（flush compaction spilt）和性能调优

1. 对表做预分区处理（即在建表时指定Region数量和拆分边界）；

2.配置hbase.hregion.max.filesize为50GB

以fileServer为例，在使用默认的split策略–IncreasingToUpperBoundRegionSplitPolicy 的情况下，16个预分区Region, 则单个Resion容量达到 min(32,50),即32GB时分裂。

3.修改Linux最大文件句柄数

因为hbase是以文件的形式存储数据，最大文件句柄数影响着hbase的并发量。

用root权限修改/etc/security/limits.conf文件，增加以下内容（前面的*不能忽略）：

* soft nproc 10240

* hard nproc 10240

* soft nofile 10240

* hard nofile 10240

编辑/etc/pam.d/common-session，加入一行

session required pam_limits.so

编辑/etc/profile，加入

ulimit -SHn 51200

重新登陆，生效

4.HRegionServer挂掉异常和解决：

is not online on……

常规解决方案：

删除zk中hbase的缓存

重启hbase

使用上述解决方案后本次异常依旧存在，并且HMaster和HRegionServer都不断的自动挂掉。

HMaster报错：

解决方案：

新增配置（看情况决定使用不使用，建议在HMaster不能启动时排除错误使用）（让启动hbase时只让HMaster去进行日志split，缺点是恢复数据时候速度慢）：

property

namehbase.master.distributed.log.splitting/name

valuefalse/value

/property

删除WAL文件（会丢数据）：

6. RPC请求的最大线程数

hbase.regionserver.handler.count 默认是10，在服务器测试时建议设置到50（经测试在单个Region Server时无用，单个RegionServer 最多在6个线程put时保持稳定）

7.日志分割（hbase出错后恢复数据）

MemStore中大量更新丢失时，对数据进行恢复时会做日志分割

hbase.regionserver.hlog.splitlog.writer.threads 日志分割的线程数，默认为3 ，建议设定为10

8.Region Server频繁掉线

出现Hbase Region Server频繁掉线的情况，表现为在多线程put的情况下，忽然Hbase Region Server掉线

猜测是GC或者split过程中没有及时和ZK通信，导致与ZK连接时间超时，zk返回dead region到master，当Hbase Region恢复正常后，找不到wal,产生如下报错。

zookeeper.session.timeout ：默认值是3分钟

但是 hbase regionserver和zookeeper的timeout不是单方面决定的，是取决于hbase的zookeeper.session.timeout和zookeeper的MaxSessionTimeout中的最小值

配置hbase:

zookeeper.session.timeout

600000

配置zookeeper:

tickTime=30000

9.内存及GC优化

在测试的过程中依旧出现Hbase Region Server掉线的情况，报错如下

2021-02-0318:49:14,091INFO[sync.0]wal.FSHLog: Slow sync cost:1955ms, current pipeline: []

2021-02-0318:49:14,091WARN[regionserver/botsc/192.168.0.107:16020.append-pool5-t1]wal.MetricsWAL: regionserver/botsc/192.168.0.107:16020.append-pool5-t1 took1953ms appending an edit to wal; len~=109

2021-02-0318:49:14,106ERROR[sync.3]wal.FSHLog:Errorsyncing, request close of WAL

java.io .IOException:io.grpc.StatusRuntimeException: CANCELLED: Failed to stream message

at seaweed.hdfs.SeaweedOutputStream.flushWrittenBytesToServiceInternal(SeaweedOutputStream.java:78)

at seaweed.hdfs.SeaweedOutputStream.flushWrittenBytesToServiceAsync(SeaweedOutputStream.java:263)

at seaweed.hdfs.SeaweedOutputStream.flushInternalAsync(SeaweedOutputStream.java:243)

at seaweed.hdfs.SeaweedOutputStream.flush(SeaweedOutputStream.java:129)

at java.io .FilterOutputStream.flush(FilterOutputStream.java:140)

at java.io .DataOutputStream.flush(DataOutputStream.java:123)

at org.apache.hadoop.hbase.regionserver.wal.ProtobufLogWriter.sync(ProtobufLogWriter.java:170)

at org.apache.hadoop.hbase.regionserver.wal.FSHLog$SyncRunner.run(FSHLog.java:1286)

at java.lang.Thread.run(Thread.java:748)

修改hbase的配置文件hbase-env.sh，GC优化如下：

export HBASE_HEAPSIZE=21384

export master_heapsize=8292

export regionserver_heapsize=21384

export HBASE_OPTS=”$HBASE_OPTS -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=60 -XX:+UseParNewGC -XX:ParallelGCThreads=6″

export HBASE_MASTER_OPTS=”$HBASE_MASTER_OPTS $HBASE_JMX_BASE -Xmx8g -Xms8g -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70″

export HBASE_REGIONSERVER_OPTS=”$HBASE_REGIONSERVER_OPTS $HBASE_JMX_BASE -Xmx20g -Xms20g -Xmn1g -XX:+UseParNewGC

-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70″

关于javahbase多线程和hbase多线程批量数据写入的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

本文来自投稿，不代表【痞子匠】观点，发布者：【E安全】

本文地址：https://www.pizijiang.com/seo/212701.html ，如若转载，请注明出处！

举报投诉邮箱：253000106@qq.com

多线程批量数据

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

E安全作者

64.2K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

java支付宝开发接口api文档（java 支付接口）

上一篇 2024年3月30日 11:42:19

javaio设计模式（Java设计模式）

下一篇 2024年3月30日 11:49:36

Java

java多线程并发编程基础,Java多线程并发执行返回

电脑培训分享Java并发编程:核心理论电脑培训发现本系列会从线程间协调的方式（wait、notify、notifyAll）、Synchronized及Volatile的本质入手，详细解释JDK为我们提供的每种并发工具和底层实现机制。人们开始意识到了继承的众多缺点，开始努力用聚合代替继承。软件工程解决扩展性的重要原则就是抽象描述，直接使用的工具就是接口。接…

E安全
2024年5月23日
47000
Java

java二维数组获得数据,java二维数组用法

java中怎样用一位数组获得二维数组中某一行的值利用 for循环遍历数组即可 for循环是开界的。 Number ： Name ： A ： B ： Value；通过读取指定的列名，你可以得到，列名在数组中对应的索引值。其实多维数组是在一维数组的基础上进行变换的，就拿二维数组来说，它是在一维数组上存储一维数组。得到一维数组的长度lenth，如果长度为8…

E安全
2024年5月23日
43000
Excel

excel中逐个叠加数值,excel数据叠加

Excel表中如何将一列的数值全部加上一个数值,并且覆盖原有的数值呢? 1、打开EXCEL表格，在其中一个单元格输入要“加”的数值，复制。选择单元格中要“加”的数据，点击“粘贴”–选择性粘贴—加，即可。 2、假设一个表格（如图一），将A列的数值分别加上5，然后在B列中快速获得所要的相加结果。 3、EXCEL给每列数值增加一个固定的数值…

E安全
2024年5月23日
59000
Linux

linux批量关机脚本,linux自动关机脚本

linux系统在控制台下每天的定时关机指令如何编写? (1)linux下自动关机–》如果你想在10分钟以后关机的话：可使用命令：shutdown -h +10 ，但是你突然不想10分钟以后关机的话就是用ctrl+c强制终止命令。 at命令只能执行一次，可以利用crontab计划任务来实现。命令的主体主要是 Shutdown，h/r/s 分别代表…

E安全
2024年5月23日
43000
Java

java将数据分类存进二维数组,java将二维数组保存在文件

java怎么从mysql查询出来的结果转化为二维数组,举个例子把你二维数组中的所有数据拼接起来，用“，”连接，组成一个长的字符串，存入数据库。进行其他操作时，可先将该字符串解析，原理和普通的字符串是一样的。 –这儿存在两种情况：字符串不存在分隔符号字符串中存在分隔符号，跳出while循环后，@location为0，那默认为字符串后边有一个分隔…

E安全
2024年5月23日
42000
Excel

excel重复输入提醒,表格数据输入重复怎么提醒

怎样设置excel,使得同一列输入数字重复时,显示提示 1、在 Excel 菜单栏上选择“开始”选项卡，然后单击“条件格式”。在条件格式下拉菜单中选择“突出显示单元格规则”，然后选择“数值”。在数值下拉菜单中选择“重复值”。 2、开启EXCEL表格，选择整列单元格，点选“开始”–条件格式–突出显示单元格规则。选择”重复值“设定突出显示…

E安全
2024年5月23日
49000
Java

java动态生成复选框,java复选框如何回显数据

如何用javaScript实现复选框的联动? 很简单，给表格一个ID，ID=form1，再给个参数sty；e=display：none；然后JavaScript写 function open(){document.getElementById(form1).style.display=block} 在按钮上写JavaScript：open()；好了，试试看。…

E安全
2024年5月23日
41000
Linux

linux多线程信号,linux多线程并发的处理方式

Linux多进程和线程同步的几种方式 1、Linux系统中，实现线程同步的方式大致分为六种，包括：互斥锁、自旋锁、信号量、条件变量、读写锁、屏障。其最常用的线程同步方式就是互斥锁、自旋锁、信号量。 2、共享内存：使得多个进程可以访问同一块内存空间，是最快的可用IPC形式。是针其他通信机制运行效率较低设计的。往往与其它通信机制，如信号量结合使用，来达到进程间…

E安全
2024年5月23日
41000
Linux

linux全局查抄一个文件,linux批量查询文件内容

linux中怎样查找一个文件,例如查找一个叫inittab的文件,用什么命令 1、使用find命令查找/etc目录下名字是inittb的文件，执行find /etc/ -name inittab，-name为参数，表示名字，执行后如图所示。 2、如果是redhat系的linux操作系统，可以先updatedb 创建一个文件数据库然后locate initt…

E安全
2024年5月23日
55000
Excel

excel批量删除空行,批量删除excel空格行

如何批量删除excel单元格中的空格? 1、首选我们先找出空白的单元格，然后再批量删除空白单元格。按下快捷键【Ctrl+G】调出定位窗口，在弹窗中点击【定位条件】，选择【空值】，再点击【确定】。 2、打开需要操作的文件（这里是模拟数据），选中需要操作的单元格。在菜单栏【开始】中找到并点击【查找与选择】。在下拉框中点击【替换】。在弹出窗口的【查找内容】中输入空…

E安全
2024年5月23日
42000