javahbase多线程(hbase多线程批量数据写入)

本篇文章给大家谈谈javahbase多线程,以及hbase多线程批量数据写入对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

1、Hbase 客户端批量写入数据2、Java和大数据有什么关系,发展前景怎么样?3、学习java以后可以做什么?4、HBase优化四——HTable优化5、java是个什么东西,用来做什么的?6、hbase 的数据存储及Region变化(flush compaction spilt)和性能调优

Hbase 客户端批量写入数据

org.apache.hadoop.hbase.client.BufferedMutator主要用来对HBase的单个表进行操作。它和Put类的作用差不多,但是主要用来实现批量的异步写操作。

可以从Connection的实例中获取BufferedMutator的实例。在使用完成后需要调用close()方法关闭连接。对BufferedMutator进行配置需要通过BufferedMutatorParams完成。

BufferedMutator接收发送来的Put数据后,会根据某些因素(比如接收的Put数据的总量)启发式地执行Batch Put操作,且会异步的提交Batch Put请求。

BufferedMutator也可以用在一些特殊的情况上。多线程作业的每个线程将会拥有一个独立的BufferedMutator对象。

一个独立的BufferedMutator也可以用在大容量的在线系统上来执行批量Put操作,但是这时需要注意一些极端情况比如JVM异常或机器故障,此时有可能造成数据丢失。

官方源码路径:

Java和大数据有什么关系,发展前景怎么样?

一、 Java和大数据有什么关系?

大数据开发需要编程语言基础,Java是世界上应用最广泛的计算机编程语言,具有功能强大和简单易用两个特征,同时还具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。

Java具有的众多特性,特别适合作为大数据应用的开发语言,当下Hadoop以及其他大数据处理技术很多都是用Java,Java是大数据技术的主要支持言语,当下学大数据技术之前都会先学Java语言。

二、为什么要学习Java大数据技术?

学习Java的原因如下:

1、从各行业软件开发技术的生态圈来看:

(1)Java已经形成一种文化,有企业成熟的解决方案

(2)开源社区发展的强大,而Java在开源社设区占重要地位

(3)主流大数据框架hadoop、spark、HBase等离不开Java平台

2、从Java本身特性来看

(1)面向对象、跨平台,可以运行在Linux、Windows、Unix等系统上

(2)Java虚拟机发展非常成熟,在内存回收、并发处理、作为大数据和云计算平台等应用上有着不可替代的作用

3、在企业级的开发环境里,安全、稳定是硬道理,这方面Java有着不可替代的作用;另外还有其它很多优秀特性如多线程、分布式、函数式编程等。

学习大数据的原因:

(1)国家将发展大数据放在了战略地位,大数据前景无限;

(2)分布式存储和分布式计算框架hadoop、内存计算框架spark发展很成熟并在企业广泛部署;

(3)面向对象设计思想已经发展很成熟,自底向上的设计思想函数式编程发展的也十分成熟,海量数据并发处理技术也发展很成熟,非结构化数据的处理发展也很成熟等等,并且在企业广泛部署的主流框架大数据hadoop、spark上得到体现;

(4)海量数据的智能分析已被广泛应用,例如:推荐系统、金融风险预测、天气预报等等;

(5)人工智能的核心学科—机器学习,其中的深度学习算法已经具备处理“海量数据训练集”的条件、硬件的海量图形处理或者海量图片处理已经具备处理条件,如GPU、TPU,甚至现在已经研发出专门的AI芯片。

根据行业预测,2021年行业在Java大数工作岗位需求将激增,其中Java大数据工程师的缺口在14万到19万人之间,Java大数据工程师实习月薪一般在8000元左右。学Java大数据,前途跟钱途兼具。

学习java以后可以做什么?

java是一门应用非常广泛的计算机语言,发展是比较不错的。

学成之后的就业岗位还是非常多的,网页制作,软件应用,服务器应用等等,都是java可以做的。想要学好Java,需要有正确的学习路线,有坚持不懈的学习毅力,也需要有专业老师的指导,这样才能学得更好。那么,学习Java需要掌握哪些知识和技能呢?这里简单列举一些。

Java学习需要掌握的知识与技能:

1、Java SE部分 初级语法,面向对象,异常,IO流,多线程,Java Swing,JDBC,泛型,注解,反射等。

2、数据库部分,基础的sql语句,sql语句调优,索引,数据库引擎,存储过程,触发器,事务等。

3、前端部分, HTML5 CSS3 JS, HTML DOM Jquery BootStrap等。

4、Java EE部分,Tomcat和Nginx服务器搭建,配置文件,Servlet,JSP,Filter,Listener,http协议,MVC等。

5、框架部分,每个框架都可以分开学,在去学如何使用SSM 或者SSH框架,如何搭建,如何整合。开发中为什么会用框架,Rest是啥?Spring为啥经久不衰,底层如何实现等。

6、23种设计模式,掌握常用的,比如单例模式的多种实现,责任链模式,工厂模式,装饰器模式等,了解常用场景。

7、基础算法和数据结构,八大排序算法,查找算法。

8、熟练使用maven等构建工具,git等版本控制工具,熟悉常用linux命令,log4j,dubug,junit单元测试,日志打印工具,Redis等NoSql。

互联网行业目前还是最热门的行业之一,学习IT技能之后足够优秀是有机会进入腾讯、阿里、网易等互联网大厂高薪就业的,发展前景非常好,普通人也可以学习。

想要系统学习,你可以考察对比一下开设有相关专业的热门学校,好的学校拥有根据当下企业需求自主研发课程的能力,能够在校期间取得大专或本科学历,中博软件学院、南京课工场、南京北大青鸟等开设相关专业的学校都是不错的,建议实地考察对比一下。

祝你学有所成,望采纳。

javahbase多线程(hbase多线程批量数据写入)

HBase优化四——HTable优化

HTable是HBase客户端与HBase服务端通讯的Java API对象,客户端可以通过HTable对象与服务端进行CRUD操作(增删改查)。它的创建很简单:

Configuration conf = HBaseConfiguration.create();

HTable table = new HTable(conf, “tablename”);

//TODO CRUD Operation……

HTable使用时的一些注意事项:

1.规避HTable对象的创建开销

因为客户端创建HTable对象后,需要进行一系列的操作:检查.META.表确认指定名称的HBase表是否存在,表是否有效等等,整个时间开销比较重,可能会耗时几秒钟之长,因此最好在程序启动时一次性创建完成需要的HTable对象,如果使用Java API,一般来说是在构造函数中进行创建,程序启动后直接重用。

2.HTable对象不是线程安全的

HTable对象对于客户端读写数据来说不是线程安全的,因此多线程时,要为每个线程单独创建复用一个HTable对象,不同对象间不要共享HTable对象使用,特别是在客户端auto flash被置为false时,由于存在本地write buffer,可能导致数据不一致。

3.HTable对象之间共享Configuration

HTable对象共享Configuration对象,这样的好处在于:

• 共享ZooKeeper的连接:每个客户端需要与ZooKeeper建立连接,查询用户的table regions位置,这些信息可以在连接建立后缓存起来共享使用;

• 共享公共的资源:客户端需要通过ZooKeeper查找-ROOT-和.META.表,这个需要网络传输开销,客户端缓存这些公共资源后能够减少后续的网络传输开销,加快查找过程速度。

因此,与以下这种方式相比:

HTable table1 = new HTable(“table1”);

HTable table2 = new HTable(“table2”);

下面的方式更有效些:

Configuration conf = HBaseConfiguration.create();

HTable table1 = new HTable(conf, “table1”);

HTable table2 = new HTable(conf, “table2”);

备注:即使是高负载的多线程程序,也并没有发现因为共享Configuration而导致的性能问题;如果你的实际情况中不是如此,那么可以尝试不共享Configuration。

这里要介绍优化HTable的一种方案——HTablePool

HTablePool可以解决HTable存在的线程不安全问题,同时通过维护固定数量的HTable对象,能够在程序运行期间复用这些HTable资源对象。

Configuration conf = HBaseConfiguration.create();

HTablePool pool = new HTablePool(conf, 10);

1.HTablePool可以自动创建HTable对象,而且对客户端来说使用上是完全透明的,可以避免多线程间数据并发修改问题。

2.HTablePool中的HTable对象之间是公用Configuration连接的,能够可以减少网络开销。

HTablePool的使用很简单:每次进行操作前,通过HTablePool的getTable方法取得一个HTable对象,然后进行put/get/scan/delete等操作,最后通过HTablePool的putTable方法将HTable对象放回到HTablePool中。

下面是个使用HTablePool的简单例子:

public void createUser(String username, String firstName, String lastName, String email, String password, String roles) throws IOException {

HTable table = rm.getTable(UserTable.NAME);

Put put = new Put(Bytes.toBytes(username));

put.add(UserTable.DATA_FAMILY, UserTable.FIRSTNAME,

Bytes.toBytes(firstName));

put.add(UserTable.DATA_FAMILY, UserTable.LASTNAME,

Bytes.toBytes(lastName));

put.add(UserTable.DATA_FAMILY, UserTable.EMAIL, Bytes.toBytes(email));

put.add(UserTable.DATA_FAMILY, UserTable.CREDENTIALS,

Bytes.toBytes(password));

put.add(UserTable.DATA_FAMILY, UserTable.ROLES, Bytes.toBytes(roles));

table.put(put);

table.flushCommits();

rm.putTable(table);

}

java是个什么东西,用来做什么的?

在现实社会中有很多地方使用到了Java,从电子商务网站到Android apps,从科学应用到金融产品,例如电子交易系统,从类似Minecraft的游戏再到Eclipse,Netbeans和IntelliJ的桌面应用,从开源的资源库J2MEapps等等。下面带你一起详细了解Java的应用领域。

1、安卓Apps

如果你想知道Java应用在哪里,你离答案并不远。打开你的安卓手机或者任何的App,它们完全是用有着谷歌AndroidAPI的Java编程语言编写的,这个API和JDK非常相似。前几年安卓刚开始起步而到今日已经很多Java程序员是安卓App的开发者。

2、在金融服务行业的服务器应用

Java在金融服务业有着很大应用。很多的全球性投资银行例如GoldmanSachs(高盛投资公司),Citigroup(花旗集团),Barclays(巴克莱银行),StandardCharted(英国渣打银行)和一些其他银行都用Java编写前台和后台的电子交易系统,结算、信息确认系统,数据处理项目和以及其他的项目。

Java被运用于编写服务端应用,但大多数没有前端,都是从一个服务端(上一级)接收数据,处理数据后发向其他的处理系统(下一级)。JavaSwing由于能开发出图形用户界面的客户端供交易者使用而备受欢迎,但是现在C#正在快速地取代Swing的市场,这让Swing倍有压力。

3、网站应用

Java同样也在电子商务和网站开发上有着广泛的运用。你可以运用很多RESTfull架构,这些架构是用SpringMVC,Struts2.0和类似的框架开发出来的。甚至简单的Servlet,JSP和Struts在各种政府项目也是备受欢迎,许多政府,医疗,保险,教育,国防和其他部门的网站都是建立在Java之上的。

4、软件工具

很多有用的软件和开发工具都是运用Java编写和开发的,例如Ecilpse,InetelliJIdea和NetbansIDE.。我认为这些都是经常使用的用Java编写的桌面应用程序。

就如上面所说,Swing曾经在图形用户界面的客户端开发非常流行,它们大多数应用在金融服务领域以及投资银行。虽然现在JavaFx正在逐渐地流行起来,但仍然无法替代Swing,而且C#已经在大部分金融领域中代替了Swing。

5、交易系统

第三方交易系统,金融服务行业的一大部分,同样也是使用Java编写的。例如像Murex这种受欢迎的交易系统,运用于与许多的银行前端链接,同样也是用Java编写的。

java300集零基础入门教程:网页链接

6、J2MEApps

虽然IOS和Android的到来几乎扼杀了J2ME的市场,但是仍然有很多的低端诺基亚和三星手机在使用着J2ME。曾经有段时间大部分的游戏,手机应用都是利用MIDP和CLDC,或者J2ME部分平台编写的,以适用于Android系统。.J2ME依然在蓝光、磁卡、机顶盒等产品中流行着。app之所以如此流行是因为对于所有的诺基亚手机,app仍然适用于J2ME。

7、嵌入式领域

Java在嵌入式领域也有很大的应用。你只需要130KB就能够使用Java技术(在一块小的芯片或者传感器上),这显示了这个平台是多么的可靠。Java当初是为了嵌入式设备而设计的。事实上,这也是Java当初的一项“立即编写,随处运行”主旨的一部分。

8、大数据技术

Hadoop和其他的大数据技术也在不同程度使用着Java,例如Apache的基于Java的Hbase,Accumulo(开源),以及ElasticSearch。但是Java并没有占领整个领域,还有其他的大数据技术例如MongoDB就是使用C++编写的.如果Hadoopor和ElasticSearch逐渐发展,那么Java就能有潜力在大数据技术领域上得到更大的发展空间。

9、高频交易领域

Java平台已经大大提高了性能特点和JITS,并且Java也拥有像C++级别的传输性能。因此,Java也流行于编写高并发系统。虽然Java的传输性能不比C++,但你可以不用考虑Java的安全性,可移植性和可维护性等问题(Java内部已经实现好了),而且Java有着更快的运行速度。安全性等问题会使一个没有经验的C++程序员编写的应用程序变得更加缓慢和不可靠。

10、科学应用

现在Java经常是科学应用的默认选择,包括了自然语言处理。这主要的原因是因为Java比起C++或者其他语言有更加的安全,可移植,可维护,而且Java有着更好的高级并发工具。

其实不管是选择哪个领域只要自己技术够强高新就不是问题。

hbase 的数据存储及Region变化(flush compaction spilt)和性能调优

1. 对表做预分区处理(即在建表时指定Region数量和拆分边界);

2.配置hbase.hregion.max.filesize为50GB

以fileServer为例,在使用默认的split策略–IncreasingToUpperBoundRegionSplitPolicy 的情况下,16个预分区Region, 则单个Resion容量达到 min(32,50),即32GB时分裂。

3.修改Linux最大文件句柄数

因为hbase是以文件的形式存储数据,最大文件句柄数影响着hbase的并发量。

用root权限修改/etc/security/limits.conf文件,增加以下内容(前面的*不能忽略):

*              soft    nproc          10240

*              hard    nproc          10240

*              soft    nofile          10240

*              hard    nofile          10240 

编辑/etc/pam.d/common-session,加入一行

session required  pam_limits.so

编辑/etc/profile,加入

ulimit -SHn 51200

重新登陆,生效

4.HRegionServer挂掉异常和解决:

is not online on……

常规解决方案:

  删除zk中hbase的缓存

  重启hbase

使用上述解决方案后本次异常依旧存在,并且HMaster和HRegionServer都不断的自动挂掉。

HMaster报错:

解决方案:

新增配置(看情况决定使用不使用,建议在HMaster不能启动时排除错误使用)(让启动hbase时只让HMaster去进行日志split,缺点是恢复数据时候速度慢):

property

namehbase.master.distributed.log.splitting/name

valuefalse/value

/property

   删除WAL文件(会丢数据):

6. RPC请求的最大线程数

hbase.regionserver.handler.count  默认是10,在服务器测试时建议设置到50(经测试在单个Region Server时无用,单个RegionServer 最多在6个线程put时保持稳定)

7.日志分割(hbase出错后恢复数据)

MemStore中大量更新丢失时,对数据进行恢复时会做日志分割

hbase.regionserver.hlog.splitlog.writer.threads 日志分割的线程数, 默认为3 ,建议设定为10

8.Region Server频繁掉线

出现Hbase Region Server频繁掉线的情况,表现为在多线程put的情况下,忽然Hbase Region Server掉线

猜测是GC或者split过程中没有及时和ZK通信,导致与ZK连接时间超时,zk返回dead region到master,当Hbase Region恢复正常后,找不到wal,产生如下报错。

zookeeper.session.timeout :默认值是3分钟

但是 hbase regionserver和zookeeper的timeout不是单方面决定的,是取决于hbase的zookeeper.session.timeout和zookeeper的MaxSessionTimeout中的最小值

配置hbase:

zookeeper.session.timeout

600000

配置zookeeper:

tickTime=30000

9.内存及GC优化

在测试的过程中依旧出现Hbase Region Server掉线的情况,报错如下

2021-02-0318:49:14,091INFO[sync.0]wal.FSHLog: Slow sync cost:1955ms, current pipeline: []

2021-02-0318:49:14,091WARN[regionserver/botsc/192.168.0.107:16020.append-pool5-t1]wal.MetricsWAL: regionserver/botsc/192.168.0.107:16020.append-pool5-t1 took1953ms appending an edit to wal; len~=109

2021-02-0318:49:14,106ERROR[sync.3]wal.FSHLog:Errorsyncing, request close of WAL

java.io .IOException:io.grpc.StatusRuntimeException: CANCELLED: Failed to stream message

    at seaweed.hdfs.SeaweedOutputStream.flushWrittenBytesToServiceInternal(SeaweedOutputStream.java:78)

    at seaweed.hdfs.SeaweedOutputStream.flushWrittenBytesToServiceAsync(SeaweedOutputStream.java:263)

    at seaweed.hdfs.SeaweedOutputStream.flushInternalAsync(SeaweedOutputStream.java:243)

    at seaweed.hdfs.SeaweedOutputStream.flush(SeaweedOutputStream.java:129)

at java.io .FilterOutputStream.flush(FilterOutputStream.java:140)

at java.io .DataOutputStream.flush(DataOutputStream.java:123)

    at org.apache.hadoop.hbase.regionserver.wal.ProtobufLogWriter.sync(ProtobufLogWriter.java:170)

    at org.apache.hadoop.hbase.regionserver.wal.FSHLog$SyncRunner.run(FSHLog.java:1286)

    at java.lang.Thread.run(Thread.java:748)

修改hbase的配置文件hbase-env.sh,GC优化如下:

export HBASE_HEAPSIZE=21384

export master_heapsize=8292

export regionserver_heapsize=21384

export HBASE_OPTS=”$HBASE_OPTS -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=60 -XX:+UseParNewGC -XX:ParallelGCThreads=6″

export HBASE_MASTER_OPTS=”$HBASE_MASTER_OPTS $HBASE_JMX_BASE -Xmx8g -Xms8g -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70″

export HBASE_REGIONSERVER_OPTS=”$HBASE_REGIONSERVER_OPTS $HBASE_JMX_BASE -Xmx20g -Xms20g -Xmn1g -XX:+UseParNewGC

-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70″

关于javahbase多线程和hbase多线程批量数据写入的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年3月30日 11:42:19
下一篇 2024年3月30日 11:49:36

相关推荐

  • java多线程并发编程基础,Java多线程并发执行返回

    电脑培训分享Java并发编程:核心理论 电脑培训发现本系列会从线程间协调的方式(wait、notify、notifyAll)、Synchronized及Volatile的本质入手,详细解释JDK为我们提供的每种并发工具和底层实现机制。 人们开始意识到了继承的众多缺点,开始努力用聚合代替继承。软件工程解决扩展性的重要原则就是抽象描述,直接使用的工具就是接口。接…

    2024年5月23日
    4700
  • java二维数组获得数据,java二维数组用法

    java中怎样用一位数组获得二维数组中某一行的值 利用 for循环遍历数组 即可 for循环是开界的。 Number : Name : A : B : Value;通过读取指定的列名,你可以得到,列名在数组中对应的索引值。 其实多维数组是在一维数组的基础上进行变换的,就拿二维数组来说,它是在一维数组上存储一维数组。 得到一维数组的长度lenth,如果长度为8…

    2024年5月23日
    4300
  • excel中逐个叠加数值,excel数据叠加

    Excel表中如何将一列的数值全部加上一个数值,并且覆盖原有的数值呢? 1、打开EXCEL表格,在其中一个单元格输入要“加”的数值,复制。选择单元格中要“加”的数据,点击“粘贴”–选择性粘贴—加,即可。 2、假设一个表格(如图一),将A列的数值分别加上5,然后在B列中快速获得所要的相加结果。 3、EXCEL给每列数值增加一个固定的数值…

    2024年5月23日
    5900
  • linux批量关机脚本,linux自动关机脚本

    linux系统在控制台下每天的定时关机指令如何编写? (1)linux下自动关机–》如果你想在10分钟以后关机的话:可使用命令:shutdown -h +10 ,但是你突然不想10分钟以后关机的话就是用ctrl+c强制终止命令。 at命令只能执行一次,可以利用crontab计划任务来实现。 命令的主体主要是 Shutdown,h/r/s 分别代表…

    2024年5月23日
    4300
  • java将数据分类存进二维数组,java将二维数组保存在文件

    java怎么从mysql查询出来的结果转化为二维数组,举个例子 把你二维数组中的所有数据拼接起来,用“,”连接,组成一个长的字符串,存入数据库。进行其他操作时,可先将该字符串解析,原理和普通的字符串是一样的。 –这儿存在两种情况:字符串不存在分隔符号 字符串中存在分隔符号,跳出while循环后,@location为0,那默认为字符串后边有一个分隔…

    2024年5月23日
    4200
  • excel重复输入提醒,表格数据输入重复怎么提醒

    怎样设置excel,使得同一列输入数字重复时,显示提示 1、在 Excel 菜单栏上选择“开始”选项卡,然后单击“条件格式”。在条件格式下拉菜单中选择“突出显示单元格规则”,然后选择“数值”。在数值下拉菜单中选择“重复值”。 2、开启EXCEL表格,选择整列单元格,点选“开始”–条件格式–突出显示单元格规则。选择”重复值“设定突出显示…

    2024年5月23日
    4900
  • java动态生成复选框,java复选框如何回显数据

    如何用javaScript实现复选框的联动? 很简单,给表格一个ID,ID=form1,再给个参数sty;e=display:none;然后JavaScript写 function open(){document.getElementById(form1).style.display=block} 在按钮上写JavaScript:open();好了,试试看。…

    2024年5月23日
    4100
  • linux多线程信号,linux多线程并发的处理方式

    Linux多进程和线程同步的几种方式 1、Linux系统中,实现线程同步的方式大致分为六种,包括:互斥锁、自旋锁、信号量、条件变量、读写锁、屏障。其最常用的线程同步方式就是互斥锁、自旋锁、信号量。 2、共享内存:使得多个进程可以访问同一块内存空间,是最快的可用IPC形式。是针其他通信机制运行效率较低设计的。往往与其它通信机制,如信号量结合使用, 来达到进程间…

    2024年5月23日
    4100
  • linux全局查抄一个文件,linux批量查询文件内容

    linux中怎样查找一个文件,例如查找一个叫inittab的文件,用什么命令 1、使用find命令查找/etc目录下名字是inittb的文件,执行find /etc/ -name inittab,-name为参数,表示名字,执行后如图所示。 2、如果是redhat系的linux操作系统,可以先updatedb 创建一个文件数据库 然后locate initt…

    2024年5月23日
    5500
  • excel批量删除空行,批量删除excel空格行

    如何批量删除excel单元格中的空格? 1、首选我们先找出空白的单元格,然后再批量删除空白单元格。按下快捷键【Ctrl+G】调出定位窗口,在弹窗中点击【定位条件】,选择【空值】,再点击【确定】。 2、打开需要操作的文件(这里是模拟数据),选中需要操作的单元格。在菜单栏【开始】中找到并点击【查找与选择】。在下拉框中点击【替换】。在弹出窗口的【查找内容】中输入空…

    2024年5月23日
    4200

发表回复

登录后才能评论



关注微信