Prime_DSC_MentionCalcSpark性能调优

博客分类：

Spark调优

Prime_DSC_MentionCalcSpark系统简介实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读取文本数据作为输入,把提交的关键词作为条件,输出在文本中关键词提及的次数存在问题 : 对于大数据量的计算时间 ...

2016-07-18 11:02
浏览 494
评论(0)
分类:编程语言

SPARK启动历史任务查看

博客分类：

Spark调优

SPARK历史任务查看需要一下配置: 修改spark-defaults.conf配置文件 spark.eventLog.enabled true spark.eventLog.dir hdfs://192.168.9.110:9000/eventLogs spark.eventLog.compress true 修改spark-env.sh配置文件 export SPARK_HISTORY_OPTS="-Dspark.hi ...

2016-06-27 12:13
浏览 3449
评论(0)
分类:编程语言

SPARK动态添加节点

博客分类：

Spark调优

spark集群使用hadoop用户运行,集群机器如下: 1 DEV-HADOOP-01 192.168.9.110 Master 2 DEV-HADOOP-02 192.168.9.111 Worker 3 DEV-HADOOP-03 192.168.9.112

2016-06-27 12:12
浏览 785
评论(0)
分类:编程语言

SPARK standlone安装配置

博客分类：

Spark调优

集群一共有3台机器,集群使用hadoop用户运行,3台机器如下: 1 DEV-HADOOP-01 192.168.9.110 2 DEV-HADOOP-02 192.168.9.111 3 DEV-HADOOP-03 192.168.9.112

2016-06-27 12:11
浏览 776
评论(0)
分类:编程语言

HADOOP/HBase动态新增节点

博客分类：

hbase

1. 检查JDK版本是否相同并拷贝JDK，并配置/etc/profile文件的JAVA_HOME和CLASSPATH属性 2. 配置/etc/hosts文件，新增新加机器的计算机名，包括原有机器和新增机器都要修改该文件 3. 拷贝hadoop-2.6.0和hbase-1.0.1.1，并把hadoop-2.6.0和hbase-1.0.1.1文件夹的文件所有者和文件所属组改成hadoop 4. 配置Master到Slave的无密码登录 5. 设置机器句柄数,修改/etc/security/limits.conf,详见http://beyond3518.blog.51cto.com/1360 ...

2016-06-06 16:53
浏览 441
评论(0)
分类:数据库

Elasticsearch多字段聚合

博客分类：

Elasticsearch

ES中的聚合被分为两大类：Metric和bucket。在实际的开发工作过程中，会根据不同业务选择不同聚合总类。相对于REST的请求风格，javaApi方面的资料就比较欠缺。官方API都比较片面，实际应用中，要自己去多去尝试，多去组合验证。这点确实是比较累。已近期的一个业务举例：需求：根据用户ID来分组获取用户发布的微博，并统计微博的讨论量和转发量等等指标信息，还要根据不同指标信息做相关排序。从需求描述中可以获悉，用户ID是一个大桶（bucket），讨论量和转发量是嵌套在这个大桶中的小桶。之后再根据不同的小桶做相关排序需求。部分示例代码如下： SearchReques ...

2016-05-26 13:18
浏览 11674
评论(0)
分类:开源软件

jcseg的重新加载新词未能在ES中生效

博客分类：

Elasticsearch

由于当前业务比较依赖于词库精准匹配，且词库会根据业务来时时更新维护。所以选择了Jcseg词库。但是在使用中确发现，新词虽然刷新至词库中，但是未被ES识别到。查阅相关资料，发现有很多人都遇到过同样的问题。之后了解到需要将ADictionary的方法改为单例模式。可解决此问题。（可通过http://git.oschina.net/lionsoul/jcseg了解最新ES+jcseg最新调整）由于git上的版本交高，而本地版本偏低。所以权衡之后，还是采用修改本地源码，之后再打jar包来解决此问题。在打包的过程中还碰到依赖lucene版本包的问题，此问题一度绕了好久。所以最 ...

2016-04-29 15:09
浏览 834
评论(0)
分类:开源软件

Spark任务拆分-并发问题

博客分类：

Spark调优

Spark 并发

现有的结构是Spark从HBase中提取数据，进行计算操作。 Spark的并发是由：可用CPU核数*Worker数量，来确定上限的，这种情况针对于单节点。并发数还受到RDD的分区数量影响的，说回Hbase的话，就是受到Region数影响，基本与其一致；所以如果在HbaseConf中确定的Region数量只有1个的话，那么会出现Spark单线程执行的情况；这个时候可以考虑使用coalesce方法来进行分区动作，但是这个方法需要注意的是，如果当前的分区数小于你期望的分区，单纯的使用coalesce加分区数的方法并没有什么用，需要强制进行shuffle动作。即coale ...

2016-04-28 18:05
浏览 1260
评论(0)
分类:开源软件

HBASE遇到的java.lang.OutOfMemoryError: unable to create new native thread解决方法

博客分类：

问题总结

HBASE OOM

简单分享一下，类似问题的解决方法刚才在某机器上上xxx用户下压测时遇到这个问题，连xxx都进不去了说明xxx用户下无法创建跟多的线程了（当然root用户没这个问题）

2016-04-22 10:29
浏览 800
评论(0)
分类:数据库

搜索引擎的升级

博客分类：

Elasticsearch

elasticsearch

之前项目中一直在使用SolrCloud,但是在使用中，经常会碰到各种问题。最为严重的是造成数据遗漏，从而影响正常业务。近期调研了以下Elasticsearch,发现它相对于SolrCloud，在配置，搭建方面非常容易上手。下面针对这两种分布式搜索引擎整理了下它们的优缺点： Elasticsearch优缺点优点 Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Push replication”。 Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。处理多租户（multitenancy ...

2016-02-24 15:32
浏览 386
评论(0)
分类:开源软件

linux在多台机器上开通用户名和密码

博客分类：

LINUX_命令

详细linux开通用户的命令是useradd，相信大家都知道了.但是最近收到一个需求，是给将近40台机器初始化6个用户的密码。如果一台台机器添加，估计要一下午时间，因此遭到了一种偷懒的方法: step1:在一台机器通过基础命令添加好账号以及设置密码 step2:在其他机器直接拷贝文件即可 #拷贝密码文件 scp 192.168.X.XX:/etc/shadow /etc/ #拷贝用户文件 scp 192.168.X.XX:/etc/passwd /etc/passwd #拷贝sudo用户文件 scp 192.168.X.XX:/etc/sudoers /etc/sudoer ...

2014-08-20 18:46
浏览 956
评论(0)
分类:操作系统

winbox设置端口映射

博客分类：

winbox

通过winbox的IP-->Firewall,进入配置页面，按照http://192.168.8.201/zentaopms/www/index.php?m=doc&f=view&docID=5所示修改对应的端口映射

2014-08-11 13:58
浏览 1377
评论(0)
分类:操作系统

crontab

博客分类：

LINUX_命令

crontab命令常见于Unix和类Unix的操作系统之中，用于设置周期性被执行的指令。该命令从标准输入设备读取指令，并将其存放于“crontab”文件中，以供之后读取和执行。该词来源于希腊语 chronos(χρνο)，原意是时间。通常，crontab储存的指令被守护进程激活， crond常常在后台运行，每一分钟检查是否有预定的作业需要执行。这类作业一般称为cron jobs 可通过crontab -l查看命令。如果提示：no crontab for root 可通过crontab -e去创建一个执行脚本。例如： 0 12 * * * /usr/sbin/ntpda ...

2014-07-24 16:23
浏览 633
评论(0)
分类:操作系统

hudson集成maven遇到的问题 NoClassDefFoundError MavenLoggerManager

近期对hudson/jenkins进行了安装，使用的版本为3.1.6。按照操作手册进行部署，但是在使用maven部署的时候一直报错，错误信息如下： Executing Maven: -B -f /var/lib/jenkins/jobs/Omri/workspace/pom.xml -Dmaven.repo.local=/var/lib/jenkins/maven-repositories/1 package java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImp ...

2014-07-22 17:50
浏览 1784
评论(0)
分类:开源软件

装Ubuntu14.04及搭建开发环境遇到的问题

博客分类：

ubuntu

1. MyEclipse安装无法安装. 解决方法:为Swap分区分配了500M的内存.再次安装MyEclipse,成功. 2. Navicat安装在navicat官网下载,直接解压,然后在主目录下面运行./start_navicat,没有反应. 解决方法:执行以下命令:sudo apt-get install ia32-libs sudo apt-get install wine

2014-06-18 19:22
浏览 535
评论(0)
分类:操作系统

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Prime_DSC_MentionCalcSpark性能调优

SPARK启动历史任务查看

SPARK动态添加节点

SPARK standlone安装配置

HADOOP/HBase动态新增节点

Elasticsearch多字段聚合

jcseg的重新加载新词未能在ES中生效

Spark任务拆分-并发问题

HBASE遇到的java.lang.OutOfMemoryError: unable to create new native thread解决方法

搜索引擎的升级

linux在多台机器上开通用户名和密码

winbox设置端口映射

crontab

hudson集成maven遇到的问题 NoClassDefFoundError MavenLoggerManager

装Ubuntu14.04及搭建开发环境遇到的问题

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>