`
文章列表
Prime_DSC_MentionCalcSpark系统简介   实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读取文本数据作为输入,把提交的关键词作为条件,输出在文本中关键词提及的次数   存在问题 : 对于大数据量的计算时间 ...
SPARK历史任务查看需要一下配置:   修改spark-defaults.conf配置文件   spark.eventLog.enabled             true   spark.eventLog.dir                       hdfs://192.168.9.110:9000/eventLogs   spark.eventLog.compress          true 修改spark-env.sh配置文件 export SPARK_HISTORY_OPTS="-Dspark.hi ...
spark集群使用hadoop用户运行,集群机器如下: 1 DEV-HADOOP-01 192.168.9.110 Master 2 DEV-HADOOP-02 192.168.9.111 Worker 3 DEV-HADOOP-03 192.168.9.112
集群一共有3台机器,集群使用hadoop用户运行,3台机器如下: 1 DEV-HADOOP-01 192.168.9.110 2 DEV-HADOOP-02 192.168.9.111 3 DEV-HADOOP-03 192.168.9.112  
1. 检查JDK版本是否相同并拷贝JDK,并配置/etc/profile文件的JAVA_HOME和CLASSPATH属性 2. 配置/etc/hosts文件,新增新加机器的计算机名,包括原有机器和新增机器都要修改该文件 3. 拷贝hadoop-2.6.0和hbase-1.0.1.1,并把hadoop-2.6.0和hbase-1.0.1.1文件夹的文件所有者和文件所属组改成hadoop 4. 配置Master到Slave的无密码登录 5. 设置机器句柄数,修改/etc/security/limits.conf,详见http://beyond3518.blog.51cto.com/1360 ...
ES中的聚合被分为两大类:Metric和bucket。 在实际的开发工作过程中,会根据不同业务选择不同聚合总类。相对于REST的请求风格,javaApi方面的资料就比较欠缺。官方API都比较片面,实际应用中,要自己去多去尝试,多去组合验证。这点确实是比较累。 已近期的一个业务举例: 需求:根据用户ID来分组获取用户发布的微博,并统计微博的讨论量和转发量等等指标信息,还要根据不同指标信息做相关排序。 从需求描述中可以获悉,用户ID是一个大桶(bucket),讨论量和转发量是嵌套在这个大桶中的小桶。之后再根据不同的小桶做相关排序需求。   部分示例代码如下: SearchReques ...
由于当前业务比较依赖于词库精准匹配,且词库会根据业务来时时更新维护。所以选择了Jcseg词库。 但是在使用中确发现,新词虽然刷新至词库中,但是未被ES识别到。 查阅相关资料,发现有很多人都遇到过同样的问题。之后了解到需要将ADictionary的方法改为单例模式。可解决此问题。(可通过http://git.oschina.net/lionsoul/jcseg了解最新ES+jcseg最新调整)   由于git上的版本交高,而本地版本偏低。所以权衡之后,还是采用修改本地源码,之后再打jar包来解决此问题。在打包的过程中还碰到依赖lucene版本包的问题,此问题一度绕了好久。   所以最 ...
现有的结构是Spark从HBase中提取数据,进行计算操作。 Spark的并发是由: 可用CPU核数*Worker数量,来确定上限的,这种情况针对于单节点。 并发数还受到RDD的分区数量影响的,说回Hbase的话,就是受到Region数影响,基本与其一致;   所以如果在HbaseConf中确定的Region数量只有1个的话,那么会出现Spark单线程执行的情况; 这个时候可以考虑使用coalesce方法来进行分区动作,但是这个方法需要注意的是,如果当前的分区数小于你期望的分区,单纯的使用coalesce加分区数的方法并没有什么用,需要强制进行shuffle动作。 即coale ...
简单分享一下,类似问题的解决方法 刚才在某机器上上xxx用户下压测时遇到这个问题,连xxx都进不去了 说明xxx用户下无法创建跟多的线程了(当然root用户没这个问题)
之前项目中一直在使用SolrCloud,但是在使用中,经常会碰到各种问题。最为严重的是造成数据遗漏,从而影响正常业务。 近期调研了以下Elasticsearch,发现它相对于SolrCloud,在配置,搭建方面非常容易上手。   下面针对这两种分布式搜索引擎整理了下它们的优缺点: Elasticsearch优缺点 优点     Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。     Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。     处理多租户(multitenancy ...
详细linux开通用户的命令是useradd,相信大家都知道了.但是最近收到一个需求,是给将近40台机器初始化6个用户的密码。如果一台台机器添加,估计要一下午时间,因此遭到了一种偷懒的方法: step1:在一台机器通过基础命令添加好账号以及设置密码  step2:在其他机器直接拷贝文件即可 #拷贝密码文件 scp 192.168.X.XX:/etc/shadow /etc/  #拷贝用户文件 scp 192.168.X.XX:/etc/passwd /etc/passwd #拷贝sudo用户文件 scp 192.168.X.XX:/etc/sudoers /etc/sudoer ...
通过winbox的IP-->Firewall,进入配置页面   ,按照http://192.168.8.201/zentaopms/www/index.php?m=doc&f=view&docID=5所示修改对应的端口映射

crontab

crontab命令常见于Unix和类Unix的操作系统之中,用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。该词来源于希腊语 chronos(χρνο),原意是时间。 通常,crontab储存的指令被守护进程激活, crond常常在后台运行,每一分钟检查是否有预定的作业需要执行。这类作业一般称为cron jobs 可通过crontab -l查看命令。 如果提示:no crontab for root 可通过crontab -e去创建一个执行脚本。 例如: 0 12 * * * /usr/sbin/ntpda ...
近期对hudson/jenkins进行了安装,使用的版本为3.1.6。按照操作手册进行部署,但是在使用maven部署的时候一直报错,错误信息如下: Executing Maven: -B -f /var/lib/jenkins/jobs/Omri/workspace/pom.xml -Dmaven.repo.local=/var/lib/jenkins/maven-repositories/1 package java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImp ...
1. MyEclipse安装    无法安装.    解决方法:为Swap分区分配了500M的内存.再次安装MyEclipse,成功.   2. Navicat安装    在navicat官网下载,直接解压,然后在主目录下面运行./start_navicat,没有反应.    解决方法:执行以下命令:sudo apt-get install ia32-libs                                           sudo apt-get install wine
Global site tag (gtag.js) - Google Analytics