重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
spark快的原因
1.内存计算
创新互联公司主要从事成都网站建设、网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务廊坊,十多年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:18982081108
2.DAG
spark shell已经初始化好了SparkContext,直接用sc调用即可
lineage 血统
RDD wide and narrow dependencies
窄依赖每个 RDD partition最多被一个子RDD partirion依赖
/sbin(system binary)放的都是涉及系统管理的命令。
有些系统里面,普通用户没有执行这些命令的权限。
有些系统里面,普通用户的PATH不包括/sbin
data.cache 数据放到内存中
spark-submit提交任务
scala代码
package cn.chinahadoop.spark import org.apache.spark.{SparkContext, SparkConf} import scala.collection.mutable.ListBuffer import org.apache.spark.SparkContext._ /** * Created by chenchao on 14-3-1. */ class Analysis { } object Analysis{ def main(args : Array[String]){ if(args.length != 2){ println("Usage : java -jar code.jar file_location save_location") System.exit(0) } val conf = new SparkConf() conf.setSparkHome("/data/software/crazyjvm/spark") val sc = new SparkContext(conf) val data = sc.textFile(args(0)) data.cache println(data.count) data.filter(_.split(' ').length == 3).map(_.split(' ')(1)).map((_,1)).reduceByKey(_+_) .map(x => (x._2, x._1)).sortByKey(false).map( x => (x._2, x._1)).saveAsTextFile(args(1)) } }