geoHeil · April 16, 2016 14:22 · geoHeil · Apr 16, 2016 · geoHeil · Apr 16, 2016
diff --git a/gistfile1.txt b/gistfile1.txt
 import org.apache.spark.sql.{ Row, SQLContext }
 import org.apache.spark.sql.expressions.Window
 val sql = new org.apache.spark.sql.SQLContext(sc)

 val dataset = Seq(
  ("Thin",       "cell phone", 6000),
  ("Normal",     "tablet",     1500),
  ("Mini",       "tablet",     5500),
  ("Ultra thin", "cell phone", 5000),
  ("Very thin",  "cell phone", 6000),
  ("Big",        "tablet",     2500),
  ("Bendable",   "cell phone", 3000),
  ("Foldable",   "cell phone", 3000),
  ("Pro",        "tablet",     4500),
  ("Pro2",       "tablet",     6500))

 val df = dataset.toDF("product", "category", "revenue")

 df.show
 df.where('category === "tablet").show

 val overCategory = Window.partitionBy('category).orderBy('revenue.desc)
 val rank = dense_rank.over(overCategory)

 val ranked = df.withColumn("rank", dense_rank.over(overCategory))
 ranked.show

 ranked.where('rank <= 2).show

 ################
 Plain SQL fails
 ################

 df.registerTempTable("productRevenue")

 sql.sql("SELECT product,category,revenue FROM (SELECT product,category,revenue,dense_rank() OVER (PARTITION BY category ORDER BY revenue DESC) as rank FROM productRevenue) tmp WHERE rank <= 2")
 sql.sql("SELECT product,category,revenue,dense_rank() OVER (PARTITION BY category ORDER BY revenue DESC) as rank FROM productRevenue")
	import org.apache.spark.sql.{ Row, SQLContext }
	import org.apache.spark.sql.expressions.Window
	val sql = new org.apache.spark.sql.SQLContext(sc)

	val dataset = Seq(
	("Thin", "cell phone", 6000),
	("Normal", "tablet", 1500),
	("Mini", "tablet", 5500),
	("Ultra thin", "cell phone", 5000),
	("Very thin", "cell phone", 6000),
	("Big", "tablet", 2500),
	("Bendable", "cell phone", 3000),
	("Foldable", "cell phone", 3000),
	("Pro", "tablet", 4500),
	("Pro2", "tablet", 6500))

	val df = dataset.toDF("product", "category", "revenue")

	df.show
	df.where('category === "tablet").show

	val overCategory = Window.partitionBy('category).orderBy('revenue.desc)
	val rank = dense_rank.over(overCategory)

	val ranked = df.withColumn("rank", dense_rank.over(overCategory))
	ranked.show

	ranked.where('rank <= 2).show

	################
	Plain SQL fails
	################

	df.registerTempTable("productRevenue")

	sql.sql("SELECT product,category,revenue FROM (SELECT product,category,revenue,dense_rank() OVER (PARTITION BY category ORDER BY revenue DESC) as rank FROM productRevenue) tmp WHERE rank <= 2")
	sql.sql("SELECT product,category,revenue,dense_rank() OVER (PARTITION BY category ORDER BY revenue DESC) as rank FROM productRevenue")