fix mllib

cloud-fan · cloud-fan · commit 36c5b8b6ba32 · 2015-08-13T11:30:22.000+08:00
diff --git a/mllib/src/main/scala/org/apache/spark/ml/classification/OneVsRest.scala b/mllib/src/main/scala/org/apache/spark/ml/classification/OneVsRest.scala
@@ -131,7 +131,7 @@ final class OneVsRestModel private[ml] (
 
     // output label and label metadata as prediction
     aggregatedDataset
-      .withColumn($(predictionCol), labelUDF(col(accColName)).as($(predictionCol), labelMetadata))
+      .withColumn($(predictionCol), labelUDF(col(accColName)), Some(labelMetadata))
       .drop(accColName)
   }
 
@@ -203,8 +203,8 @@ final class OneVsRest(override val uid: String)
       // TODO: use when ... otherwise after SPARK-7321 is merged
       val newLabelMeta = BinaryAttribute.defaultAttr.withName("label").toMetadata()
       val labelColName = "mc2b$" + index
-      val labelUDFWithNewMeta = labelUDF(col($(labelCol))).as(labelColName, newLabelMeta)
-      val trainingDataset = multiclassLabeled.withColumn(labelColName, labelUDFWithNewMeta)
+      val trainingDataset = multiclassLabeled
+        .withColumn(labelColName, labelUDF(col($(labelCol))), Some(newLabelMeta))
       val classifier = getClassifier
       val paramMap = new ParamMap()
       paramMap.put(classifier.labelCol -> labelColName)
diff --git a/mllib/src/main/scala/org/apache/spark/ml/feature/Bucketizer.scala b/mllib/src/main/scala/org/apache/spark/ml/feature/Bucketizer.scala
@@ -75,7 +75,7 @@ final class Bucketizer(override val uid: String)
     }
     val newCol = bucketizer(dataset($(inputCol)))
     val newField = prepOutputField(dataset.schema)
-    dataset.withColumn($(outputCol), newCol.as($(outputCol), newField.metadata))
+    dataset.withColumn($(outputCol), newCol, Some(newField.metadata))
   }
 
   private def prepOutputField(schema: StructType): StructField = {
diff --git a/mllib/src/main/scala/org/apache/spark/ml/feature/VectorIndexer.scala b/mllib/src/main/scala/org/apache/spark/ml/feature/VectorIndexer.scala
@@ -341,7 +341,7 @@ class VectorIndexerModel private[ml] (
     val newField = prepOutputField(dataset.schema)
     val transformUDF = udf { (vector: Vector) => transformFunc(vector) }
     val newCol = transformUDF(dataset($(inputCol)))
-    dataset.withColumn($(outputCol), newCol.as($(outputCol), newField.metadata))
+    dataset.withColumn($(outputCol), newCol, Some(newField.metadata))
   }
 
   override def transformSchema(schema: StructType): StructType = {
diff --git a/mllib/src/main/scala/org/apache/spark/ml/feature/VectorSlicer.scala b/mllib/src/main/scala/org/apache/spark/ml/feature/VectorSlicer.scala
@@ -119,8 +119,7 @@ final class VectorSlicer(override val uid: String)
         case features: SparseVector => features.slice(inds)
       }
     }
-    dataset.withColumn($(outputCol),
-      slicer(dataset($(inputCol))).as($(outputCol), outputAttr.toMetadata()))
+    dataset.withColumn($(outputCol), slicer(dataset($(inputCol))), Some(outputAttr.toMetadata()))
   }
 
   /** Get the feature indices in order: indices, names */
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/analysis/AnalysisSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/analysis/AnalysisSuite.scala
@@ -133,5 +133,7 @@ class AnalysisSuite extends AnalysisTest {
     // CreateStruct is a special case that we should not trim Alias for it.
     plan = testRelation.select(CreateStruct(Seq(a, (a + 1).as("a+1"))).as("col"))
     checkAnalysis(plan, plan)
+    plan = testRelation.select(CreateStructUnsafe(Seq(a, (a + 1).as("a+1"))).as("col"))
+    checkAnalysis(plan, plan)
   }
 }
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/DataFrame.scala b/sql/core/src/main/scala/org/apache/spark/sql/DataFrame.scala
@@ -1135,17 +1135,18 @@ class DataFrame private[sql](
    * @group dfops
    * @since 1.3.0
    */
-  def withColumn(colName: String, col: Column): DataFrame = {
+  def withColumn(colName: String, col: Column, metadata: Option[Metadata] = None): DataFrame = {
     val resolver = sqlContext.analyzer.resolver
     val replaced = schema.exists(f => resolver(f.name, colName))
+    val aliasedColumn = metadata.map(md => col.as(colName, md)).getOrElse(col.as(colName))
     if (replaced) {
       val colNames = schema.map { field =>
         val name = field.name
-        if (resolver(name, colName)) col.as(colName) else Column(name)
+        if (resolver(name, colName)) aliasedColumn else Column(name)
       }
       select(colNames : _*)
     } else {
-      select(Column("*"), col.as(colName))
+      select(Column("*"), aliasedColumn)
     }
   }
 

Original file line number	Diff line number	Diff line change
`@@ -75,7 +75,7 @@ final class Bucketizer(override val uid: String)`
`75`	`75`	`}`
`76`	`76`	`val newCol = bucketizer(dataset($(inputCol)))`
`77`	`77`	`val newField = prepOutputField(dataset.schema)`
`78`		`- dataset.withColumn($(outputCol), newCol.as($(outputCol), newField.metadata))`
	`78`	`+ dataset.withColumn($(outputCol), newCol, Some(newField.metadata))`
`79`	`79`	`}`
`80`	`80`
`81`	`81`	`private def prepOutputField(schema: StructType): StructField = {`
Original file line number	Diff line number	Diff line change
`@@ -341,7 +341,7 @@ class VectorIndexerModel private[ml] (`
`341`	`341`	`val newField = prepOutputField(dataset.schema)`
`342`	`342`	`val transformUDF = udf { (vector: Vector) => transformFunc(vector) }`
`343`	`343`	`val newCol = transformUDF(dataset($(inputCol)))`
`344`		`- dataset.withColumn($(outputCol), newCol.as($(outputCol), newField.metadata))`
	`344`	`+ dataset.withColumn($(outputCol), newCol, Some(newField.metadata))`
`345`	`345`	`}`
`346`	`346`
`347`	`347`	`override def transformSchema(schema: StructType): StructType = {`
Original file line number	Diff line number	Diff line change
`@@ -119,8 +119,7 @@ final class VectorSlicer(override val uid: String)`
`119`	`119`	`case features: SparseVector => features.slice(inds)`
`120`	`120`	`}`
`121`	`121`	`}`
`122`		`- dataset.withColumn($(outputCol),`
`123`		`- slicer(dataset($(inputCol))).as($(outputCol), outputAttr.toMetadata()))`
	`122`	`+ dataset.withColumn($(outputCol), slicer(dataset($(inputCol))), Some(outputAttr.toMetadata()))`
`124`	`123`	`}`
`125`	`124`
`126`	`125`	`/** Get the feature indices in order: indices, names */`
Original file line number	Diff line number	Diff line change
`@@ -133,5 +133,7 @@ class AnalysisSuite extends AnalysisTest {`
`133`	`133`	`// CreateStruct is a special case that we should not trim Alias for it.`
`134`	`134`	`plan = testRelation.select(CreateStruct(Seq(a, (a + 1).as("a+1"))).as("col"))`
`135`	`135`	`checkAnalysis(plan, plan)`
	`136`	`+ plan = testRelation.select(CreateStructUnsafe(Seq(a, (a + 1).as("a+1"))).as("col"))`
	`137`	`+ checkAnalysis(plan, plan)`
`136`	`138`	`}`
`137`	`139`	`}`