apache · miccagiann · Jul 28, 2014 · Jul 30, 2014 · Jul 31, 2014 · Jul 31, 2014
diff --git a/mllib/src/main/scala/org/apache/spark/mllib/api/python/PythonMLLibAPI.scala b/mllib/src/main/scala/org/apache/spark/mllib/api/python/PythonMLLibAPI.scala
@@ -24,6 +24,7 @@ import org.apache.spark.api.java.{JavaSparkContext, JavaRDD}
 import org.apache.spark.mllib.classification._
 import org.apache.spark.mllib.clustering._
 import org.apache.spark.mllib.linalg.{SparseVector, Vector, Vectors}
+import org.apache.spark.mllib.optimization._
 import org.apache.spark.mllib.recommendation._
 import org.apache.spark.mllib.regression._
 import org.apache.spark.mllib.util.MLUtils
@@ -42,6 +43,16 @@ class PythonMLLibAPI extends Serializable {
   private val DENSE_MATRIX_MAGIC: Byte = 3
   private val LABELED_POINT_MAGIC: Byte = 4
 
+  /**
+   * Enumeration used to define the type of Regularizer
+   * used for linear methods.
+   */
+  object RegularizerType extends Serializable {
+    val L2 : Int = 0
+    val L1 : Int = 1
+    val NONE : Int = 2
+  }
+
   private[python] def deserializeDoubleVector(bytes: Array[Byte], offset: Int = 0): Vector = {
     require(bytes.length - offset >= 5, "Byte array too short")
     val magic = bytes(offset)
@@ -247,16 +258,24 @@ class PythonMLLibAPI extends Serializable {
       dataBytesJRDD: JavaRDD[Array[Byte]],
       numIterations: Int,
       stepSize: Double,
+      regParam: Double,
+      regType: Int,
+      intercept: Boolean,
       miniBatchFraction: Double,
       initialWeightsBA: Array[Byte]): java.util.List[java.lang.Object] = {
+    val lrAlg = new LinearRegressionWithSGD()
+    lrAlg.setIntercept(intercept)
+    lrAlg.optimizer.
+      setNumIterations(numIterations).
+      setRegParam(regParam).
+      setStepSize(stepSize)
+    if (regType == RegularizerType.L2)
+      lrAlg.optimizer.setUpdater(new SquaredL2Updater)
+    else if (regType == RegularizerType.L1)
+      lrAlg.optimizer.setUpdater(new L1Updater)
     trainRegressionModel(
       (data, initialWeights) =>
-        LinearRegressionWithSGD.train(
-          data,
-          numIterations,
-          stepSize,
-          miniBatchFraction,
-          initialWeights),
+        lrAlg.run(data, initialWeights),
       dataBytesJRDD,
       initialWeightsBA)
   }

diff --git a/python/pyspark/mllib/regression.py b/python/pyspark/mllib/regression.py
@@ -109,18 +109,35 @@ class LinearRegressionModel(LinearRegressionModelBase):
     True
     """
 
+class RegularizerType(object):
+    L2 = 0
+    L1 = 1
+    NONE = 2
 
 class LinearRegressionWithSGD(object):
     @classmethod
-    def train(cls, data, iterations=100, step=1.0,
-              miniBatchFraction=1.0, initialWeights=None):
+    def train(cls, data, iterations=100, step=1.0, regParam=1.0, regType=None,
+              intercept=False, miniBatchFraction=1.0, initialWeights=None):
         """Train a linear regression model on the given data."""
         sc = data.context
-        train_f = lambda d, i: sc._jvm.PythonMLLibAPI().trainLinearRegressionModelWithSGD(
-            d._jrdd, iterations, step, miniBatchFraction, i)
+        if regType is None:
+            train_f = lambda d, i: sc._jvm.PythonMLLibAPI().trainLinearRegressionModelWithSGD(
+                d._jrdd, iterations, step, regParam, sc._jvm.PythonMLLibAPI().RegularizerType().NONE(),
+                intercept, miniBatchFraction, i)
+        elif regType == RegularizerType.L2:
+            train_f = lambda d, i: sc._jvm.PythonMLLibAPI().trainLinearRegressionModelWithSGD(
+                d._jrdd, iterations, step, regParam, sc._jvm.PythonMLLibAPI().RegularizerType().L2(),
+                intercept, miniBatchFraction, i)
+        elif regType == RegularizerType.L1:
+            train_f = lambda d, i: sc._jvm.PythonMLLibAPI().trainLinearRegressionModelWithSGD(
+                d._jrdd, iterations, step, regParam, sc._jvm.PythonMLLibAPI().RegularizerType().L1(),
+                intercept, miniBatchFraction, i)
+        elif regType == RegularizerType.NONE:
+            train_f = lambda d, i: sc._jvm.PythonMLLibAPI().trainLinearRegressionModelWithSGD(
+                d._jrdd, iterations, step, regParam, sc._jvm.PythonMLLibAPI().RegularizerType().NONE(),
+                intercept, miniBatchFraction, i)
         return _regression_train_wrapper(sc, train_f, LinearRegressionModel, data, initialWeights)
 
-
 class LassoModel(LinearRegressionModelBase):
     """A linear regression model derived from a least-squares fit with an
     l_1 penalty term.