How to encode a data set for linear regression in Spark with Java?

Question

How to encode a data set for linear regression in Spark with Java?

I have Dataset<Row>three columns and I want to change to create a linear regression.

My colums [id , x, y], and I want linear regression for each id;

For instance:

[1 , 1005, 0.29]   
[1 , 1006, 0.46]  
[1 , 1007, 0.29]
[2 , 1000, 0.68]
[2 , 1010, 0.50]

How can I create LabeledPoint from this data?

Do I need my data this way ?:

(0.29, (1, [1005,1007]))
(0.46, (1, [1006]))
(0.68, (2, [1000]))
(0.50, (2, [1010]))

I know how to change to this point:

JavaRDD<Row> datardd = dataset.toJavaRDD();
JavaPairRDD<Integer, Tuple2<Double,Double>> datapairrdd =
           datardd.mapToPair(new PairFunction<Row, Integer, Tuple2<Double, Double>>(){
            @Override
            public Tuple2<Integer, Tuple2<Double, Double>> call(Row row) throws Exception {
                    return new Tuple2<>(new Integer(row.getString(0)), new Tuple2<>(new Double(row.getString(1)), new Double(row.getString(2))));
            }
        });
JavaPairRDD<Integer, Iterable<Tuple2<Double, Double>>> data = pairrdd.groupByKey();

So my data is now:

    (1, [(1005,0.29), (1006,0.46), (1007, 0.29)])
    (2, [(1000,0.68), (1010,0.50)])

But I'm stuck from here ...

+4

java apache-spark rdd apache-spark-mllib linear-regression

Cristu naranjo Aug 11 '16 at 9:21

source share

No one has answered this question yet.

See related questions:

3799

How do I read / convert an InputStream to a string in Java?

3324

How to generate random integers in a specific range in Java?

3073

How to efficiently iterate over each entry on a Java map?

2853

How to convert String to int in Java?

2171

How to determine if an array contains a specific value in Java?

2108

How can I name one constructor from another in Java?

1915

How to declare and initialize an array in Java?

1818

How to get enum value from string value in Java?

1571

How to avoid Java code in JSP files?

1541

How to break a string in Java

How to encode a data set for linear regression in Spark with Java?

More articles: