docs/algo/sona/pagerank_pro_on_sona.md
与PageRank的不同在于PageRankPro在迭代计算前自定义指定部分节点rank值。
我们基于Spark On Angel实现了大规模的PageRank计算,其中ps维护所有节点的的信息,包括接收、发送消息以及rank值向量。消息和rank值的计算在spark executor端完成,通过ps的push/update操作完成更新。
进入angel环境bin目录下
input=hdfs://my-hdfs/data
output=hdfs://my-hdfs/model
labelPosInput=hdfs://my-hdfs/nodeToRank
source ./spark-on-angel-env.sh
$SPARK_HOME/bin/spark-submit \
--master yarn-cluster\
--conf spark.ps.instances=1 \
--conf spark.ps.cores=1 \
--conf spark.ps.jars=$SONA_ANGEL_JARS \
--conf spark.ps.memory=10g \
--jars $SONA_SPARK_JARS \
--driver-memory 5g \
--num-executors 1 \
--executor-cores 4 \
--executor-memory 10g \
--class com.tencent.angel.spark.examples.cluster.PageRankProExample \
../lib/spark-on-angel-examples-3.3.0.jar \
input:$input output:$output labelPosInput:$labelPosInput tol:0.01 resetProp:0.15 batchSize:1000 psPartitionNum:10 dataPartitionNum:10