docs/algo/sona/pagerank_on_sona.md
PageRank算法可能是最著名的节点重要性评价算法,最初由拉里佩奇提出,被应用于Google搜索的网页排名, 可参考论文The PageRank Citation Ranking:Bringing Order to the Web.
我们基于Spark On Angel实现了大规模的PageRank计算,其中ps维护所有节点的的信息,包括接收、发送消息以及rank值向量。消息和rank值的计算在spark executor端完成,通过ps的push/update操作完成更新。
进入angel环境bin目录下
input=hdfs://my-hdfs/data
output=hdfs://my-hdfs/model
source ./spark-on-angel-env.sh
$SPARK_HOME/bin/spark-submit \
--master yarn-cluster\
--conf spark.ps.instances=1 \
--conf spark.ps.cores=1 \
--conf spark.ps.jars=$SONA_ANGEL_JARS \
--conf spark.ps.memory=10g \
--jars $SONA_SPARK_JARS \
--driver-memory 5g \
--num-executors 1 \
--executor-cores 4 \
--executor-memory 10g \
--class com.tencent.angel.spark.examples.cluster.PageRankExample \
../lib/spark-on-angel-examples-3.3.0.jar \
input:$input output:$output tol:0.01 resetProp:0.15 version:edge-cut batchSize:1000 psPartitionNum:10 dataPartitionNum:10