问题1:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory
此时程序会一直loading,running,loading,running…的循环,并持续出现上面的警告。
出现这个错误很有可能是你启动spark的方式有问题。很多人启动spark直接用start-all.sh,但是如果你在env配置文件里没有指定master的ip,这样启动就会报上面这个问题。如果没有配置可以在启动的时候指定:
在maser上用
./start-master.sh -h “ip地址”
在worker上用
./start-slave.sh spark://"master的ip":7077
其它参数在启动的时候也可以指定,端口号也可以改动。