Spark On Yarn实战-低调大师

Spark On Yarn实战

2017-11-08 596

这里已经部署好hadoop环境，以及spark

环境如下：

192.168.1.2 master

 
        [hadoop@master ~]$ jps
       
        2298 SecondaryNameNode
       
        2131 NameNode
       
        2593 JobHistoryServer
       
        4363 Jps
       
        3550 HistoryServer
       
        2481 ResourceManager
       
        3362 Master

192.168.1.3 slave1

 
        [hadoop@slave1 ~]$ jps
       
        2919 Jps
       
        2464 Worker
       
        1993 DataNode
       
        2109 NodeManager

192.168.1.4 slave2

 
        [hadoop@slave2 ~]$ jps
       
        2762 Jps
       
        2113 NodeManager
       
        1998 DataNode
       
        2452 Worker

这里以spark自带求pi值的python程序为例

 
  
    
      
      
        [hadoop@master ~]$ 
        cd 
        spark 
       
 
        [hadoop@master spark]$ 
        find 
        . -name 
        "pi.py" 
       
 
        [hadoop@master spark]$ 
        cat 
        .
        /examples/src/main/python/pi
        .py 
       

        #
       

        # Licensed to the Apache Software Foundation (ASF) under one or more
       

        # contributor license agreements.  See the NOTICE file distributed with
       

        # this work for additional information regarding copyright ownership.
       

        # The ASF licenses this file to You under the Apache License, Version 2.0
       

        # (the "License"); you may not use this file except in compliance with
       

        # the License.  You may obtain a copy of the License at
       

        #
       

        #    http://www.apache.org/licenses/LICENSE-2.0
       

        #
       

        # Unless required by applicable law or agreed to in writing, software
       

        # distributed under the License is distributed on an "AS IS" BASIS,
       

        # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
       

        # See the License for the specific language governing permissions and
       

        # limitations under the License.
       

        #
       

         
       
 
        import 
        sys 
       
 
        from random 
        import 
        random 
       
 
        from operator 
        import 
        add 
       

         
       
 
        from pyspark 
        import 
        SparkContext 
       

         
       

         
       
 
        if 
        __name__ == 
        "__main__"
        : 
       
 
            
        ""
        " 
       
 
                
        Usage: pi [slices] 
       
 
            
        ""
        " 
       
 
            
        sc = SparkContext(appName=
        "PythonPi"
        ) 
       
 
            
        slices = int(sys.argv[1]) 
        if 
        len(sys.argv) > 1 
        else 
        2 
       
 
            
        n = 100000 * slices 
       

         
       
 
            
        def f(_): 
       
 
                
        x = random() * 2 - 1 
       
 
                
        y = random() * 2 - 1 
       
 
                
        return 
        1 
        if 
        x ** 2 + y ** 2 < 1 
        else 
        0 
       

         
       
 
            
        count = sc.parallelize(xrange(1, n+1), slices).map(f).reduce(add) 
       
 
            
        print 
        "Pi is roughly %f" 
        % (4.0 * count / n) 
       
 
             
       

         
       

         
       
 
        [hadoop@master spark]$ 
        cd 
        .
        /examples/src/main/python/ 
       

        # 修改pi.py文件，在末尾添加
       

        sc.stop()
       

         
       
 
        [hadoop@master python]$ spark-submit --master spark:
        //master
        :7077 --executor-memory 200m --driver-memory 200m pi.py  
       

         
       

        # 如报下面错误，绑定hosts文件127.0.0.1为localhost
       

        Traceback (most recent call last):
       
 
          
        File 
        "/home/hadoop/spark-1.0.2-bin-hadoop2/examples/src/main/python/pi.py"
        , line 29, 
        in 
        <module> 
       
 
            
        sc = SparkContext(appName=
        "PythonPi"
        ) 
       
 
          
        File 
        "/home/hadoop/spark/python/pyspark/context.py"
        , line 138, 
        in 
        __init__ 
       
 
            
        self._accumulatorServer = accumulators._start_update_server() 
       
 
          
        File 
        "/home/hadoop/spark/python/pyspark/accumulators.py"
        , line 224, 
        in 
        _start_update_server 
       
 
            
        server = SocketServer.TCPServer((
        "localhost"
        , 0), _UpdateRequestHandler) 
       
 
          
        File 
        "/usr/lib64/python2.6/SocketServer.py"
        , line 402, 
        in 
        __init__ 
       
 
            
        self.server_bind() 
       
 
          
        File 
        "/usr/lib64/python2.6/SocketServer.py"
        , line 413, 
        in 
        server_bind 
       
 
            
        self.socket.bind(self.server_address) 
       
 
          
        File 
        "<string>"
        , line 1, 
        in 
        bind 
       
 
        socket.gaierror: [Errno -3] Temporary failure 
        in 
        name resolution 
       

         
       

        # 正常执行如下
       
 
        [hadoop@master python]$ spark-submit --master spark:
        //master
        :7077 --executor-memory 200m --driver-memory 200m pi.py 
       

        Spark assembly has been built with Hive, including Datanucleus jars on classpath
       
 
        15
        /03/25 
        12:18:27 INFO spark.SecurityManager: Changing view acls to: hadoop 
       
 
        15
        /03/25 
        12:18:27 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; 
        users 
        with view permissions: Set(hadoop) 
       
 
        15
        /03/25 
        12:18:28 INFO slf4j.Slf4jLogger: Slf4jLogger started 
       
 
        15
        /03/25 
        12:18:28 INFO Remoting: Starting remoting 
       
 
        15
        /03/25 
        12:18:29 INFO Remoting: Remoting started; listening on addresses :[akka.tcp:
        //spark
        @master:47877] 
       
 
        15
        /03/25 
        12:18:29 INFO Remoting: Remoting now listens on addresses: [akka.tcp:
        //spark
        @master:47877] 
       
 
        15
        /03/25 
        12:18:29 INFO spark.SparkEnv: Registering MapOutputTracker 
       
 
        15
        /03/25 
        12:18:29 INFO spark.SparkEnv: Registering BlockManagerMaster 
       
 
        15
        /03/25 
        12:18:29 INFO storage.DiskBlockManager: Created 
        local 
        directory at 
        /tmp/spark-local-20150325121829-88cd 
       
 
        15
        /03/25 
        12:18:29 INFO storage.MemoryStore: MemoryStore started with capacity 116.0 MB. 
       
 
        15
        /03/25 
        12:18:30 INFO network.ConnectionManager: Bound socket to port 48556 with 
        id 
        = ConnectionManagerId(master,48556) 
       
 
        15
        /03/25 
        12:18:30 INFO storage.BlockManagerMaster: Trying to register BlockManager 
       
 
        15
        /03/25 
        12:18:30 INFO storage.BlockManagerInfo: Registering block manager master:48556 with 116.0 MB RAM 
       
 
        15
        /03/25 
        12:18:30 INFO storage.BlockManagerMaster: Registered BlockManager 
       
 
        15
        /03/25 
        12:18:30 INFO spark.HttpServer: Starting HTTP Server 
       
 
        15
        /03/25 
        12:18:30 INFO server.Server: jetty-8.y.z-SNAPSHOT 
       
 
        15
        /03/25 
        12:18:30 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:48872 
       
 
        15
        /03/25 
        12:18:30 INFO broadcast.HttpBroadcast: Broadcast server started at http:
        //192
        .168.1.2:48872 
       
 
        15
        /03/25 
        12:18:30 INFO spark.HttpFileServer: HTTP File server directory is 
        /tmp/spark-e2d76bbd-d2f6-4b2f-a018-f2d795a488aa 
       
 
        15
        /03/25 
        12:18:30 INFO spark.HttpServer: Starting HTTP Server 
       
 
        15
        /03/25 
        12:18:30 INFO server.Server: jetty-8.y.z-SNAPSHOT 
       
 
        15
        /03/25 
        12:18:30 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:43148 
       
 
        15
        /03/25 
        12:18:31 INFO server.Server: jetty-8.y.z-SNAPSHOT 
       
 
        15
        /03/25 
        12:18:31 INFO server.AbstractConnector: Started SelectChannelConnector@0.0.0.0:4040 
       
 
        15
        /03/25 
        12:18:31 INFO ui.SparkUI: Started SparkUI at http:
        //master
        :4040 
       
 
        15
        /03/25 
        12:18:32 WARN util.NativeCodeLoader: Unable to load native-hadoop library 
        for 
        your platform... using 
        builtin
        -java classes where applicable 
       
 
        15
        /03/25 
        12:18:35 INFO scheduler.EventLoggingListener: Logging events to hdfs:
        //master
        :9000
        /spark/log/pythonpi-1427311113352 
       
 
        15
        /03/25 
        12:18:35 INFO util.Utils: Copying 
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /examples/src/main/python/pi
        .py to 
        /tmp/spark-b66e65a9-91dc-479c-8938-14314fd1febb/pi
        .py 
       
 
        15
        /03/25 
        12:18:36 INFO spark.SparkContext: Added 
        file 
        file
        :
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /examples/src/main/python/pi
        .py at http:
        //192
        .168.1.2:43148
        /files/pi
        .py with timestamp 1427311115 
       
 
        93515
        /03/25 
        12:18:36 INFO client.AppClient$ClientActor: Connecting to master spark:
        //master
        :7077... 
       
 
        15
        /03/25 
        12:18:38 INFO spark.SparkContext: Starting job: reduce at 
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /examples/src/main/python/pi
        .py:38 
       
 
        15
        /03/25 
        12:18:38 INFO scheduler.DAGScheduler: Got job 0 (reduce at 
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /examples/src/main/python/pi
        .py:38) with 2 output partitions (allowLocal=
        false
        ) 
       
 
        15
        /03/25 
        12:18:38 INFO scheduler.DAGScheduler: Final stage: Stage 0(reduce at 
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /examples/src/main/python/pi
        .py:38) 
       
 
        15
        /03/25 
        12:18:38 INFO scheduler.DAGScheduler: Parents of final stage: List() 
       
 
        15
        /03/25 
        12:18:38 INFO scheduler.DAGScheduler: Missing parents: List() 
       
 
        15
        /03/25 
        12:18:38 INFO scheduler.DAGScheduler: Submitting Stage 0 (PythonRDD[1] at RDD at PythonRDD.scala:37), 
        which 
        has no missing parents 
       
 
        15
        /03/25 
        12:18:38 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 0 (PythonRDD[1] at RDD at PythonRDD.scala:37) 
       
 
        15
        /03/25 
        12:18:38 INFO scheduler.TaskSchedulerImpl: Adding task 
        set 
        0.0 with 2 tasks 
       
 
        15
        /03/25 
        12:18:38 INFO cluster.SparkDeploySchedulerBackend: Connected to Spark cluster with app ID app-20150325121838-0001 
       
 
        15
        /03/25 
        12:18:38 INFO client.AppClient$ClientActor: Executor added: app-20150325121838-0001
        /0 
        on worker-20150325114825-slave1-50832 (slave1:50832) with 1 cores 
       
 
        15
        /03/25 
        12:18:38 INFO cluster.SparkDeploySchedulerBackend: Granted executor ID app-20150325121838-0001
        /0 
        on hostPort slave1:50832 with 1 cores, 200.0 MB RAM 
       
 
        15
        /03/25 
        12:18:38 INFO client.AppClient$ClientActor: Executor added: app-20150325121838-0001
        /1 
        on worker-20150325114823-slave2-56888 (slave2:56888) with 1 cores 
       
 
        15
        /03/25 
        12:18:38 INFO cluster.SparkDeploySchedulerBackend: Granted executor ID app-20150325121838-0001
        /1 
        on hostPort slave2:56888 with 1 cores, 200.0 MB RAM 
       
 
        15
        /03/25 
        12:18:39 INFO client.AppClient$ClientActor: Executor updated: app-20150325121838-0001
        /0 
        is now RUNNING 
       
 
        15
        /03/25 
        12:18:39 INFO client.AppClient$ClientActor: Executor updated: app-20150325121838-0001
        /1 
        is now RUNNING 
       
 
        15
        /03/25 
        12:18:43 INFO cluster.SparkDeploySchedulerBackend: Registered executor: Actor[akka.tcp:
        //sparkExecutor
        @slave1:35398
        /user/Executor
        #765391125] with ID 0 
       
 
        15
        /03/25 
        12:18:43 INFO scheduler.TaskSetManager: Starting task 0.0:0 as TID 0 on executor 0: slave1 (PROCESS_LOCAL) 
       
 
        15
        /03/25 
        12:18:43 INFO scheduler.TaskSetManager: Serialized task 0.0:0 as 374986 bytes 
        in 
        12 ms 
       
 
        15
        /03/25 
        12:18:44 INFO cluster.SparkDeploySchedulerBackend: Registered executor: Actor[akka.tcp:
        //sparkExecutor
        @slave2:37669
        /user/Executor
        #2076348799] with ID 1 
       
 
        15
        /03/25 
        12:18:44 INFO scheduler.TaskSetManager: Starting task 0.0:1 as TID 1 on executor 1: slave2 (PROCESS_LOCAL) 
       
 
        15
        /03/25 
        12:18:44 INFO scheduler.TaskSetManager: Serialized task 0.0:1 as 502789 bytes 
        in 
        4 ms 
       
 
        15
        /03/25 
        12:18:44 INFO storage.BlockManagerInfo: Registering block manager slave1:47192 with 116.0 MB RAM 
       
 
        15
        /03/25 
        12:18:44 INFO storage.BlockManagerInfo: Registering block manager slave2:42313 with 116.0 MB RAM 
       
 
        15
        /03/25 
        12:18:46 INFO scheduler.TaskSetManager: Finished TID 0 
        in 
        2534 ms on slave1 (progress: 1
        /2
        ) 
       
 
        15
        /03/25 
        12:18:46 INFO scheduler.DAGScheduler: Completed ResultTask(0, 0) 
       
 
        15
        /03/25 
        12:18:46 INFO scheduler.TaskSetManager: Finished TID 1 
        in 
        2234 ms on slave2 (progress: 2
        /2
        ) 
       
 
        15
        /03/25 
        12:18:46 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool  
       
 
        15
        /03/25 
        12:18:46 INFO scheduler.DAGScheduler: Completed ResultTask(0, 1) 
       
 
        15
        /03/25 
        12:18:46 INFO scheduler.DAGScheduler: Stage 0 (reduce at 
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /examples/src/main/python/pi
        .py:38) finished 
        in 
        7.867 s 
       
 
        15
        /03/25 
        12:18:46 INFO spark.SparkContext: Job finished: reduce at 
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /examples/src/main/python/pi
        .py:38, took 8.181053565 s 
       

        Pi is roughly 3.147220
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /metrics/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /stages/stage/kill
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{/,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /static
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /executors/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /executors
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /environment/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /environment
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /storage/rdd/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /storage/rdd
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /storage/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /storage
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /stages/pool/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /stages/pool
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /stages/stage/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /stages/stage
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /stages/json
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO handler.ContextHandler: stopped o.e.j.s.ServletContextHandler{
        /stages
        ,null} 
       
 
        15
        /03/25 
        12:18:46 INFO ui.SparkUI: Stopped Spark web UI at http:
        //master
        :4040 
       
 
        15
        /03/25 
        12:18:46 INFO scheduler.DAGScheduler: Stopping DAGScheduler 
       
 
        15
        /03/25 
        12:18:46 INFO cluster.SparkDeploySchedulerBackend: Shutting down all executors 
       
 
        15
        /03/25 
        12:18:46 INFO cluster.SparkDeploySchedulerBackend: Asking each executor to shut down 
       
 
        15
        /03/25 
        12:18:47 INFO spark.MapOutputTrackerMasterActor: MapOutputTrackerActor stopped! 
       
 
        15
        /03/25 
        12:18:47 INFO network.ConnectionManager: Selector thread was interrupted! 
       
 
        15
        /03/25 
        12:18:47 INFO network.ConnectionManager: ConnectionManager stopped 
       
 
        15
        /03/25 
        12:18:47 INFO storage.MemoryStore: MemoryStore cleared 
       
 
        15
        /03/25 
        12:18:47 INFO storage.BlockManager: BlockManager stopped 
       
 
        15
        /03/25 
        12:18:47 INFO storage.BlockManagerMasterActor: Stopping BlockManagerMaster 
       
 
        15
        /03/25 
        12:18:47 INFO storage.BlockManagerMaster: BlockManagerMaster stopped 
       
 
        15
        /03/25 
        12:18:47 INFO remote.RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon. 
       
 
        15
        /03/25 
        12:18:47 INFO remote.RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports. 
       
 
        15
        /03/25 
        12:18:47 INFO Remoting: Remoting shut down 
       
 
        15
        /03/25 
        12:18:47 INFO remote.RemoteActorRefProvider$RemotingTerminator: Remoting shut down. 
       
 
        15
        /03/25 
        12:18:48 INFO spark.SparkContext: Successfully stopped SparkContext 
       
 
    

   
 

查看任务监控，http://192.168.1.2:8080/

查看worker信息 http://192.168.1.3:8081/

spark on yarn实践

 
        [hadoop@master ~]$ 
        cd 
        spark
        /examples/src/main/scala/org/apache/spark/examples/ 
       
        [hadoop@master examples]$ spark-submit --master yarn-cluster \
       
        > --class org.apache.spark.examples.SparkPi \
       
        > --driver-memory 400m \
       
        > --executor-memory 400m \
       
        > --executor-cores 1 \
       
        > --num-executors 2 \
       
        > 
        /home/hadoop/spark/lib/spark-examples-1
        .0.2-hadoop2.2.0.jar 2 
       
        # 如报下面错误，修改yarn-site.xml文件
       
        <property> 
       
        <name>yarn.scheduler.maximum-allocation-mb<
        /name
        > 
       
        <value>800<
        /value
        > 
       
        <
        /property
        > 
       
        # value大于800即可，然后重启yarn
       
        # 正常结果如下：
       
        [hadoop@master sbin]$ spark-submit --master yarn-cluster --class org.apache.spark.examples.SparkPi --driver-memory 400m --executor-memory 400m --executor-cores 1 --num-executors 2 
        /home/hadoop 
       
        /spark/lib/spark-examples-1
        .0.2-hadoop2.2.0.jar 2Spark assembly has been built with Hive, including Datanucleus jars on classpath 
       
        15
        /03/25 
        13:06:08 WARN util.NativeCodeLoader: Unable to load native-hadoop library 
        for 
        your platform... using 
        builtin
        -java classes where applicable 
       
        15
        /03/25 
        13:06:09 INFO client.RMProxy: Connecting to ResourceManager at master
        /192
        .168.1.2:8032 
       
        15
        /03/25 
        13:06:09 INFO yarn.Client: Got Cluster metric info from ApplicationsManager (ASM), number of NodeManagers: 2 
       
        15
        /03/25 
        13:06:09 INFO yarn.Client: Queue info ... queueName: default, queueCurrentCapacity: 0.0, queueMaxCapacity: 1.0, 
       
        queueApplicationCount = 0, queueChildQueueCount = 0 
       
        15
        /03/25 
        13:06:09 INFO yarn.Client: Max mem capabililty of a single resource 
        in 
        this cluster 800 
       
        15
        /03/25 
        13:06:09 INFO yarn.Client: Preparing Local resources 
       
        15
        /03/25 
        13:06:10 INFO yarn.Client: Uploading 
        file
        :
        /home/hadoop/spark/lib/spark-examples-1
        .0.2-hadoop2.2.0.jar to hdfs:
        //master
        :9000
        /user/hadoop/
        .sparkStaging
        /application_1427313904247_0001/sp 
       
        ark-examples-1.0.2-hadoop2.2.0.jar15
        /03/25 
        13:06:13 INFO yarn.Client: Uploading 
        file
        :
        /home/hadoop/spark-1
        .0.2-bin-hadoop2
        /lib/spark-assembly-1
        .0.2-hadoop2.2.0.jar to hdfs:
        //master
        :9000
        /user/hadoop/
        .sparkStaging
        /application_142 
       
        7313904247_0001
        /spark-assembly-1
        .0.2-hadoop2.2.0.jar15
        /03/25 
        13:06:25 INFO yarn.Client: Setting up the launch environment 
       
        15
        /03/25 
        13:06:25 INFO yarn.Client: Setting up container launch context 
       
        15
        /03/25 
        13:06:25 INFO yarn.Client: Command 
        for 
        starting the Spark ApplicationMaster: List($JAVA_HOME
        /bin/java
        , -server, -Xmx400m, -Djava.io.tmpdir=$PWD
        /tmp
        , -Dspark.app.name=\"org.apache.spar 
       
        k.examples.SparkPi\", -Dspark.eventLog.enabled=\"
        true
        \", -Dspark.eventLog.
        dir
        =\"hdfs:
        //master
        :9000
        /spark/log
        \", -Dspark.yarn.historyServer.address=\"master:18080\",  -Dlog4j.configuration=log4j-spark-container.properties, org.apache.spark.deploy.yarn.ApplicationMaster, --class, org.apache.spark.examples.SparkPi, --jar , 
        file
        :
        /home/hadoop/spark/lib/spark-examples-1
        .0.2-hadoop2.2.0.jar,  --args  
        '2' 
        , --executor-memory, 400, --executor-cores, 1, --num-executors , 2, 1>, <LOG_DIR>
        /stdout
        , 2>, <LOG_DIR>
        /stderr
        )15
        /03/25 
        13:06:25 INFO yarn.Client: Submitting application to ASM 
       
        15
        /03/25 
        13:06:25 INFO impl.YarnClientImpl: Submitted application application_1427313904247_0001 to ResourceManager at master
        /192
        .168.1.2:8032 
       
        15
        /03/25 
        13:06:26 INFO yarn.Client: Application report from ASM:  
       
        application identifier: application_1427313904247_0001 
       
        appId: 1 
       
        clientToAMToken: null 
       
        appDiagnostics:  
       
        appMasterHost: N
        /A 
       
        appQueue: default 
       
        appMasterRpcPort: 0 
       
        appStartTime: 1427313985731 
       
        yarnAppState: ACCEPTED 
       
        distributedFinalState: UNDEFINED 
       
        appTrackingUrl: master:8088
        /proxy/application_1427313904247_0001/ 
       
        appUser: hadoop 
       
        15
        /03/25 
        13:06:27 INFO yarn.Client: Application report from ASM:  
       
        application identifier: application_1427313904247_0001 
       
        appId: 1 
       
        clientToAMToken: null 
       
        appDiagnostics:  
       
        appMasterHost: N
        /A 
       
        appQueue: default 
       
        appMasterRpcPort: 0 
       
        appStartTime: 1427313985731 
       
        yarnAppState: ACCEPTED 
       
        distributedFinalState: UNDEFINED 
       
        appTrackingUrl: master:8088
        /proxy/application_1427313904247_0001/ 
       
        appUser: hadoop

查看yarn监控页面:http://192.168.1.2:8088/cluster

可以看到任务是在slave2上面执行的

访问http://192.168.1.4:8042/node

登录slave2查看

 
        [hadoop@slave2 ~]$ 
        cd 
        /home/hadoop/hadoop/logs/userlogs/application_1427313904247_0001/container_1427313904247_0001_01_000001 
       
        [hadoop@slave2 container_1427313904247_0001_01_000001]$ 
        ls 
       
        stderr  stdout
       
        [hadoop@slave2 container_1427313904247_0001_01_000001]$ 
        cat 
        stdout  
       
        Pi is roughly 3.13774
       
        [hadoop@slave2 ~]$ 
        cd 
        /home/hadoop/spark/examples/src/main/scala/org/apache/spark/examples/ 
       
        [hadoop@slave2 examples]$ 
        cat 
        SparkPi.scala  
       
        /*
       
        * Licensed to the Apache Software Foundation (ASF) under one or 
        more 
       
        * contributor license agreements.  See the NOTICE 
        file 
        distributed with 
       
        * this work 
        for 
        additional information regarding copyright ownership. 
       
        * The ASF licenses this 
        file 
        to You under the Apache License, Version 2.0 
       
        * (the 
        "License"
        ); you may not use this 
        file 
        except 
        in 
        compliance with 
       
        * the License.  You may obtain a copy of the License at 
       
        * 
       
        *    http:
        //www
        .apache.org
        /licenses/LICENSE-2
        .0 
       
        * 
       
        * Unless required by applicable law or agreed to 
        in 
        writing, software 
       
        * distributed under the License is distributed on an 
        "AS IS" 
        BASIS, 
       
        * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
       
        * See the License 
        for 
        the specific language governing permissions and 
       
        * limitations under the License. 
       
        */ 
       
        package org.apache.spark.examples
       
        import 
        scala.math.random 
       
        import 
        org.apache.spark._ 
       
        /** Computes an approximation to pi */
       
        object SparkPi {
       
        def main(args: Array[String]) { 
       
        val conf = new SparkConf().setAppName(
        "Spark Pi"
        ) 
       
        val spark = new SparkContext(conf) 
       
        val slices = 
        if 
        (args.length > 0) args(0).toInt 
        else 
        2 
       
        val n = 100000 * slices 
       
        val count = spark.parallelize(1 to n, slices).map { i => 
       
        val x = random * 2 - 1 
       
        val y = random * 2 - 1 
       
        if 
        (x*x + y*y < 1) 1 
        else 
        0 
       
        }.reduce(_ + _) 
       
        println(
        "Pi is roughly " 
        + 4.0 * count / n) 
       
        spark.stop() 
       
        } 
       
        }

在yarn上面使用spark-shell

 
        [hadoop@master ~]$ spark-shell --master yarn-client

 
        本文转自ljl_19880709 51CTO博客，原文链接http://blog.51cto.com/luojianlong/1624164
   ：，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/482693

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

马哥运维学习作业（五）

1、显示当前系统上root、fedora或user1用户的默认shell； 1 2 3 4 5 6 [root@C7-1~] #useraddfedora#新建用户fedora [root@C7-1~] #useradduser1#新建用户user1 [root@C7-1~] #egrep'^(root|fedora|user1)\>'/etc/passwd|cut-d:-f1,7#由于(root|fedora|user1)是扩展表达式，所以要使用egrep或grep-E root: /bin/bash fedora: /bin/bash user1: /bin/bash 注：^(root|fedora|user1)\>表示以这三个用户开头的行。cut -d: -f1,7表示以:为分隔符，取第1和第7字段，这二个字段是用户名和shell的。图示： 2、找出/etc/rc.d/init.d/functions文件中某单词后面跟一组小括号的行，形如：hello()； 1 2 3 4 [root@C7-1~] #egrep-o"^[_[:alpha:]]+\(\)"/etc/r...

2017-11-09

506

Phoenix与Squirrel 是什么？

前言 Phoenix是HBase的开源SQL引擎。 squirrel是windows上Phoneix可视化工具。 Phoenix的官网 http://phoenix.apache.org/ Phoenix是什么？ Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表，插入数据，查询你的HBase数据。 Phoenix是构建在HBase之上的SQL引擎。你也许会存在“Phoenix是否会降低HBase的效率？”或者“Phoenix效率是否很低？”这样的疑虑，事实上并不会，Phoenix通过以下方式实现了比你自己手写的方式相同或者可能是更好的性能（更不用说可以少写了很多代码）：编译你的SQL查询为原生HBase的scan语句。检测scan语句最佳的开始和结束的key。精心编排你的scan语句让他们并行执行。让计算去接近数据通过。推送你的WHERE子句的谓词到服务端过滤器处理。执行聚合查询通过服务端钩子（称为协同处理器）。除此之外，Phoenix还做了一些有趣的增强功能来更多地优化性能：...

2017-11-09

593

发表评论

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。