1. 程式人生 > >MXNet多機分散式配置

MXNet多機分散式配置

mxnet多機分散式配置

將一臺機器上的mxnet拷到另外兩臺機器上

scp -r /home/hzz/mxnet [email protected]:/home/hzz/mxnet

如果已經在自己的環境安裝好mxnet或者不想新建一個Python環境,可以忽略下面這幾步。

建立新的Python環境

對每臺機器,用anacodna的conda建立新的Python環境,在這個環境安裝mxnet,

conda create -n mxnet-1.1-modify python=2.7

啟用這個環境

source activate mxnet-1.1-modify

如果要解除這個環境,只需

source deactivate

之後檢視當前的Python是不是在新的環境下

which python

安裝mxnet,搭建分散式

進入mxnet/python,安裝mxnet

python setup.py install

設定hosts為三臺機器的ip,這裡命名為Host,如

9.91.21.46
9.91.21.37
9.91.21.34

在每臺機器執行自己的local分散式程式, launch檔案在 mxnet/tools/

python launch.py -n 1 --launcher local `which python` /home/hzz/tcd-workspace/imagenet_gai.py --data_url /data/ --train_file ILSVRC2012_img_train.rec --batch_size 256 --num_classes 1000 --val_file ILSVRC2012_img_val.rec --num_layers=50 --network=resnet

每臺都成功後,再用分散式

python launch.py -n 3 -H /home/hzz/tcd-workspace/Host --launcher ssh `which python` /home/hzz/tcd-workspace/imagenet_gai.py --data_url /data/ --train_file ILSVRC2012_img_train.rec --batch_size 256 --num_classes 1000 --val_file ILSVRC2012_img_val.rec --num_layers=50 --network=resnet

踩坑

  • 在conda create建立環境時,報錯post-link,更新conda為最新版即可

    conda upgrade conda
    
  • 從一臺機器拷貝資料到其他機器上,報許可權問題,目標機器拷貝的資料夾也需要許可權

    sudo chmod 777 /data
    
  • OSError: libmxnet.so: cannot open shared object file: No such file or direct
    把.so檔案放到LD_LIBRARY_PATH環境下,如:

    vi ~/.bashrc
    
    export CUDA_HOME=/usr/local/cuda
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME:$CUDA_HOME/lib64

最後

    source ~/.bashrc

相關推薦

MXNet分散式配置

mxnet多機分散式配置 將一臺機器上的mxnet拷到另外兩臺機器上 scp -r /home/hzz/mxnet [email protected]:/home/hzz/mxnet 如果已經在自己的環境安裝好mxnet或者不想新建一個Pyth

『TensorFlow』分散式訓練_其三_分散式

一、基本概念 Cluster、Job、task概念:三者可以簡單的看成是層次關係,task可以看成每臺機器上的一個程序,多個task組成job;job又有:ps、worker兩種,分別用於引數服務、計算服務,組成cluster。 同步更新 各個用於平行計算的電腦

elasticsearch5.5叢集配置 與 Centos 7關閉防火牆

    今天,講解下elasticsearch叢集的配置與在centos中如何關閉防火牆..... 首先,講解下如何在centos中關閉防火牆?       為啥要講一下這塊內容呢?在實際的開發與運維中,經常會遇到應用啟動後,訪問應用.....報錯404......很多情

elasticsearch5.5叢集配置

elasticsearch5.5多機叢集配置   ELasticsearch 5.5要求JDK版本最低為1.8;   配置叢集之前  先把要加群叢集的節點的裡的data目錄下的Node目錄 刪除,否則叢集建立會失敗。   我這邊虛擬機器

用rabbitmq 寫一個分散式爬蟲

                     其實說是爬蟲也只是個幌子。換成其他的耗資源的程式也成,耗CPU,耗網路。                                              1,要有被用於爬取的url,用一個client生成url,在ser

快速上手卡的分散式tensorflow

快速上手多機多卡的分散式tensorflow 終於又有時間和成果拿出來和大家分享,實在不容易,之前由於臨時更換任務加上入職事情多斷更了很久,現在主要在做一些KG和KGQA方面的工作。今天要和大家分享的是最近在工作中實現的分散式tensorflow。(BTW打個廣告~NLP和DL討論歡迎加群~二維

ros 工作空間的覆蓋、c++程式設計介面實現通訊方式、自定義訊息格式、分散式通訊

工作空間的覆蓋 同一個工作空間下,不允許出現同名的功能包,否則無法編譯。不同工作空間下,允許出現同名的功能包,但會出現工作空間覆蓋的現象。 ros工作空間的路徑記錄在ROS_PACKAGE_PATH環境變數中,可以通過env命令檢視計算機中的環境變數,再利用管道過濾出有關

部署之NFS的安裝與配置

本文已在本人部落格https://www.nsxsg.com/archives/90首發 文章目錄 多機部署之NFS的安裝與配置 多機部署之NFS的安裝與配置 NFS即網路檔案系統,說的通俗一點就是網路共享檔案。它能夠讓不同的伺服

zookeeper的單機例項配置分散式配置

單機多例項配置: #生成配置檔案,配置檔名隨便,這裡是zoo.cfg cp /data/apache/zookeeper/conf/zoo_sample.cfg  /data/apache/zookeeper/conf/zoo.cfg vi /data/apache/zo

Apache JMeter壓力測試之分散式測試(聯測)

引言 利用JMeter進行負載測試的時候,使用單臺機器模擬數以千計的併發使用者有些力不從心,在執行的過程中,可能會遇到諸如CPU、記憶體負載過高,address already in use,程式自動關閉等問題。這時可以使用分散式測試,即在多臺機器上執行JMeter,以此獲

ros分散式通訊完整教程

ros多機通訊完整試坑教程 前言: 老規矩,先講講為啥要做這個專案。因為機器人上的工控機沒有辦法加顯示卡,所以無法跑TensorFlow-GPU,如果用CPU的話,一個是時間太長,二是消耗資源太多。 所以必須得將影象處理模組,放到筆記本上。剛好看到古月居大佬

spring資料來源的配置分散式事務管理)

<bean id="dataSource" class="com.atomikos.jdbc.AtomikosDataSourceBean" init-method="init" destroy-method="close"> <property name="uniqueResource

mxnet層感知訓練MNIST資料集詳解【轉】

來自:http://www.cnblogs.com/Mu001999/p/6221093.html #匯入需要的模組 import numpy as np #numpy只儲存數值,用於數值運算,解決Python標準庫中的list只能儲存物件的指標的問題 import os

分散式技術 -- Zookeeper叢集

    Hello,朋友們。我又來了。昨天因為博主的電腦出了點問題,導致沒更新文章。   

Linux JDK Tomcat Nginx MariaDB 安裝,Nginx 域名轉發配置

ora mysql 功能 with -o arch nobody case root用戶登錄 安裝JDK rpm包下載地址(jdk-7u17 ): http://www.oracle.com/technetwork/java/javase/downloads/java-a

臺式vim配置

line 顯示 mpi php ogg abs ins ati xpl set autoread syntax on "set number " filetype ident on "set autoindent "set expandtab set cin

[轉載]Tomcat單機實例配置

connect mini ack popu 機器 pri 腳本 你在 startup Tomcat單機多實例配置 當一個進程的線程超過500個的話,那麽這個進程的運行效率會變得很低。因為一個進程產生過多的線程,CPU資源會浪費在線程間切換過程當中。但當服務器配置很

tomcat之 Tomcat 7.0.78 單機實例配置

chmod repl 4.2 其它 產品 export net 文件夾 .net 前言:JDK(Java Development Kit)是Sun Microsystems針對Java開發員的產品。自從Java推出以來,JDK已經成為使用最廣泛的java SDK. JDK是

hibernate之初學一對對一配置及使用

外鍵 ble dtd nat util gin doc 一對多 dialect 按查詢及存取速率來說的一對多用的相對多對一少一些,這裏只寫主要配置文件的代碼 首先是hibernate的配置文件 <!DOCTYPE hibernate-configuration PU

如何在Linux虛擬配置rabbitMQ

width wid blog 修改 開啟 ges bsp eight 端口 1.配置Erlang環境的linux虛擬機 配置的步驟直接上圖: 2.rabiitMQ安裝到linux 直接上圖: 2.1安裝MQ 2.2修改rabb