mrjob yazmak ve Hadoop Akış işlerini çalıştırmak yardımcı olan bir Python modülü.
mrjob tam bir saatlik bazda Hadoop küme zaman satın almanızı sağlar Amazon'un Elastic MapReduce (EMR) servisini destekler. Aynı zamanda kendi Hadoop küme ile çalışır.
Kurulum:
piton setup.py install
Amazon EMR kurma
Http://aws.amazon.com/: & nbsp; * Amazon Web Services hesabı oluşturmak
& Nbsp; * Elastik MapReduce kaydolmak: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * erişiminizi ve gizli anahtarları alın (http://aws.amazon.com/account/ gidin ve "Güvenlik Belgeler" üzerine tıklayın) ve ortam değişkenleri $ AWS_ACCESS_KEY_ID ayarlamak ve buna göre $ AWS_SECRET_ACCESS_KEY
Deneyin!
# Yerel
Python mrjob / örnekler / mr_word_freq_count.py README.md> sayımları
EMR üzerinde #
Python mrjob / örnekler / mr_word_freq_count.py README.md -r emr> sayımları
Senin Hadoop küme üzerinde #
Python mrjob / örnekler / mr_word_freq_count.py README.md -r Hadoop> sayımları
Gelişmiş Yapılandırma
Diğer AWS bölgelerde çalışacak kaynak ağacını, koşmak make yüklemek ve diğer gelişmiş mrjob özelliklerini kullanmak için, mrjob.conf kurmak gerekir. mrjob kendi conf dosyasını arar:
& Nbsp; * ~ / .mrjob
& Nbsp; $ PYTHONPATH yerde * mrjob.conf
& Nbsp; * /etc/mrjob.conf
Daha fazla bilgi için bkz mrjob.conf.example
Özellikler :.
- EMR çalıştırın işler, kendi Hadoop küme, ya da yerel (test için).
- çok-adımlı işler (bir adım sonraki beslemeleri harita azaltmak) yaz
- Hadoop içinde üretim ortamı çoğaltın
- kaynak ağacını yükleyin ve işin $ PYTHONPATH koymak
- Çalıştır marka ve diğer kurulum komut
- Set ortam değişkenleri (örneğin $ TZ)
- Kolay tar toplarından Python paketlerini yüklemek (EMR yalnızca)
- mrjob.conf yapılandırma dosyası tarafından şeffaf ele Kur
- Otomatik EMR hata günlükleri yorumlamak
- EMR üzerinde Hadoop iş izci SSH tüneli
- Minimal kurulum
- EMR üzerinde çalıştırmak için, set $ AWS_ACCESS_KEY_ID ve $ AWS_SECRET_ACCESS_KEY
- Hadoop küme üzerinde çalıştırmak için, set $ HADOOP_HOME
Gereksinimler :
- Python
Yorum Bulunamadı