Bedava indir reppy Için Linux ::: Yazılım

reppy

Yazılım ekran görüntüsü:

Yazılım detaylar:

Versiyon: 0.1.0

Qayıt: 11 May 15

Geliştirici: Dan Lecocq

Lisans: Ücretsiz

Popülerlik: 50

Indir

Currently 4.00/5
1
2
3
4
5

Rating: 4.0/5 (Total Votes: 1)

reppy karşılaşılan diğer robots.txt ayrıştırıcıları içinde memoization desteğinin eksikliği ve yerleşik robotparser içinde Crawl-gecikme ve Site için destek eksikliği dışında başladı.
Eşleştirme
Bu paket 1996 RFC yanı sıra joker eşleştirme, tarama gecikmesi ve site haritaları gibi ek sık uygulanan özellikleri destekler. İzin ve izin verme eşleşen değişen yaklaşımlar vardır. Bir yaklaşım uzun maç kullanmaktır. Bir başka en özel kullanmaktır. Bu bağlamda tanımlamak biraz zor bir dönem - Bu paket uzun bir yönergesi, en özel olan biri olduğunu varlık varsayımını takip seçer.

Kullanım
reppy kullanmak için en kolay yolu, bir url veya URL'ler / izin verilen ise sadece sormak için:
ithalat reppy
# Bu örtülü example.com en robot.txt getirir
reppy.allowed ('http://example.com/howdy'),
# => True
# Şimdi, o sona (Expiration` `daha fazla oku) ne zaman dayalı önbelleğe alınmış oluyor
reppy.allowed ('http://example.com/hello'),
# => True
# Aynı zamanda toplu sorgularını destekler
reppy.allowed (['http://example.com/allowed1', 'http://example.com/allowed2', 'http://example.com/disallowed'])
# => ['Http://example.com/allowed1', 'http://example.com/allowed2']
(Fetches paralel olarak bitmiş değil olsa) # Toplu sorguları hatta birkaç etki genelinde desteklenen
reppy.allowed (['http://a.com/allowed', 'http://b.com/allowed', 'http://b.com/disallowed'])
# => ['Http://a.com/allowed', 'http://b.com/allowed']
Kullanımı oldukça kolay. Varsayılan davranış urllib2 ile sizin için almak için
ithalat reppy
# Belirli bir etki alanı ile ilişkili bir reppy nesne yapın
r = reppy.fetch ('http://example.com/robots.txt'),
ama sadece gibi kolayca getirilen bir dize ayrıştırmak.
ithalat urllib2
= urllib2.urlopen ('http://example.com/robots.txt') .read verileri ()
r = reppy.parse (veri)
Son Kullanma
reppy sizin için robots.txt getirme sahip ana avantajı veri sona erdikten sonra otomatik olarak refetch olmasıdır. Sadece normal olarak kullanmaya devam - hatta bunu düşünmek zorunda değilsiniz, bu yüzden sizin için tamamen şeffaf. Eğer tercih ederseniz Veya, kendi süresini canlı önceliklidir ayarlayabilirsiniz:
ithalat reppy
r = reppy.fetch ('http://example.com/robots.txt'),
r.ttl
# => 10800 (yaşamak için ne kadar süre?)
r.expired ()
# => False (zaman aşımına mı?)
r.remaining ()
# => 10.798 (ne kadar sona erinceye kadar)
r = reppy.fetch ('http://example.com/robots.txt', TTL = 1)
2. saniye bekleyin
r.expired ()
# => True
Sorgular
Reppy yapmak zorunda değilsiniz, böylece ev sahibi izlemek için çalışır. Eğer getirme kullandığınızda bu otomatik olarak yapılır veya isteğe bağlı olarak ayrıştırma ile onu getirilen url sağlayabilir. Aksi halde sorgularken sadece yolu sağlamamıza olanak tanır. Aksi takdirde, bütün url sağlamanız gerekir:
# Bu yapılabilir
r = reppy.fetch ('http://example.com/robots.txt'),
r.allowed ('/')
r.allowed (['/ merhaba', '/ howdy'])
# Ve böylece bu
= urllib2.urlopen ('http://example.com/robots.txt') .read verileri ()
r = reppy.parse (veri, URL = 'http: //example.com/robots.txt')
r.allowed (['/', '/ merhaba', '/ howdy'])
# Ancak, örtülü Bunların hangi etki bilmiyorum
reppy.allowed (['/', '/ merhaba', '/ howdy'])
Tarama-Delay ve Site Haritaları
Reppy da olmayan RFC ortaya, ama Tarama-Delay ve Site Haritaları niteliklerini yaygın olarak kullanılan. Tarama gecikmesi kullanıcı başına ajan olarak kabul edilir, ancak site haritaları, küresel olarak kabul edilir. Belirtilen değilse, tarama gecikme Yok ve site haritaları, boş bir listedir. Örneğin, bu benim robots.txt ise:
User-agent: *
Crawl-delay: 1
Site haritası: http://example.com/sitemap.xml
Site haritası: http://example.com/sitemap2.xml
Daha sonra bu erişilebilir:
f gibi dosya ('myrobots.txt', 'r') ile:
& Nbsp; r = reppy.parse (f.read ())
r.sitemaps
# => ['Http://example.com/sitemap.xml', 'http://example.com/sitemap2.xml']
r.crawlDelay
# => 1
Eşleştirme User-Agent
Sen robots.txt alma için sizin seçtiğiniz bir kullanıcı ajanı sağlayabilir, ve sonra biz maç kullanıcı aracısı dizesi ilk / 'önce görünen öndeğer edilir. Örneğin, 'MyCrawler / 1.0' gibi kullanıcı ajanı sağlarsanız, o zaman User-agent karşı maç dize olarak 'MyCrawler' kullanacağız. Karşılaştırmalar harf duyarsız ve biz User-Agent joker desteklemez. Bu varsayılan size uygun değilse, siz bir alternatif sağlayabilir:
# Bu, varsayılan olarak 'myuseragent' karşı maç olacak
r = reppy.fetch ('http://example.com/robots.txt' userAgent'taki = 'MyUserAgent / 1,0'),
# Bu yerine 'someotheragent' karşı maç olacak
r = reppy.fetch ('http://example.com/robots.txt' userAgent'taki = 'MyUserAgent / 1,0', = 'someotheragent' userAgentString)
Yol-Eşleştirme
Yol eşleştirme destekler hem * ve $

Özellikler :

getirilen robots.txt Memoization

Son Kullanma
Toplu sorguları
robots.txt alma için yapılandırılabilir kullanıcı aracısı
sona ermesi üzerine otomatik refetching dayandırarak
Tarama gecikme için destek
Site Haritaları için destek
joker eşleme

Gereksinimleri :

Python

11 May 15

Yorumlar reppy

Kategoriye göre ara

reppy

Geliştirici Diğer yazılım Dan Lecocq

aws-trade-in

asis

Yorumlar reppy

Yorum Bulunamadı

Yorum eklemek

Kategoriye göre ara

Kategoriye göre ara

Popüler yazılım

GChemPaint 2 Jun 15

Papa Louie: When Pizzas Attack! 14 Apr 15

Xplore 3 Jun 15

Google Music Manager 15 Apr 15

OpenShot Video Editor 17 Aug 18

MultiSystem 17 Feb 15

Xubuntu 16 Aug 18

reppy

Geliştirici Diğer yazılım Dan Lecocq

aws-trade-in

asis

Yorumlar reppy

Yorum Bulunamadı

Yorum eklemek

Kategoriye göre ara

Popüler yazılım

Absolute Linux 22 Jun 18

CentOS Live CD 22 Jun 18

Tiny Core Linux 2 Sep 17

ALT Linux (School Junior) 2 Jun 15

Psiphon 20 Feb 15

HardInfo 3 Jun 15

PyVISA 3 Jun 15