Güzel Çorba proje ekran kazıma gibi hızlı dönüş projeleri için tasarlanmış bir Python HTML / XML ayrıştırıcı. Üç özellikleri, güçlü olun:
Bunu kötü biçimlendirme verirseniz Güzel Çorbası boğmak olmaz. Bu orijinal belge olarak yaklaşık olarak çok mantıklı bir ayrıştırma ağacı verir. Bu ihtiyacınız veri toplamak ve kaçmak için yeterli genellikle iyidir.
Bir belgeyi diseksiyon ve neye ihtiyacınız ayıklanması için bir araç seti: Güzel Çorbası, navigasyon, arama ve ayrıştırma ağacı değiştirmek için bir kaç basit yöntem ve Pythonic deyimler sağlar. Her uygulama için özel bir ayrıştırıcı oluşturmak zorunda değilsiniz.
Güzel Çorbası otomatik UTF-8 Unicode ve giden evrakın gelen belgeleri dönüştürür. Belge bir kodlama belirtmez sürece, kodlamalar hakkında düşünmek zorunda değilsiniz ve Güzel Çorbası birini autodetect olamaz. Sonra sadece orijinal kodlamayı belirtmek zorunda.
Güzel Çorbası bunu vermek bir şey ayrıştırır, ve sizin için ağaç kastetmek şeyler yapar. Bunu "tüm bağlantıları bul" söyle, ya da "sınıf externalLink tüm bağlantıları bulmak", ya da "olan URL'ler eşleşen tüm bağlantıları bulmak" olabilir foo.com ", ya da" tablo bu var kalın metin başlığı bul, sonra ver Bana o metin. "
Bir zamanlar kötü tasarlanmış web siteleri kilitlendi Değerli verileri ulaşılabilecek artık. . Saatlerini almış olurdu Projeler Güzel çorbası ile sadece birkaç dakika sürebilir
Gereksinimler :
- Python
Yorum Bulunamadı