PDFMiner ilk PDF dosyasının içeriğini alarak ve HTML gibi bir daha yumuşak bir biçime dönüştürerek çalışır.
Oradan, metin ve veri ayıklanır ve analiz ve önceden tanımlanmış kurallar ayrıldı ve sunulan kullanıcıya veya diğer daha güçlü veri analizi araçları gönderilen dayanmaktadır.
Metin analizi yapmak niyetinde değil ise, kolayca PDFMiner sadece ayıklamak için yapılandırmak ya da sadece sıra PDF verileri dönüştürebilirsiniz.
Onun işlevleri buna daha geniş bir kullanım yelpazesi sayesinde birbirinden ayrı çalışabilir ve izin verebilirsiniz
Özellikler :.
- % 100 Python Kod, hiçbir C veya C ++
- Ayrıştırma PDF'leri
- Analiz PDF'leri
- diğer biçimlere PDF'leri dönüştürme
- ToC çıkarıcı
- içerik etiketlenmiş Get yalnızca
- Metin PDF özellikleri çok sayıda desteği
- PDF'leri içinde yazı tipleri çok sayıda destek
- Temel şifreleme (RC4) desteği
Bu sürümdeki yeni Nedir:
- PDFDocument.initialize () yöntemi kaldırıldı ve artık gerekli . Bir şifre PDFDocument yapıcı bir argüman olarak verilir.
sürüm 20110515 yeni nedir:.
- API değişiklikleri
- LTPolygon sınıfı LTCurve olarak değiştirilmiştir.
sürüm 20110227 yeni nedir:.
- Hata düzeltmeleri ve düzen analizi iyileştirmeleri
nedir sürüm 20101226 Yeni:.
- onarımları ve küçük iyileştirmeler bir çift
nedir sürüm 20101017 Yeni:.
- onarımları bir çift ve küçük bir iyileşme
sürüm 20100424 yeni nedir:.
- onarımlar ve TOK çıkarma minik iyileştirmeler
Gereksinimleri :
- Python 2.4 kadar 3 için
Sınırlamalar :.
- PDFMiner C / C ++ 20 kat daha yavaş olabilir - tabanlı yazılım
Yorum Bulunamadı