Yazılım detaylar:
Versiyon: 3.4.4 Güncelenir
Qayıt: 12 May 15
Lisans: Ücretsiz
Popülerlik: 245
lxml Python dilinin sadeliği ile bu kütüphanelerin hızını birleştirir.
2,4-3,2 tüm CPython sürümleri ile uyumludur
Bu sürümde Yeni nedir:.
- lxml.html.iterlinks şimdi meta yenileme etiketleri içindeki bağlantıları döndürür.
- Yeni XMLParser seçeneği collect_ids = Kimlik hash tablosu oluşturma devre dışı bırakmak için False. Bu büyük ölçüde kullanılmayan birçok farklı kimlikleri ile belgelerin ayrıştırma hızlandırabilir.
- ayrıştırıcı XML kimlikleri için başına belgenin hash tabloları kullanır. Bu küresel ayrıştırıcı dict yükünü azaltır ve birçok farklı kimlikleri ile belgeler için ayrıştırma hızlandırır.
- ElementTree.getelementpath (eleman) aramaları sonrası için de kullanılabilir belirli bir elementin, için bir yapısal ElementPath ifade döndürür.
- xmlfile () (benzeri) onlara yazdıktan sonra nesneleri dosyayı kapatmak için true = yakın, yeni bir argüman kabul eder. Önce, xmlfile () yalnızca dahili açtı olsaydı dosyayı kapattı.
- İzin & quot; ByteArray & quot; ASCII metin girişi için yazın.
nedir sürüm 3.4.2 Yeni:
- lxml.html.iterlinks şimdi meta içindeki bağlantıları döndürür Etiketleri yenileyin.
- Yeni XMLParser seçeneği collect_ids = Kimlik hash tablosu oluşturma devre dışı bırakmak için False. Bu büyük ölçüde kullanılmayan birçok farklı kimlikleri ile belgelerin ayrıştırma hızlandırabilir.
- ayrıştırıcı XML kimlikleri için başına belgenin hash tabloları kullanır. Bu küresel ayrıştırıcı dict yükünü azaltır ve birçok farklı kimlikleri ile belgeler için ayrıştırma hızlandırır.
- ElementTree.getelementpath (eleman) aramaları sonrası için de kullanılabilir belirli bir elementin, için bir yapısal ElementPath ifade döndürür.
- xmlfile () (benzeri) onlara yazdıktan sonra nesneleri dosyayı kapatmak için true = yakın, yeni bir argüman kabul eder. Önce, xmlfile () yalnızca dahili açtı olsaydı dosyayı kapattı.
- İzin & quot; ByteArray & quot; ASCII metin girişi için yazın.
nedir sürüm 3.3.2 Yeni:
- özellikleri rezolverler ve sürümü yanı sıra, yöntemler set_element_class_lookup () ve makeelement (), iterparse nesnelerden kaybolmuştur.
- XmlSchema, Schematron ve RelaxNG Örneklerini bir doğrulama çalıştırmadan önce kendi yerel error_log açık vermedi.
- lxml.doctestcompare yukarı & quot karıştı; ve & quot; gerçek & quot; nitelik değerleri.
Beklenen & quot;
sürüm 3.3.1 yeni Nedir:
- Bugs sabit:
- parser.feed ile çözümlenen HTML belgeleri () etiketi yineleme sırasında öğeleri bulmak için başarısız oldu.
- PYPY İnşaat nedeniyle * () PYPY C-API PyUnicode_Compare () ve PyByteArray _ desteği eksik başarısız oldu.
- MSVC Derleme nedeniyle eksik & quot başarısız; stdint.h & quot; standart başlık dosyası.
- iterparse () BOM dosyaları öneki ayrıştırmak için başarısız oldu.
sürüm 3.3.0 yeni Nedir:
- Bugs sabit:
- URL'leri dosya yollarını ayıran sezgisel az yanlış negatifler üretmek için sıkılır edildi.
nedir sürüm 3.2.3 Yeni:
- 3.2 kayboldu Python 2.4 için sabit destek .2.
nedir sürüm 3.2.1 Yeni:
- yöntemler apply_templates () ve process_children () arasında XSLT uzantısı unsurlar sonuç listesinden tüm dizeleri veya boşluk sadece dizeleri ya atmak elements_only ve remove_blank_text iki yeni mantıksal seçenekler kazanmıştır.
nedir sürüm 3.2.0 Yeni:
- dize ayrıştırma davranışını değiştirebilir boşluk Lider lxml.html işlevleri.
- lxml.html işlevleri ayrıştırma dize framesets veya vücut etiketleri eksik gibi nadir HTML içeriği karşısında daha sağlam.
- G / Ç hataları IOError raporlama düzgün UnicodeDecodeError yol açabilecek ASCII olmayan karakterler içeren yolları ile dosyalara erişmeye çalışırken yerine ise.
- bellek dizeleri varsayılan ayrıştırıcı devre dışı ağ erişimi Ayrıştırma ve başarısız bir URL'den ayrıştırmak sonraki girişimde bulundu.
nedir sürüm 3.1.2 Yeni:
- Pas ad alanı-habersiz API aracılığıyla niteliklerini (handler.startElement () yöntemi yani) sax köprü TypeError ile başarısız oldu.
- Sabit seri hatası Unicode dize sonuç ağacı dönüştürülmesi.
XSLT çıktı
nedir sürüm 3.0.2 Yeni:
- Cython 0.17 geçerek tercüman kapatma sırasında Sabit kazasında bina için .3.
nedir sürüm 3.0 Yeni:
- C14N top- terfi edilmesi dahil önek belirterek izin verir özel seri hale getirme sırasında seviyesi.
- (cpyext yoluyla) PYPY bina için ilk destek.
- DTD nesneleri kendi beyanlarına okuma erişimi sağlayan bir API kazandı.
- xpathgrep.py line-by-line (örneğin grep çıkışı) ayrıştırma ve yeni bir kök etiketi ile çıktı çevreleyen destek kazandı.
- E-fabrika (örneğin dize alt tipleri gibi) bilinen veri tiplerinin alttiplerini kabul eder.
- Ağaç yineleme ve iterparse () etiketleri bir dizi geçirerek destekler. Onlar etiketleri herhangi eşleşirse Ağaç düğümleri yineleyiciler tarafından iade edilecektir.
Çevrelerindeki öğeleri oluştururken lxml.builder
Seçici bir etiket argümanı ile
sürüm 2.3.5 yeni Nedir:
- Crash element.remove metin düğümleri birleştirme ( ).
- sax / hedef çözümleyici Crash boş doctype raporlama.
nedir sürüm 2.3.4 Yeni:
- Crash bir nsmap (Eleman özelliği) ile oluştururken Boş ad URI.
- nedeniyle yarış durumu Crash hataları (veya kullanıcı mesajları) dişli XSLT işleme sırasında ortaya çıktığında.
- derleme hataları görmezden XSLT stil derleme.
sürüm 2.3.3 yeni Nedir:
- Özellikler ekledi:
- lxml.html.tostring () with_tail ve doctype yeni seri seçenekleri kazandı.
- Bugs sabit:
- HTML ayrıştırma için iterparse () kullanarak ve başlangıç olayları isterken bir çökme düzeltildi.
- cssselect daha seçiciler Sabit ayrıştırma. Bir soyundan combinator olarak sözde elemanları ve sözde sınıflar önce boşluk önemlidir. & Quot; E: sözde & quot; sözde & quot ;, & quot; E: E *; & quot aynı ayrıştırmak gerekir. pseudo & quot;
- lxml.html.diff artık bir istisna yükseltir.
'Src' özniteliği olmadan 'img' etiketleri isabet
sürüm 2.3.2 yeni Nedir:
- Özellikler ekledi:
- lxml.objectify.deannotate () somutlaştırabilir ad alanı bildirimi kaldırmak (ve genellikle ad bildirimleri temizlemek) tip açıklamaları çıkardıktan sonra yeni bir boolean seçenek cleanup_namespaces sahiptir.
- .
- Bugs sabit:
- Sabit & quot; soyundan & quot; cssselect bug (lxml 2.3.1 birinci düzeltme sonra) ikinci kez. Bir önceki değişiklik çevrilmiş ifade XPath tabanlı değerlendirme için ciddi bir performans gerileme sonuçlandı. Bu daha önce 2.3.1 çalışmış XSLT konum yolları olarak üretilen XPath ifadeleri bazı kullanımını kırar unutmayın.
- cssselect bazı seçiciler Sabit ayrıştırma. & # X3e;; bağdaştırıcılarla & quot sonra boşluk & quot ;, & quot; + & quot; ve peroksiasit ağartma ön-quot; şimdi doğru göz ardı edilir. Daha önce soyundan combinator olarak ayrıştırıldı edilir. Örneğin, & quot; div & # x3e; .foo & quot; div & # x3e,; * .foo & quot & quot aynı ayrıştırıldı; yerine & quot; div & # x3e; .foo & quot;.
Kullanıcı tarafında lxml.etree bir başka türlü gereksiz ithalat önlemek için etree.SubElement bir kopyası gibi kendi alt öğesi () işlevini kazanmış lxml.objectify
sürüm 2.3.1 yeni Nedir:
- Özellikler ekledi:
- Yeni seçenek, belirli etiketler ve bunların içeriğini (yani onların bütün alt ağaç) kaldırmak için lxml.html.clean olarak kill_tags.
- pi.get () ve pi.attrib.
- lxml.get_include () lxml.etree karşı dış C kodu derlemek için kullanılan yolları dahil bir listesini döndürür. Kod kendisi lxml olarak aynı başlık dosyası sürümleri karşı derlemek için gerektiğinde bu özellikle statik bağlantılı lxml için gereklidir oluşturur.
- Resolver.resolve_file () dosyası (benzeri) nesne okurken ya da sonra değil kapalı olacak eğer yapılandırır ek bir seçenek close_file alır. Kullanıcı bir referansı tutmak için beklenmiyor Varsayılan olarak, dosya, kapalı olacaktır.
- Bugs sabit:
- HTML temizleme 'verileri:' çıkarmak değildi. Linkler
- html5lib ayrıştırıcı entegrasyonu şimdi kütüphanede yeni sürümleri ile iş yapar html5lib kendisinde 'resmi' uygulaması kullanır.
- endElementNS () yanlış bir düz etiket adı reddetmek olabilir.
- bir açık dosya gibi bir nesne ayrıştırma geçirilen zaman () veya iterparse (), çözümleyici artık yakın o kullanımdan sonra. Bu, tüm dosyaların kapalı olacak lxml 2.3 bir değişiklik döner. Düzgün hata durumlarda da, dosya (benzeri) nesnesini kapatmak için kullanıcıların sorumluluğundadır.
- lxml.html.cleaner içinde onaylama hatası üst düzey elemanları atarak.
- , css yerine 'A / torun :: B' xpath ('A / torun-or-self :: düğüme () / B' için kısa) 'A // B' kullanmak soyundan seçici ('A B'). Bu WebKit ve Firefox, vites davranışı ile tutarlı olması için bir kaç kenar durumlarda yapar ve (xsl kullanmak için: template maç) daha css ifadeler geçerli konum yollarını yapar.
- lxml.html olarak, seçili olmayan & # x3c; seçeneği & # x3e; etiketler artık toplanan form değerleri sırıtmak.
- / ekleme çıkarma & # x3c; seçeneği & # x3e; çoktan seçmeli form alanı düzgün onları seçer ve onları unselects için / değerleri.
- Diğer değişiklikler:
- Statik --Duyurular-dir seçeneği ile indirme dizinini belirtebilirsiniz oluşturur.
Işleme talimatlarının metin içeriğinden sözde özelliklerini ayrıştırmak için işleme talimatları
İlgili başlangıç olay varsayılan ad olması aynı düz etiket adını anlaşılmaktadır zaman lxml.sax
Lxml.cssselect
sürüm 2.3 yeni Nedir:
- Özellikler ekledi:
- lxml.objectify, boş bir ad anlamında '{} etiketi' alır.
- Bugs sabit:
- bir dosya gibi bir nesne okuma bittiğinde, ayrıştırıcı derhal .close () yöntemini çağırır.
- iterparse () hemen giriş dosyayı kapatır.
- (libxml2'nin 2.7.8 sabit) bir bilmecik kırık bir belge ayrıştırma sonra işlevsel olmayan devlet HTML çözümleyici bırakabilirsiniz libxml2 hata için etrafında çalışma.
- Marque etiketi doğru kayan adlandırılır.
- Diğer değişiklikler:
- Cython düzeyinde C-API Bazı kamu fonksiyonlar daha açık bir dönüş türleri vardır.
Çocuklar ararken üst ad aksine
Ayrıştırma bittiğinde
HTML temizleme kodunda
sürüm 2.3beta1 yeni Nedir:
- Bugs sabit:
- yeni libxml2 sürümlerinde Crash yerini XInclude düğümlerinde özelliklerini vardı belgeler arasında elemanları hareketli.
- XMLID () fonksiyonu opsiyonel ayrıştırıcı ve base_url parametrelerini eksikti.
- () PY3 kırıldı. Iterparse joker etiketleri arama
- lxml.html.open_in_browser () nedeniyle os.tempnam kullanımına Python 3 işe yaramadı. Şimdi isteğe bağlı 'kodlama' parametre alır.
Yorum Bulunamadı