Yazılım detaylar:
JERICH HTML Ayrıştırıcı tamamen Java ile yazılmış açık kaynak kodlu, basit, ama güçlü bir kütüphanedir.
Bu programcılar işlemek ve bir HTML belgesi parçalarını analiz etmeyi sağlar.
JERICH HTML Ayrıştırıcı ayrıca üst düzey HTML formu işleme fonksiyonları içeriyor
Bu sürümde Yeni nedir:.
- Hata Düzeltmeleri:
- [3581664] CharacterReference.decode () basamak içeren varlıkları deşifre değil - ve frac12; Ve frac14; Ve frac34; & SUP1; Ve sup2; Ve sup3; & There4;
- [3311286] SourceCompactor Textarea uymayan
- [3519131] İmgeleyici çıkışı Eleman nesne ile inşa hatalı.
- [3538829] blok sınırları yazı dekorasyon Renderer çıkışı yanlış.
- Segment.getAllStartTags (isim) ve Segment.getFirstElement (isim) işe yaramaz.
- kaçan bir sunucu etiketi içinde ortak bir sunucu etiketi sonu sınırlayıcı yanlış kaçan etiketinin sonu sınırlayıcı olarak kabul edilmektedir.
- DEĞİŞİKLİKLER:
- [3427073] Segment.getStyleURISegments () şimdi stil öğesi içeriği yanı sıra stil nitelik değerlerini içerir.
- [3427927] Segment.getURIAttributes () artık nesne ve uygulaması elemanlarının arşiv özelliklerini içerir.
- artık tam sıralı ayrıştırması sırasında komut elemanları içinde kabul görmediniz. Daha önce de büyük tarayıcılar ama modern bir tarayıcı davranışı değişti ile uyumluluk için kabul edildi.
- HATA INFO tüm ayrıştırma hataları günlük düzeyini değiştirildi, ve gelen Source.fullSequentialParse () danışma mesajın günlük düzeyini INFO UYARI. önceki seviyeleri ayrıştırma hatalarını gösterirken danışma mesaj saklandığı yerden günlük sistemleri önlenmesi, ayrıştırma hataları daha danışma mesaj yüksek şiddetini verdi. Karakter kodlama uyarıları seviyeyi UYARI değişmeden kalır.
- Renderer.renderHyperlinkURL (StartTag) yönteminin davranışını değiştirdi.
- İşleyici davranışını değiştirdi:. // Öneki ve / veya eki
- EndTag.tidy () şimdi ayraç önce boşluk kaldırır.
- Eklendi Kaynak (Dosya) yapıcısı.
- Eklendi OutputDocument.getSegment () yöntemi.
- Eklendi OutputDocument.remove yöntemi (int, int ucunu başlar).
- Eklendi Renderer.setHRLineLength () yöntemi.
- Eklendi RenderToText.jsp webapp örnek.
- Eklendi Segment.getRowColumnVector () yöntemi.
- Kodlama algılama şimdi ön kodlama ile uyumsuz bir kod birimi boyutu var meta etiketlerinde belirtilen ortak kodlamaları yok sayar.
- Aşağıdaki logger API'lerinde Yükseltildi: slf4j-api-1.7.2, log4j-1.2.17
Argüman harf karakterleri içeriyorsa
MEVCUT PROGRAMLARI DAVRANIŞ ETKİLEYEN OLABİLECEK
Göreli URL'ler işlenmez böylece
Bu köprü URL aynı ise o köprü element içeriği herhangi bir http görmezden hale değil yani
sürüm 3.1 yeni nedir:
- Hata düzeltmeleri:
- Segment.getAllStartTags üzerinde [2793556] Sonsuz döngü ()
- Segment.getAllElements Sonsuz döngü ()
- Segment.getFirst * yöntemler sınırlayıcı kesimi dışında kesimleri döndü.
- Segment.getAllElements yöntemleri, bazı durumlarda tüm kapalı unsurları dönmedi.
- Sabit belgelerine hatalar.
- Eklendi StreamedSource sınıfı.
- DEĞİŞİKLİKLER:
- arayüz.
- Segment.getNodeIterator () artık ayrı düğümleri olarak karakter başvuruları döndürür.
- eklendi etiketi arama yöntemleri.
- eklendi etiketi arama yöntemleri.
- Eklenenler statik Source.LegacyNodeIteratorCompatabilityMode özelliği geçici olarak önceki sürümleri buna Segment.getNodeIterator () işlevi geri yüklemek için.
- kaldırıldı Char [] tabanlı arama yöntemleri.
- Eklendi CharacterReference.appendCharTo (appendable) yöntemi.
- Eklendi OutputDocument (Segment) yapıcısı.
- Eklendi StreamedSourceCopy örnek program.
Segment.getAllElements yöntemleri
MEVCUT PROGRAMLARI DAVRANIŞ ETKİLEYEN OLABİLECEK
Sınıf ParseText Değişti
Öznitelik değeri Düzenli ifadeler dayalı
HTML class özniteliği dayalı
ParseText
sürüm 3.0 yeni nedir:
- Hata düzeltmeleri:
- Karakter referansları UTF-16 kod birimi çiftleri doğru deşifre değildi.
- [2188446] Element.getDepth () ve Element.getParentElement () yanlış sonuç vermedi.
- Yorumlar şimdi içinde & lt tanınır; script & gt; elementler.
- API DEĞİŞİKLİKLER:
- değiştirildi paket adı net.htmlparser.jericho için
- Özellik değerleri artık Dize yerine CharSequence olmalıdır.
- kaldırıldı tüm kaldırılmış yöntemler / sınıfları.
- Tüm etiket arama yöntemleri tutarlı bir adlandırma kuralı uygulamak için * almak yöntemleri lehine önerilmemektedir * yöntemler bulmak.
- Etiket, Eleman ve HTMLElements sınıfları artık HTMLElementName arabirimini uygulamak. (Yerine statik ithalat kullanın)
- Tüm koleksiyonları şimdi stongly jenerik kullanarak yazdınız.
- enum FormControlOutputStyle sınıf değiştirildi.
- değiştirildi FormControlType sınıfı.
- Eklendi CharStreamSource.appendTo (appendable) yöntemi.
- Eklendi Source.iterator () yöntemi.
- Kaynak şimdi iterable uygular.
- İçten daha iyi performans için StringBuilder kullanır.
- Eklendi Source.getNextStartTag (StartTagType) yöntemi.
- Eklendi Source.getNextEndTag (EndTagType) yöntemi.
- Eklendi Source.getPreviousStartTag (StartTagType) yöntemi.
- Eklendi Source.getPreviousEndTag (EndTagType) yöntemi.
- Eklendi Segment.getAllStartTags (StartTagType) yöntemi.
- Tüm Segment.getFirst * yöntemler eklendi.
- Eklendi Renderer.renderHyperlinkURL (StartTag) yöntemi.
- Eklendi HTMLSanitiser örnek program.
- Yükseltildi SLF4J-api-1.5.6 için
Unicode ek karakterler temsil
Talep modunda ayrıştırma denir eğer
UYUMLU GERİ DEĞİLDİR
Önceki sürümlerden
Enum
Gereksinimler :
- Java 2 Standard Edition Runtime Environment
Yorum Bulunamadı