Jericho HTML Parser

Yazılım ekran görüntüsü:
Jericho HTML Parser
Yazılım detaylar:
Versiyon: 3.3
Qayıt: 20 Feb 15
Geliştirici: Martin Jericho
Lisans: Ücretsiz
Popülerlik: 56

Rating: nan/5 (Total Votes: 0)

JERICH HTML Ayrıştırıcı tamamen Java ile yazılmış açık kaynak kodlu, basit, ama güçlü bir kütüphanedir.
Bu programcılar işlemek ve bir HTML belgesi parçalarını analiz etmeyi sağlar.
JERICH HTML Ayrıştırıcı ayrıca üst düzey HTML formu işleme fonksiyonları içeriyor

Bu sürümde Yeni nedir:.

  • Hata Düzeltmeleri:
  • [3581664] CharacterReference.decode () basamak içeren varlıkları deşifre değil - ve frac12; Ve frac14; Ve frac34; & SUP1; Ve sup2; Ve sup3; & There4;
  • [3311286] SourceCompactor Textarea uymayan
  • [3519131] İmgeleyici çıkışı Eleman nesne ile inşa hatalı.
  • [3538829] blok sınırları yazı dekorasyon Renderer çıkışı yanlış.

  • Argüman harf karakterleri içeriyorsa
  • Segment.getAllStartTags (isim) ve Segment.getFirstElement (isim) işe yaramaz.
  • kaçan bir sunucu etiketi içinde ortak bir sunucu etiketi sonu sınırlayıcı yanlış kaçan etiketinin sonu sınırlayıcı olarak kabul edilmektedir.

  • MEVCUT PROGRAMLARI DAVRANIŞ ETKİLEYEN OLABİLECEK
  • DEĞİŞİKLİKLER:
  • [3427073] Segment.getStyleURISegments () şimdi stil öğesi içeriği yanı sıra stil nitelik değerlerini içerir.
  • [3427927] Segment.getURIAttributes () artık nesne ve uygulaması elemanlarının arşiv özelliklerini içerir.
  • artık tam sıralı ayrıştırması sırasında komut elemanları içinde kabul görmediniz. Daha önce de büyük tarayıcılar ama modern bir tarayıcı davranışı değişti ile uyumluluk için kabul edildi.
  • HATA INFO tüm ayrıştırma hataları günlük düzeyini değiştirildi, ve gelen Source.fullSequentialParse () danışma mesajın günlük düzeyini INFO UYARI. önceki seviyeleri ayrıştırma hatalarını gösterirken danışma mesaj saklandığı yerden günlük sistemleri önlenmesi, ayrıştırma hataları daha danışma mesaj yüksek şiddetini verdi. Karakter kodlama uyarıları seviyeyi UYARI değişmeden kalır.

  • Göreli URL'ler işlenmez böylece
  • Renderer.renderHyperlinkURL (StartTag) yönteminin davranışını değiştirdi.

  • Bu köprü URL aynı ise o köprü element içeriği herhangi bir http görmezden hale değil yani
  • İşleyici davranışını değiştirdi:. // Öneki ve / veya eki
  • EndTag.tidy () şimdi ayraç önce boşluk kaldırır.
  • Eklendi Kaynak (Dosya) yapıcısı.
  • Eklendi OutputDocument.getSegment () yöntemi.
  • Eklendi OutputDocument.remove yöntemi (int, int ucunu başlar).
  • Eklendi Renderer.setHRLineLength () yöntemi.
  • Eklendi RenderToText.jsp webapp örnek.
  • Eklendi Segment.getRowColumnVector () yöntemi.
  • Kodlama algılama şimdi ön kodlama ile uyumsuz bir kod birimi boyutu var meta etiketlerinde belirtilen ortak kodlamaları yok sayar.
  • Aşağıdaki logger API'lerinde Yükseltildi: slf4j-api-1.7.2, log4j-1.2.17

sürüm 3.1 yeni nedir:

  • Hata düzeltmeleri:
  • Segment.getAllStartTags üzerinde [2793556] Sonsuz döngü ()
  • Segment.getAllElements Sonsuz döngü ()
  • Segment.getFirst * yöntemler sınırlayıcı kesimi dışında kesimleri döndü.
  • Segment.getAllElements yöntemleri, bazı durumlarda tüm kapalı unsurları dönmedi.

  • Segment.getAllElements yöntemleri
  • Sabit belgelerine hatalar.
  • Eklendi StreamedSource sınıfı.

  • MEVCUT PROGRAMLARI DAVRANIŞ ETKİLEYEN OLABİLECEK
  • DEĞİŞİKLİKLER:

  • Sınıf ParseText Değişti
  • arayüz.
  • Segment.getNodeIterator () artık ayrı düğümleri olarak karakter başvuruları döndürür.

  • Öznitelik değeri Düzenli ifadeler dayalı
  • eklendi etiketi arama yöntemleri.

  • HTML class özniteliği dayalı
  • eklendi etiketi arama yöntemleri.
  • Eklenenler statik Source.LegacyNodeIteratorCompatabilityMode özelliği geçici olarak önceki sürümleri buna Segment.getNodeIterator () işlevi geri yüklemek için.

  • ParseText
  • kaldırıldı Char [] tabanlı arama yöntemleri.
  • Eklendi CharacterReference.appendCharTo (appendable) yöntemi.
  • Eklendi OutputDocument (Segment) yapıcısı.
  • Eklendi StreamedSourceCopy örnek program.

sürüm 3.0 yeni nedir:

  • Hata düzeltmeleri:

  • Unicode ek karakterler temsil
  • Karakter referansları UTF-16 kod birimi çiftleri doğru deşifre değildi.

  • Talep modunda ayrıştırma denir eğer
  • [2188446] Element.getDepth () ve Element.getParentElement () yanlış sonuç vermedi.
  • Yorumlar şimdi içinde & lt tanınır; script & gt; elementler.

  • UYUMLU GERİ DEĞİLDİR
  • API DEĞİŞİKLİKLER:
  • değiştirildi paket adı net.htmlparser.jericho için
  • Özellik değerleri artık Dize yerine CharSequence olmalıdır.

  • Önceki sürümlerden
  • kaldırıldı tüm kaldırılmış yöntemler / sınıfları.
  • Tüm etiket arama yöntemleri tutarlı bir adlandırma kuralı uygulamak için * almak yöntemleri lehine önerilmemektedir * yöntemler bulmak.
  • Etiket, Eleman ve HTMLElements sınıfları artık HTMLElementName arabirimini uygulamak. (Yerine statik ithalat kullanın)
  • Tüm koleksiyonları şimdi stongly jenerik kullanarak yazdınız.
  • enum FormControlOutputStyle sınıf değiştirildi.

  • Enum
  • değiştirildi FormControlType sınıfı.
  • Eklendi CharStreamSource.appendTo (appendable) yöntemi.
  • Eklendi Source.iterator () yöntemi.
  • Kaynak şimdi iterable uygular.
  • İçten daha iyi performans için StringBuilder kullanır.
  • Eklendi Source.getNextStartTag (StartTagType) yöntemi.
  • Eklendi Source.getNextEndTag (EndTagType) yöntemi.
  • Eklendi Source.getPreviousStartTag (StartTagType) yöntemi.
  • Eklendi Source.getPreviousEndTag (EndTagType) yöntemi.
  • Eklendi Segment.getAllStartTags (StartTagType) yöntemi.
  • Tüm Segment.getFirst * yöntemler eklendi.
  • Eklendi Renderer.renderHyperlinkURL (StartTag) yöntemi.
  • Eklendi HTMLSanitiser örnek program.
  • Yükseltildi SLF4J-api-1.5.6 için

Gereksinimler :

  • Java 2 Standard Edition Runtime Environment

Benzer yazılım

lxml
lxml

17 Feb 15

Landslide
Landslide

11 May 15

UberWriter
UberWriter

17 Feb 15

queXML
queXML

20 Feb 15

Geliştirici Diğer yazılım Martin Jericho

Yorumlar Jericho HTML Parser

Yorum Bulunamadı
Yorum eklemek
Görüntülerde açın!