Jericho HTML Parser

Yazılım ekran görüntüsü:
Jericho HTML Parser
Yazılım detaylar:
Versiyon: 3.4
Qayıt: 10 Dec 15
Geliştirici: Martin Jericho
Lisans: Ücretsiz
Popülerlik: 12

Rating: nan/5 (Total Votes: 0)

harfi harfine herhangi tanınmayan veya geçersiz HTML üreten ederken

Bu sunucu tarafı ve istemci tarafı etiketlerini düzenleyebilirsiniz.

Aynı zamanda üst düzey HTML formu manipülasyon fonksiyonları sağlar

Özellikler :. ve

  • varlığı gerçek dünya & quot; kötü biçimlendirilmiş HTML & quot kullanılmak üzere kütüphane idealdir belgenin geri kalanı, ayrıştırma engel değildir; Diğer ayrıştırıcıları bobinleri HTML.
  • ASP, JSP, PSP, PHP ve Mason sunucu etiketleri açıkça çözümleyici tarafından tanınır. Bu normal bir HTML hala dinamik eleman niteliklerini ayarlarken, örneğin yaygın olan, içlerinde sunucu etiketleri olsa bile düzgün ayrıştırılır anlamına gelir.
  • Bir olay yineleyici kullanarak büyük dosyaları hafıza işleminin etkili olmasını sağlayan StreamedSource sınıfını kullanarak yeni bir akış tabanlı ayrıştırma seçeneği. Bu temelde, diğer akış ayrıştırıcıları kullanılamaz HTML ve olmayan doğrulama XML, yanı sıra çok sayıda diğer özellikleri işlemek için yeteneği ile StAX alternatiftir.
  • bir olay, ne de ağaç tabanlı ayrıştırıcı değil, basit metin arama, verimli etiket tanıma ve bir etiket pozisyon önbelleği bir kombinasyonunu kullanır ne olduğunu, standart formunda. Bütün kaynak belgenin metni ilk belleğe yüklenir ve daha sonra sadece ilgili bölümler, her bir arama işlemi ilgili karakterler için aradı.

  • Belgenin sadece küçük bölümleri çözümlü veya modifiye edilmesi gerekiyorsa
  • gibi DOM gibi ağaç tabanlı çözümleyici karşılaştırıldığında, bellek ve kaynak gereksinimleri çok daha iyi olabilir. Hatalı ya da kötü biçimlendirilmiş HTML kolayca yukarıdan aşağıya belgedeki her düğümü tanımlamak gerekir ağaç tabanlı ayrıştırıcıları aksine, göz ardı edilebilir.
  • gibi SAX gibi bir olay tabanlı çözümleyici ile karşılaştırıldığında, arayüz çok daha yüksek bir seviyede olduğunu ve daha sezgisel ve gerekirse belge elemanı hiyerarşisinin bir ağaç gösterimi kolaylıkla oluşturulur.
  • başlayacak ve tüm çözümlü kesimlerin kaynak belgedeki uç pozisyonları bir ağaçtan belgenin tamamını yeniden gerek kalmadan belgenin yalnızca seçilen bölümlerinin değiştirilmesine izin erişilebilir.
  • kaynak belgedeki her pozisyonun satır ve sütun sayısının kolayca erişilebilir.
  • başlangıç ​​değerleri çıkarılması ve nüfus da dahil olmak üzere HTML form denetimleri analiz ve manipülasyon için basit ama kapsamlı bir arayüz sağlar ve dönüşüm salt okunur veya veri görüntüleme modları. Aynı zamanda veri formu alınan sağlar form denetimleri Analizi depolanır ve uygun bir şekilde sunulacak.
  • Dahili işlevselliği, Apache Lucene gibi bir metin arama motoruna beslemek için uygun bir HTML biçimlendirme tüm metin, ayıklayın.
  • Dahili işlevselliği basit metin biçimlendirme ile HTML biçimlendirmesi işlemek için.
  • Dahili işlevselliği belge elemanı hiyerarşisinde kendi derinliğine göre elemanlarını girintiler HTML kaynak kodunu biçimlendirmek için. (Online gösteri için tıklayınız)
  • Dahili kompakt HTML kaynak koduna işlevselliği tüm gereksiz beyaz boşluk kaldırarak.
  • Özel etiket türleri kolayca tanımlanabilir ve çözümleyici tarafından tanınması için kaydedilebilir.

Bu sürümdeki yeni nedir.

  • Eklendi Kaynak (Dosya) yapıcısı
  • Eklendi OutputDocument.getSegment () yöntemi.
  • Eklendi OutputDocument.remove yöntemi (int, int ucunu başlar).
  • Eklendi Renderer.setHRLineLength () yöntemi.
  • Eklendi RenderToText.jsp webapp örneği.
  • Eklendi Segment.getRowColumnVector () yöntemi.
  • Kodlama algılama şimdi ön kodlama ile uyumlu bir kod birimi boyutu var meta etiketlerinde belirtilen ortak kodlamalar yok sayar.

sürüm 3.1 yeni Nedir:

  • Hata düzeltmeleri:
  • Segment.getAllStartTags Sonsuz döngü ()
  • Segment.getAllElements Sonsuz döngü ()
  • Segment.getFirst * yöntemler sınırlayıcı segmentinde dışında kesimleri döndü.
  • Segment.getAllElements yöntemler bazı durumlarda tüm kapalı unsurları dönmedi.

  • Segment.getAllElements yöntemleri
  • Sabit belgelerine hataları.
  • Eklendi StreamedSource sınıfı.

  • Mevcut programların davranışlarını etkileyebilecek
  • Değişiklikleri:

  • sınıftan ParseText Değişti
  • arayüz.
  • Segment.getNodeIterator () artık ayrı düğümler olarak karakter başvuruları döndürür.

  • Öznitelik değeri Düzenli ifadeler dayalı
  • Added tag arama yöntemleri.

  • HTML sınıf özniteliği dayalı
  • Added tag arama yöntemleri.
  • Eklenenler statik Source.LegacyNodeIteratorCompatabilityMode özelliği geçici olarak önceki sürümleri buna Segment.getNodeIterator () işlevi geri yüklemek için.

  • ParseText
  • Kaldırılan char [] tabanlı arama yöntemleri.
  • Eklendi CharacterReference.appendCharTo (appendable) yöntemi.
  • Eklendi OutputDocument (Segment) yapıcısı.
  • Eklendi StreamedSourceCopy örnek program.

Benzer yazılım

Voyeur.js
Voyeur.js

13 May 15

Nome
Nome

13 Apr 15

Farbtastic
Farbtastic

13 May 15

Devices.css
Devices.css

14 Apr 15

Geliştirici Diğer yazılım Martin Jericho

Yorumlar Jericho HTML Parser

Yorum Bulunamadı
Yorum eklemek
Görüntülerde açın!