cpdetector proje kod sayfası tespiti için küçük ama akıllı çerçevedir.
cpdetector farklı stratejiler entegre kod sayfası tespiti için küçük ama akıllı çerçevedir. Bu ağ üzerinden metinsel verileri kere üçüncü parti yazılımlar için bir kütüphane olarak kullanılabilir.
Aynı zamanda sıralama ve kod sayfası dayalı belgelerin büyük koleksiyon dönüştüren sağlayan bir komut satırı aracı şeklinde bir en iyi uygulama uygulanmasını içerir.
Mevcut stratejiler şunlardır: XML kodlama bildiriminin jchardet (dışlanma, frekans analizi ve tahmin), HTML charset özelliği algılama ve algılama.
Bir kod sayfası nedir?
İlk başta, bir metinsel belge bit dizileri başka bir şey değildir. Bir bilgisayar o (sayı olarak bilgisayar tarafından tanımlanır) karakter biçiminde bu verileri görüntüleyebilir, nasıl karar veriyor.
Bir kod sayfası - Ayrıca charset kodlama olarak bilinir - karakterler bir metin belgesinin ham veriyi eşler. Örneğin orijinal ASCII kodu sayfası yalnızca 128 farklı karakterleri haritaya izin böylece temsil karakteri karar vermek için bir sekizli (byte) 7 bit kullanır. Geçtiğimiz anısına pahalı ve bilgisayarlar çoğu zaman sadece 8 bit kayıtları ve otobüslerde vardı.
Bir anabilgisayar gebe zaman o desteklemesi gerektiğini, hangi karakterler, karar gerekiyordu. Örneğin Doktorlar ve matematikçiler denklemler için özel karakterleri gerekli. Sonuç olarak, bir bilgisayar genellikle özel bir kod sayfası ile birlikte
Bu sürümde Yeni nedir:.
- Bu büyük güncelleyiniz Sürüm komut satırı toplu modunda iki sorunları giderir.
- hareketli tespit edilmemiş belgeleri atlamak için anahtar tekrar şimdi çalışıyor.
- hiçbir girişimde (ikincisi olağanüstü program akışının neden) tespit edilmemiş belgeleri dönüştürmek için yapılacaktır.
nedir sürüm 1.0.8 Yeni:
- Bu sürüm bir istikrar sürümüdür ve giderir bayt OpenJDK ile işareti algılama ve uyumsuzluğu sipariş. Ayrıca artık Java 1.5 gerektirir.
Yorum Bulunamadı