Apache Tika

Yazılım ekran görüntüsü:
Apache Tika
Yazılım detaylar:
Versiyon: 1.4
Qayıt: 20 Feb 15
Lisans: Ücretsiz
Popülerlik: 102

Rating: nan/5 (Total Votes: 0)

Apache Tika tespit ve ayrıştırıcı kütüphaneleri şey kullanarak ancak varolan birkaç belgelerden meta yanı sıra yapılandırılmış metin içeriğini ayıklamak için tasarlanmış bir açık kaynak aracıdır.
Apache Tika aşağıdaki belge biçimlerini destekler: HyperText Markup Language (HTTP), XML ve türetilmiş biçimleri, Microsoft Office belge biçimlerini, OpenDocument Format (ODF), Taşınabilir Belge Biçimi (PDF), Elektronik Yayın Formatı (EGF), Zengin Metin Biçimi (RTF ), sıkıştırma ve paketleme biçimleri, metin / ses / görüntü / video formatları, mbox formatında ve Java sınıf dosyaları ve arşivleri.
Daha önce, Apache Tika Apache Lucene yazılım kütüphanesi bir alt-proje oldu. Şimdi Apache Software Foundation tarafından bağımsız bir paket olarak dağıtılan

Bu sürümdeki yeni nedir:.

  • kaldırıldı Bunun (TIKA-1129) bir kötü seçilmiş GPL metin test HTML dosyası.

  • Tika-sunucu
  • İyileştirmeler bu metin / html ve metin / xml içeriği (TIKA-1126, TİKA-1127) üretmek için izin vermek.
  • iyileştirmeler gerçek (TIKA-1096) olarak ayarlanmış decompressConcatenated seçeneği gerektiren g'zipped dosyaları işlemek için Kompresör Ayrıştırıcı yapılmıştır.
  • awk dosyaları (TİKA-1081).
  • tespiti engelleyen bir tipografik hata Adresli
  • Yalnızca (TIKA-1047) sunulan belgenin, küçük bir kısmı dayalı medya türünü algılar TİKA'nın JAX-RS DİNLENME sunucusuna yeni son nokta eklendi.
  • RTF:. Emretti ve sırasız listeler artık ayıklanır (TIKA-1062)
  • MP3: Ses süresi artık ekstre edilir (TİKA-991)
  • Java .class dosyaları:. Java byte kodlarını (TIKA-1053) ayrıştırma için ASM 3.1 ASM 4.1 yükseltilmiş
  • Mime Türleri: Tanımlar isteğe bağlı genişletilmiş bağlantı (URL) ve İYE dahil birçok ortak biçimleri (TİKA-1012 / TİKA-1083)
  • detayları ile birlikte
  • İstisnalar Office belgeleri özet bilgiler ayrıştırma, OLE10 gömülü belgeleri ayrıştırma ve TikaCLI gömülü documennts kaydederken yerine artık çıkarma iptal edilme kaydedilir (TİKA-1074)
  • MS Word: satır tablo karakteri şimdi satır (TIKA-1128)
  • ile değiştirilir
  • XML: ElementMetadataHandlers artık isteğe bağlı olarak yinelenen ve boş değerleri kabul edebilir (TIKA-1133)
  • .

Gereksinimler :

  • Java 2 Standard Edition Runtime Environment

Geliştirici Diğer yazılım The Apache Software Foundation

Yorumlar Apache Tika

Yorum Bulunamadı
Yorum eklemek
Görüntülerde açın!