Apache Tika diğer dosyaları içinde içerik aramak için düşük seviyeli bir araç olarak geliştirilmiştir.
Tika, kendi basit bir kütüphane olmayı çok fazla bir şey değil, ama bu tam fonksiyonlu olarak dosya arama sistemini sağlamak için arama motorları, dijital varlık yönetimi sistemleri veya CMSS gibi daha güçlü araçlar entegre edilebilir.
Kitaplık hızlı toplam dosya bilgileri sadece dosyanın başlığını erişebilirsiniz ya gerçekten derin gitmek ve metin veya ikili formatta veri türleri için dosyanın vücudunda bile arama yapabilirsiniz.
Dosya türleri geniş bir yelpazede desteklenen ve Tika da üçüncü parti bağları ve sarma bir dizi diğer programlama dilleri sayesinde kullanılabilir.
Bu sürümde Yeni nedir :
- Bu sürüm hata düzeltmeleri ve yeni Tesseract OCR Ayrıştırıcı dahil olmak üzere yeni özellikler içerir; Yeni GDAL Ayrıştırıcı; Daha fazla Tika istikrar biçimleri ve genel iyileştirmeler destekledi.
nedir sürümü 1.8 Yeni
- Bu sürüm yeni bir Tesseract dahil hata düzeltmeleri ve yeni özellikler içerir OCR Ayrıştırıcı; Yeni GDAL Ayrıştırıcı; Daha fazla Tika istikrar biçimleri ve genel iyileştirmeler destekledi.
nedir sürüm 1.7 Yeni
- Bu sürüm yeni bir Tesseract dahil hata düzeltmeleri ve yeni özellikler içerir OCR Ayrıştırıcı; Yeni GDAL Ayrıştırıcı; Daha fazla Tika istikrar biçimleri ve genel iyileştirmeler destekledi.
nedir sürüm 1.6 Yeni
- Bu sürüm yeni bir Translation dahil hata düzeltmeleri ve yeni özellikler içerir API, daha desteklenen formatlar ve Tika istikrar genel gelişmeler.
nedir sürüm 1.5 Yeni:.
- PDF'leri gömülü dosya işleme alınmasında Sabit hata
- Eklendi SourceCodeParser java destekleyen, Groovy, C ++ dosyaları.
- Tika Sunucu multipart / form-data yüklerini desteklemek için güncellendi.
- Güncelleme Tika Sunucu.
- Güncel Tika Sunucu joker adresleri üzerinden isteklerini kabul edecek.
- Alternatif NonSequentialPDFParser kullanma seçeneği eklendi.
- PDF Acroforms içeriği artık ekstre edilir.
- PPT asıl slayt Sabit geçersiz yıldız.
- Added test durumları PPT ve PPTX oto-date işlenmesini onaylamak için.
CXF 2.7.8
1.4 sürümü yeni Nedir:
- kötü seçilmiş GPL metin ile bir deney HTML dosyası olarak kaldırıldı o.
- İyileştirmeler bu metin / html ve text / xml içerik üretmek için izin vermek.
- iyileştirmeler true olarak ayarlanmış decompressConcatenated seçeneği gerektiren g'zipped dosyaları işlemek için Kompresör Ayrıştırıcı yapılmıştır.
- awk dosyalarının tespiti engelleyen bir tipografik hata hitap etti.
tika-sunucu
sürüm 1.2 yeni Nedir:
- Apache Tika 1.2 iyileştirmeler ve hata düzeltmeleri bir dizi içerir.
sürüm 1.0 yeni Nedir:
- Apache Tika 1.0 iyileştirmeler ve hata düzeltmeleri bir dizi içerir.
nedir sürümü 0.9 Yeni:.
- Bu sürüm birçok önemli hata düzeltmeleri ve yeni özellikler içerir
nedir sürümü 0.8 Yeni
- Dil tanımlama artık bir yapılandırma dosyası ile dinamik, yapılandırılabilir yönetilen sınıfyolundan yüklendi.
- Tika şimdi ayrıştırma yatan Roma kütüphanesi sararak Feeds destekler.
- Tika ayrıştırma için bir hızlı başlangıç kılavuzu katkıda bulunulmuştur.
- XHTML nitelikleri ile sıhhi tesisat için bir yaklaşım eklendi.
- Medya türü hiyerarşi bilgiler artık dikkate alınır.
- NetCDF ve HDF4 / 5 eklendi dahil olmak üzere ortak bilimsel veri formatları ayrıştırma desteği.
- Birim testleri TestParsers tamamlamak için izin sabit olmuştur.
Belirli bir giriş belgesi için en iyi ayrıştırıcı seçerken
Windows için
nedir sürümü 0.7 Yeni
- MP3 dosya ayrıştırma Kanal ve SampleRate çıkarma dahil, gelişmiş ve ID3v2 desteği. Dahası, ses ayrıştırma mim algılama da MIDI formatında geliştirilmiş.
- Tika artık kendi RTF ayrıştırma işlevi için X11 dayanır.
- AutoDetectParser Bir Konu-güvenli hata keşfetti ve ele alındı.
- PDFBox 1.0.0 yükseltin. Yeni PDFBox versiyonu PDF ayrıştırma performansını artırır ve metin çıkarma konularında bir dizi giderir.
Gereksinimleri
- Java 6 veya daha yüksek
Yorum Bulunamadı