Apache Lucene

Yazılım ekran görüntüsü:
Apache Lucene
Yazılım detaylar:
Versiyon: 5.3.1 / 4.10.4 / 3.6.2 Güncelenir
Qayıt: 10 Dec 15
Lisans: Ücretsiz
Popülerlik: 875

Rating: nan/5 (Total Votes: 0)

Apache Lucene da aşağı sunucu kaynak tüketimini tutmak ve hızlı ve yüksek doğruluk sonuçları üretirken , tam metin arama desteği gerektiren herhangi bir uygulama için uygundur.

Lucene yaygın olarak birçok diğer arama araçları özünde olan çapında en iyi arama motorlarından biri olarak kabul edilir, en ünlü varlık apache solr .

Lucene Java ve Apache Vakfı tarafından yayımlanan beri tamamen yazılır, birçok diğer dillere taşıdık ve üçüncü parti yazılım geliştirdi gibi çeşitli bağlama ve sarmalayıcıları var olmuştur.

Bu sürümde Yeni nedir:

  • Tüm dosya erişim artık kullanır daha iyi hata işleme açısından Lucene güçlü endeks güvenliğini vermek Java'nın NIO.2 API'leri ve güvenli hareketin kaydedilmesini.
  • Her Lucene segmenti artık benzersiz bir kimlik segmenti başına ve indeks dosyaları doğru çoğaltmaya yardımcı olmak için başı taahhüt saklar.
  • birleştirilmesi sırasında, IndexWriter artık hep birleştirmeden önce yolsuzluk gelen segmentleri denetler. Bu 5.0.0 yükseltme üzerine, bu birleştirme uzun soluklu eski 4.x endeksinde gizli yolsuzluk ortaya çıkarmak olabilir, anlamına gelebilir.

sürümde yeni nedir 5.2.1 / 4.10.4 / 3.6.2:

  • Tüm dosya erişim artık daha iyi hata işleme ve daha güvenli kaydedilmesini açısından Lucene güçlü endeks güvenliğini vermek Java'nın NIO.2 API'leri kullanır.
  • Her Lucene segmenti artık benzersiz bir kimlik segmenti başına ve indeks dosyaları doğru çoğaltmaya yardımcı olmak için başı taahhüt saklar.
  • birleştirilmesi sırasında, IndexWriter artık hep birleştirmeden önce yolsuzluk gelen segmentleri denetler. Bu 5.0.0 yükseltme üzerine, bu birleştirme uzun soluklu eski 4.x endeksinde gizli yolsuzluk ortaya çıkarmak olabilir, anlamına gelebilir.

sürümde yeni nedir 5.1.0 / 4.10.4 / 3.6.2:

  • Tüm dosya erişim artık daha iyi hata işleme ve daha güvenli kaydedilmesini açısından Lucene güçlü endeks güvenliğini vermek Java'nın NIO.2 API'leri kullanır.
  • Her Lucene segmenti artık benzersiz bir kimlik segmenti başına ve indeks dosyaları doğru çoğaltmaya yardımcı olmak için başı taahhüt saklar.
  • birleştirilmesi sırasında, IndexWriter artık hep birleştirmeden önce yolsuzluk gelen segmentleri denetler. Bu 5.0.0 yükseltme üzerine, bu birleştirme uzun soluklu eski 4.x endeksinde gizli yolsuzluk ortaya çıkarmak olabilir, anlamına gelebilir.

5.0.0 / 4.10.3 / 3.6.2 sürümünde yeni Nedir:

  • Yeni Şartlar .getMin / Max yöntemleri alanında başına en düşük ve en yüksek terimleri almak için.

  • ID başına tekdüze artan bir sürümünü ilişkilendirmek kimlik aramaları için optimize
  • Yeni IDVersionPostingsFormat.
  • doc bir dizi Atom güncelleme alanlarını değerleri.
  • doc değerleri arama zamanlı performans için çok sayıda optimizasyonlar.
  • Yeni (varsayılan) Lucene49NormsFormat daha böyle çok kısa alanlar gibi bazı davaları sıkıştırmak için.
  • çok değerli sayısal alanların verimli işlenmesi için yeni SORTED_NUMERIC docvalues ​​türü.
  • Indexer kolay yeniden kullanım için önceki simge akışı geçer.
  • MoreLikeThis alan başına birden çok değer kabul eder.
  • kendi RAM kullanımı tahmin Tüm sınıflar artık yeni Sorumlu arabirimini uygular.
  • Lucene dosyaları artık tamamen basitleştirilmiş IO API'leri ile arayan izin vermeme, tüm platformlarda (Dosya) OutputStream tarafından yazılır.
  • MMapDirectory yeni bir harita oluşturmak edemiyor kafa karıştırıcı hata mesajı geliştirin.

sürümünde 4.8.0 yeni Nedir:

  • Lucene yeni Rescorer / QueryRescorer API vardır gerçekleştirmek için ilk geçiş isabet toplandıktan sonra daha pahalı skorlama fonksiyonlarını kullanarak ikinci-pass rescoring veya arama sonuçlarının yeniden yükselmesini sağlamıştır.
  • AnalyzingInfixSuggester şimdi yakın gerçek zamanlı AutoSuggest destekler.
  • Basitleştirilmiş darbeye sıralanmış ilanları sıralama düzeni ifade Lucene en Sıralama sınıfını kullanmak (SortingMergePolicy ve EarlyTerminatingCollector kullanarak).
  • Toplu puanlama ve normal yineleyici tabanlı puanlama ayrıldı, bu yüzden bazı sorgular daha etkili toplu puanlama yapabilirsiniz.
  • indeksleme sırasında koşullarını karma MurmurHash3 geçildi.
  • IndexWriter artık ikili doc değer alanları güncellenmesi desteklemektedir.
  • HunspellStemFilter artık daha az RAM 100x 10 kullanır. Aynı zamanda hatasız bilinen tüm OpenOffice sözlükler yükler.

  • işletim sistemi ve dosya sistemi bunu (Linux, MacOSX çalıştığı bilinmektedir) izin verirseniz
  • Lucene şimdi de, kaydedilmesini dizin meta fsyncs.

  • indeks dosyaları Windows silinebilir bu yüzden
  • Lucene şimdi okuyucular hala açık olsa bile, kaputun altındaki Java 7 dosya sistemi işlevlerini kullanır.
  • NativeFSLockFactory içinde ciddi bir hata birden IndexWriters aynı kilidi elde etmek için izin verebilir, hangi tespit edildi. Kilit dosyası, kilit düzenlenen bile dizin dizinden silinir artık edilir.

sürümünde 4.7.0 yeni Nedir:

  • dize (SortField.STRING) göre sıralama yaparken, Şimdi eksik değerler ilk (varsayılan) veya son sıralanması gerektiğini belirtebilirsiniz.

  • son kapanış silme yoksa veya başvurulan semantik sırasında silemezsiniz
  • dosya sistemleri için NRT desteği.
  • Eklendi LongBitSet fazla 2.1b bit yönetmek için (aksi kullanmak FixedBitSet).
  • Kürtçe için eklendi Analyzer.
  • Added Yükünü FileDictionary (öner) destek ve daha yapılandırılabilir olun.
  • AnalyzingInfixSuggester gibi ama daha düşük konumlarda olan belirteçleri eşleşen önerilerini artıran yeni BlendedInfixSuggester, eklendi.
  • Eklendi SimpleQueryParser. İnsan girilen sorguları için ayrıştırıcı
  • PostingsHighlighter Eklendi multitermquery (joker, önek, vb.)

nedir sürümü 4.6.0 Yeni

  • olmadan NumericDocValues ​​alan güncellemeleri için destek eklendi (yeniden IndexWriter.updateNumericDocValue aracılığıyla belgeyi) indeksleme (Terim, String, Uzun).

  • uzun kuyruk & quot;
  • Yeni FreeTextSuggester bir quot & yararlı basit Ngram dil modeli kullanılarak sonraki kelimeyi tahmin edebilirsiniz; öneri.
  • Yeni ifadesi modülü komut benzeri sözdizimi ile sıralama özelleştirilmiş sağlar.
  • sıkıştırılmamış java yerli diziler olarak yığın tüm doc değerlerini tutabilir yeni bir DirectDocValuesFormat.

  • Belirli bir alan başına doc endeksli ise
  • Term.hasFreqs şimdi belirleyebilirsiniz
  • dönem frekansları.

nedir sürümü 4.5.0 Yeni

  • Yeni bellek DocIdSet uygulamaları olan özellikle iyi küçük kümeler üzerinde FixedBitSet daha. WAH8DocIdSet, PFORDeltaDocIdSet ve EliasFanoDocIdSet
  • CachingWrapperFilter şimdi kötü durumda FixedBitSet aynı bellek kullanımı var ama küçük kümeler üzerinde küçük ve daha hızlı varsayılan WAH8DocIdSet, filtreleri önbelleğe alır.
  • TokenStreams şimdi sonunda () konum artışını ayarlamak, bu yüzden delik izleyen işleyebilir.
  • IndexWriter artık verilen IndexWriterConfig klonları.

  • 4.4 çıktığından beri
  • Çeşitli onarımları ve optimizasyonlar.

nedir sürümü 4.4.0 Yeni

  • Yeni Replicator modülü: sunucu arasındaki endeks revizyonlar çoğaltmak ve istemcisi.
  • Yeni AnalyzingInfixSuggester. öneri herhangi bir belirteçleri için maçlara dayanan önerileri bulur, sadece saf önek eşleştirme dayanmayan
  • Yeni PatternCaptureGroupTokenFilter. Birden belirteçleri, bir veya daha fazla Java regexes her yakalama grubu için bir yayarlar
  • Yeni Lucene Faset modülü.

nedir sürümü 4.3.0 Yeni

  • Yeni SearcherTaxonomyManager yönetir yakın gerçek zamanlı bir açılıyor IndexSearcher ve (faceting için) TaxonomyReader. hem
  • ayrı bir sınıflandırma endeksi olmadan sayar SortedSetDocValuesField kullanarak faset, hesaplamak için faset modülüne yeni faset yöntemi eklendi.

  • nedeniyle 4000% daha hızlı sorgular sonuçlanan atlama için minShouldMatch BooleanQuery için
  • önemli performans artışı.

  • 4.2.1 çıktığından beri
  • Çeşitli onarımları ve optimizasyonlar.

nedir sürümü 4.1.0 Yeni

  • Tüm alanlar (dosya yazarken Lucene artık istiyor ) bir ekleme-tek yol yazılır. Bu ekleme sadece akışları ile birlikte varsayılan, HDF'ler vb ..
  • çalışır anlamına gelir
  • Yeni uygulamaları önermek: önerileriniz için kullanılan (lucene Analyzer hesaplanan) altta yatan formu ayrıca girişte hatalı eşleme sağlar döndürülen metin ve FuzzySuggester, ayrı AnalyzingSuggester,
  • .
  • Yakın zamanlı destek faset modülüne eklendi.
  • Yeni Highlighter (postingshighlighter) vurgulayıcı modülüne ekledi.
  • filtrelenmiş sorgu yürütme daha fazla esneklik için FilteredQuery Eklendi FilterStrategy.
  • Eklendi CommonTermsQuery çok çok sık terimlerle sorguları hızlandırmak için. Terim frekansları verimli sorgu sırasında tespit edilir -. Hazırlama gerekli hiçbir indeks zamanı

  • 4,0 çıktığından beri
  • Çeşitli onarımları ve optimizasyonlar.

sürüm 4.0-alfa yeni Nedir:

  • terimler için dizin formatları, ilanları listeleri, depolanan alanlar, terim
  • vektörler, vb Codec API yoluyla çıkarılabilir. Sağlanan uygulamalarından seçebilir veya ihtiyaçlarını karşılamak için kendi Codec index biçimini özelleştirebilirsiniz.

  • arama sırasında Filtre kullanarak
  • ölçüde daha hızlı performans.
  • Dosya sistemi tabanlı dizinleri birleştirme ve konuları arıyor arasında IO çekişme azaltmak için, birleştirme ipliklerinin IO (MB / sn)-limiti oranı olabilir.
  • FuzzyQuery geçmiş sürümlere göre daha 100-200 kat daha hızlıdır.
  • Yeni bir yazım denetleyicisi, DirectSpellChecker, olası düzeltmeler bulur
  • doğrudan ayrı bir dizin gerektirmeden ana arama dizinine karşı.

sürümünde 3.6.0 yeni Nedir:

  • Java 5 ve Java 6, Buna ek olarak bırakma şimdi tam Java 7 desteği (asgari JDK 7u1 gereklidir) olmuştur.
  • TypeTokenFilter filtreleri belirteçleri kendi TypeAttribute dayalı.
  • vurgulayarak sırasında istisnalara yol açabilecek CharFilters, Tokenizers ve TokenFilters bir dizi düzeltildi ofset hata.
  • Eklenenler fonetik enkoderler: vb Metafon, Soundex, Caverphone, Beider-Morse,
  • .
  • CJKBigramFilter ve CJKWidthFilter CJKTokenizer değiştirin.
  • Kuromoji morfolojik analiz bileşik kelimeler ve onların segmentasyonu hem üreten, Japonca metin sıfırlar.
  • Statik indeks budama (Carmel budama), düşük-içi belgenin dönem frekans ile gönderilenler kaldırır.

  • aralık sorguları için açık bir amaç olarak
  • QueryParser şimdi yorumladığı '*'.
  • FieldValueFilter Belirtilen alan eksik belgeleri içermemektedir.
  • CheckIndex ve IndexUpgrader yeni -dir-impl komut satırı seçeneği ile kullanmak için belirli FSDirectory uygulanmasına belirlemenize olanak sağlar.
  • FSTs artık bazı durumlarda (çıkış) tarafından ters arama yapabilirsiniz ve onların boyutunu azaltmak için paketlenmiş olabilir. Bir FST bir başlangıç ​​düğümünden üst N en kısa yolu almak için bir yöntem var artık.
  • Yeni WFSTCompletionLookup suggester destekleyen ince taneli önerileriniz için sıralama.

  • önerileri ön sıralarken
  • FST tabanlı öneride şimdi çevrimdışı (disk tabanlı) tür, yerine bellek tür kullanın.
  • ToChildBlockJoinQuery (çocuk belgelere aşağı ebeveyn) ters yönde katıldı.
  • Yeni sorgu zamanı katılmadan indeksi zamanı katıldı daha esnek (ama daha az ölçülebilir) 'dir.
  • Eklendi HTMLStripCharFilter HTML biçimlendirmesi şerit.

sürümünde 3.5.0 yeni Nedir:

  • Added çok önemli bir (3-5X) RAM indirgeme bir IndexReader açma şartları endeksi tutmak için gerekli.

  • Derin çağrı kullanım durumları desteklemek için belirtilen ScoreDoc (önceki sayfada mesela son belge) sonra sonuç verir
  • Eklendi IndexSearcher.searchAfter.
  • Eklendi SearcherManager birden çok arama iş parçacığı üzerinde paylaşımı ve yeniden açılması IndexSearchers yönetmek için. Artık başvurulan değilse Dayandığı IndexReader örnekleri güvenle kapatılır.

  • güvenle birden istekleri karşısında indeksi (örneğin çağrı / drilldown) tutarlı bir görünüm sağlar
  • Eklendi SearcherLifetimeManager.

  • o korkunç pahalı ve nadiren artık haklı beri IndexWriter.optimize yeniden adlandırıldı
  • Bu yöntemin kullanımını caydırıcı forceMerge için.

nedir sürümü 3.3.0 Yeni

  • imla kontrolü modülü şimdi / otomatik tamamlama önermek içerir Üç uygulamalara işlevsellik,:. Jaspell, Üçlü Trie ve Sonlu Durum
  • hem & quot için, birden fazla kırıkları sonuçları birleştirme desteği normal & quot; Arama sonuçları (TopDocs.merge) yanı sıra gruplama modülü (SearchGroup.merge, TopGroups.merge). kullanılarak gruplandırılmış sonuçları
  • KStem, İngilizce için daha az agresif Stemmer bir optimize uygulanması.

  • uygulanmasını gruplandırma
  • Tek geçişli blok belge indeksleme dayalı.
  • MMapDirectory İyileştirmeler (şimdi de 64-bit Linux üzerinde FSDirectory.open tarafından döndürülen varsayılan uygulama).
  • NRTManager kolaylaştırır taşıma yakın gerçek zamanlı çoklu arama parçacığı ile arama izin görünür olması gereken indeksleme değişiklikleri kontrol uygulaması hangi arama istekleri.
  • TwoPhaseCommitTool bir çok kaynak IndexWriter olmak üzere, taahhüt, iki aşamalı performans kolaylaştırır.
  • varsayılan birleştirme politikası, TieredMergePolicy, bu silmeler ile segmentleri hedef nasıl agresif denetlemek için yeni bir yöntem (set / getReclaimDeletesWeight) sahiptir ve varsayılan olarak artık eskisinden daha agresif.
  • PKIndexSplitter aracı orta noktası terimiyle bir dizin böler.

sürümünde 3.2.0 yeni Nedir:

  • Yeni gruplama modülü, Lucene altında / contrib / gruplama, sağlayan arama sonuçları tek değerli endeksli alana göre gruplandırılmış edilecek.
  • Yeni IndexUpgrader aracı tamamen mevcut biçime eski indeksi dönüştürür.
  • Yeni bir dizin uygulaması, NRTCachingDirectory, NRT oranları yeniden hızlı uygulamalar için I / O yükünü azaltmak için, RAM küçük kesimleri önbelleğe alır.
  • Yeni Collector uygulaması, CachingCollector, (isteğe bağlı olarak ayrıca belge kimlikleri ve puanları) Arama hit toplamak ve daha sonra onları tekrar yapabiliyor. Bu sonuçlar üretmek için, iki ya da daha çok kez geçişi gerektirecektir Toplama için yararlıdır.
  • Index IndexWriter yeni addDocuments veya updateDocuments yöntemleri kullanarak bir belge bloğu. Bunlar deneysel API'ler belgelerin blok sonsuza ilginç bir gelecek sağlayan gruplama gibi özellikler ve katılır, endekste bitişik kalır emin olun.

  • nedeniyle bitişik olmayan kesimleri birleştirme için güçlü olmak için daha verimli
  • Yeni varsayılan birleştirme politikası, TieredMergePolicy.
  • NumericField şimdi bir saklı dokümanı yüklerken doğru döndürülür (daha önce sayısal değer dönüştürülen dize ile geri normal Alan aldı).

sürümünde 3.1.0 yeni nedir.

  • ConstantScoreQuery artık doğrudan sorgu
  • IndexWriter şimdi yeni bir ayrı oluşturucu API, IndexWriterConfig ile yapılandırılmış. Artık setMaxThreadStates arayarak IndexWriter daha önceden sabit iç iplik sınırını kontrol edebilirsiniz.
  • IndexWriter.getReader IndexReader.open (IndexWriter) ile değiştirilir. Ayrıca artık bir NRT okuyucu açtığınızda siler çözülmesi gerektiğini belirtebilirsiniz.
  • MultiSearcher önerilmemektedir; ParallelMultiSearcher IndexSearcher doğrudan absorbe olmuştur.

  • 64bit Windows ve Solaris JVM'lerle
  • MMapDirectory (FSDirectory.open tarafından döndürülen) varsayılan uygulama şimdi. JVM destekliyorsa, MMapDirectory da Unmapping sağlar.
  • Yeni TotalHitCountCollector sadece hit sayısını sayar.

  • Segment bittiğinde
  • ReaderFinishedListener API girişlerini tahliye harici önbelleklerini sağlar.

sürümünde 3.0.1 yeni nedir.

  • FuzzyTermEnum gereksiz senkronizasyonu Kaldır

  • Silinen şartları çözerken
  • Daha iyi performans için vadeli sıralama sırayla bunu.
  • yanlış IndexWriter.infoStream üzerinde aynı muazzam dönem hakkında uyarı devam etmeyin.
  • tek yük varken Min / MaxPayloadFunction 0 döndürür Fix.
  • Sorgular tüm sıfır boost hükümler içeren (örneğin, metin: foo ^ 0) yanlış sıralanmış ve geçersiz docids üretti
  • .
  • FuzzyQuery korunmaktadır iç sınıf ScoreTerm kaldırıldı. Bu sınıfın karşılaştırıcı uyumsuz bir şekilde değiştirilecek çünkü değişiklik gerekiyordu. Sınıf kamu olması amaçlanmıştır değildi.

sürümünde 2.9.2 Yeni Ne:

  • BooleanQuery ve hashCode içinde disableCoord görmezden yöntemleri eşittir BooleanQueries önbelleğe zaman kötü şeyler neden olur.
  • yanlış IndexWriter.infoStream üzerinde aynı muazzam dönem hakkında uyarı devam etmeyin.

  • Yüksek endeksleme hızlarında
  • NRT okuyucu geçici silmeleri kaybedebilirsiniz.

sürümünde 3.0.0 yeni Nedir:

  • SegmentReader sınıf uygulaması ayarlamak için sistem özelliği kaldırıldı.
  • IndexCommit için IndexCommitPoint dan SnapshotDeletionPolicy # enstantane () Değişim dönüş türü. Bu yöntemi kullanan kod çalışmak için Lucene 3.0 karşı derlenmiş çekirdekler gerekir. Daha önce kaldırılmış IndexCommitPoint de kaldırılır.
  • tüm temel nitelikleri için token örneği oluşturur bir kolaylık AttributeFactory sağlayın.
  • NumericRangeTermEnum içinde özyineleme çıkarın.
  • FuzzyQuery içinde Optimize Levenshtein Mesafe hesaplama.

Benzer yazılım

node-elasticsearch
node-elasticsearch

10 Dec 15

PHP Search Engine
PHP Search Engine

13 May 15

Apache Blur
Apache Blur

13 Apr 15

jQuery Facets
jQuery Facets

13 May 15

Geliştirici Diğer yazılım Apache Software Foundation

Apache Shindig
Apache Shindig

13 Apr 15

Apache JDO
Apache JDO

11 Apr 15

Apache Rat
Apache Rat

13 Apr 15

Yorumlar Apache Lucene

Yorum Bulunamadı
Yorum eklemek
Görüntülerde açın!