Apache Nutch üstüne inşa edilmiş Apache Lucene, güçlü bir Java arama motoru.
Nutch geliştiriciler özellikle Web üzerinde veri aramak için adanmış bir proje içine veri agnostik Lucene kod temeli dönüştürerek, Lucene kod temeli modifiye.
Bu teknoloji, bir yerleşik arama sunucusu olarak kendi Web sayfalarında arama, ya da ayrıştırmak ve veritabanına kazımak için veri arıyor Web tarama için kullanılabilir.
Nutch tek bir makinede çalıştırmak, ancak Hadoop kümeler daha iyi çalışır yapabilirsiniz.
Çeşitli eklentileri kullanım spektrumunu genişletmek için kullanılabilir
Bu sürümde Yeni nedir:.
- yinelenen etiketleri yoktur emin olun microformat-reltag etiketi kümesi.
- Daha iyi bir tarih alanı için değer geri düşmek.
- korkulan. kurtulun
- Hadoop'un 1.2.0 yükseltin.
- Tika 1.3 yükseltin.
sürüm 2.0 yeni nedir:.
- ParseFilter içine HTMLParseFilter yeniden adlandırıldı
- lib-http. kalan robotlar / IP engelleme kodu kaldırın
- Liman günlüğü SLF4J için.
- Dış ayrıştırıcı kodlama özelliği destekler.
- Ivy yapılandırma ayarları Gora dahil değildir.
- Enjektör injectedScore çağırmadan önce meta eklemek gerekir.
- Nutchbase Port Nutch kriter.
- geri ayrıştırma-html ekleyin.
- MoreIndexingFilter eksik tarih formatı.
- Ayrıştırıcı için zaman aşımı.
- tarama tarihi yeniden dene aralığı 0 olarak ayarlanır.
- Solr dizinleyicinin ve DeDup için günlük çıktı oluşturur.
- Geliştirilmiş NutchConfiguration.
- SolrDeleteDuplicates SolrRecord nesneleri klonlamak gerekir.
- Yerli Hadoop kütüphaneleri.
- ayırın inşa ve çalışma ortamları.
Maven yoluyla mevcut değil
nedir sürüm 1.5 Yeni:
- Bu sürüm de dahil olmak üzere birçok önemli bileşenleri yükseltmeleri dahil olmak üzere birçok iyileştirmeler içerir Tika 1.1 ve Hadoop 1.0.0, LinkRank iyileştirmeler ve WebGraph elemanları yanı sıra kara listeye, filtreleme kapsayan ve bir kaç isim ayrıştırma yeni eklentileri bir dizi.
sürüm 1.4 yeni nedir:.
- Eklendi Solr 4x (gövde) örnek şema
- Added '/ zamanı' görmezden svn için.
- Uygulama / xhtml + xml parse-html plugin.xml etkin olmalıdır; plugin.xml için birden mime türlerini izin verir.
- Sabit ayrıştırma-tika ve RFC-3986 başına göreli URL çözünürlüğünü kullanmak-html ayrıştırmak.
- Tika 0.10 yükseltti. NOT:. Önceden daha hatalı biçimlendirilmiş belgelerde fazla metin göz ardı edebilir Tika yeni RTF çözümleyici - ayrıntılar için TİKA-748 bkz
- Eklendi Sonar hedefler.
- .
- Ant pmd hedef bozuldu.
- sürüm 1.4 Yükseltildi Solr şema.
Ant build.xml
Sürüm 3.4.0 için SolrJ Yükseltildi
nedir sürüm 1.3 Yeni:
- Bu sürüm çeşitli iyileştirmeler (geliştirilmiş RSS ayrıştırma destek içerir, sıkı Apache Tika, dış ayrıştırma desteği, geliştirilmiş dil tanımlama ve büyüklüğü küçük kaynak bırakma arşivini bir sipariş ile entegrasyon -!. Sadece 2MB hakkında)
sürüm 1.2 yeni nedir:.
- endeks daha plug-in yapılandırılabilir
- Ayarlanabilir dosya protokolü üst dizin tarama.
- Ayrıştırıcı için zaman aşımı.
- Web sitesi hala Lucene markalı.
- tarama tarihi yeniden dene aralığı 0 olarak ayarlanır.
nedir sürüm 1.0 Yeni:.
- ayrıştırıcılarda birden ayrıştırma nesneleri döndürmek için izin
- kaldırıldı gereksiz Commons-günlük kavanoz.
- SegmentReader Bug sonsuz döngüye neden olur.
- Puanlama filtre kerede tüm outlinks skoru dağıtmak gerekir.
- nutch çekirdek uyarılar sayısını azaltın.
Ontoloji eklentisi
Yorum Bulunamadı