Apache Nutch

Yazılım ekran görüntüsü:
Apache Nutch
Yazılım detaylar:
Versiyon: 2.3
Qayıt: 1 Mar 15
Lisans: Ücretsiz
Popülerlik: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch üstüne inşa edilmiş Apache Lucene, güçlü bir Java arama motoru.
Nutch geliştiriciler özellikle Web üzerinde veri aramak için adanmış bir proje içine veri agnostik Lucene kod temeli dönüştürerek, Lucene kod temeli modifiye.
Bu teknoloji, bir yerleşik arama sunucusu olarak kendi Web sayfalarında arama, ya da ayrıştırmak ve veritabanına kazımak için veri arıyor Web tarama için kullanılabilir.
Nutch tek bir makinede çalıştırmak, ancak Hadoop kümeler daha iyi çalışır yapabilirsiniz.
Çeşitli eklentileri kullanım spektrumunu genişletmek için kullanılabilir

Bu sürümde Yeni nedir:.

  • yinelenen etiketleri yoktur emin olun microformat-reltag etiketi kümesi.
  • Daha iyi bir tarih alanı için değer geri düşmek.
  • korkulan.
  • kurtulun
  • Hadoop'un 1.2.0 yükseltin.
  • Tika 1.3 yükseltin.

sürüm 2.0 yeni nedir:.

  • ParseFilter içine HTMLParseFilter yeniden adlandırıldı
  • lib-http.
  • kalan robotlar / IP engelleme kodu kaldırın
  • Liman günlüğü SLF4J için.
  • Dış ayrıştırıcı kodlama özelliği destekler.
  • Ivy yapılandırma ayarları Gora dahil değildir.
  • Enjektör injectedScore çağırmadan önce meta eklemek gerekir.
  • Nutchbase Port Nutch kriter.
  • geri ayrıştırma-html ekleyin.
  • MoreIndexingFilter eksik tarih formatı.
  • Ayrıştırıcı için zaman aşımı.
  • tarama tarihi yeniden dene aralığı 0 olarak ayarlanır.
  • Solr dizinleyicinin ve DeDup için günlük çıktı oluşturur.
  • Geliştirilmiş NutchConfiguration.
  • SolrDeleteDuplicates SolrRecord nesneleri klonlamak gerekir.

  • Maven yoluyla mevcut değil
  • Yerli Hadoop kütüphaneleri.
  • ayırın inşa ve çalışma ortamları.

nedir sürüm 1.5 Yeni:

  • Bu sürüm de dahil olmak üzere birçok önemli bileşenleri yükseltmeleri dahil olmak üzere birçok iyileştirmeler içerir Tika 1.1 ve Hadoop 1.0.0, LinkRank iyileştirmeler ve WebGraph elemanları yanı sıra kara listeye, filtreleme kapsayan ve bir kaç isim ayrıştırma yeni eklentileri bir dizi.

sürüm 1.4 yeni nedir:.

  • Eklendi Solr 4x (gövde) örnek şema
  • Added '/ zamanı' görmezden svn için.
  • Uygulama / xhtml + xml parse-html plugin.xml etkin olmalıdır; plugin.xml için birden mime türlerini izin verir.
  • Sabit ayrıştırma-tika ve RFC-3986 başına göreli URL çözünürlüğünü kullanmak-html ayrıştırmak.
  • Tika 0.10 yükseltti. NOT:. Önceden daha hatalı biçimlendirilmiş belgelerde fazla metin göz ardı edebilir Tika yeni RTF çözümleyici - ayrıntılar için TİKA-748 bkz

  • Ant build.xml
  • Eklendi Sonar hedefler.

  • Sürüm 3.4.0 için SolrJ Yükseltildi
  • .
  • Ant pmd hedef bozuldu.
  • sürüm 1.4 Yükseltildi Solr şema.

nedir sürüm 1.3 Yeni:

  • Bu sürüm çeşitli iyileştirmeler (geliştirilmiş RSS ayrıştırma destek içerir, sıkı Apache Tika, dış ayrıştırma desteği, geliştirilmiş dil tanımlama ve büyüklüğü küçük kaynak bırakma arşivini bir sipariş ile entegrasyon -!. Sadece 2MB hakkında)

sürüm 1.2 yeni nedir:.

  • endeks daha plug-in yapılandırılabilir
  • Ayarlanabilir dosya protokolü üst dizin tarama.
  • Ayrıştırıcı için zaman aşımı.
  • Web sitesi hala Lucene markalı.
  • tarama tarihi yeniden dene aralığı 0 olarak ayarlanır.

nedir sürüm 1.0 Yeni:.

  • ayrıştırıcılarda birden ayrıştırma nesneleri döndürmek için izin

  • Ontoloji eklentisi
  • kaldırıldı gereksiz Commons-günlük kavanoz.
  • SegmentReader Bug sonsuz döngüye neden olur.
  • Puanlama filtre kerede tüm outlinks skoru dağıtmak gerekir.
  • nutch çekirdek uyarılar sayısını azaltın.

Benzer yazılım

Apache Blur
Apache Blur

13 Apr 15

Apache Lucene
Apache Lucene

10 Dec 15

solrpy
solrpy

12 May 15

Geliştirici Diğer yazılım Apache Software Foundation

Apache Abdera
Apache Abdera

13 Apr 15

Apache uimaFIT
Apache uimaFIT

18 Jul 15

Yorumlar Apache Nutch

Yorum Bulunamadı
Yorum eklemek
Görüntülerde açın!