piątek, 2 sierpnia 2013

Co ty wiesz o szukaniu w Google? Proximity search etc.

1. W Google, w Bing  (ang. proximity search).

Operator AROUND(20), umieszczony między słowami kluczowymi pozwala znaleźć te stron, na których słowa kluczowe występują w odległości do 20 wyrazów.

"Arduino"AROUND(20)"Scratch"

Można w ten sposób w przybliżeniu spowodować, że w wynikach wyszukiwania dane słowa kluczowe wystąpią mniej więcej w jednym zdaniu. Albo w jednym akapicie. Może to znacznie polepszyć jakość wyszukiwania i zmniejszyć ilość rezultatów.

W Bing jego odpowiednikiem jest   near:x
 site:linkedin.com current near:3 “engineer at Google” “san francisco bay area”
(przykład ze strony:http://booleanblackbelt.com/2011/06/beyond-boolean-search-proximity-and-weighting/_

Dodatkowe ciekawe operatory, o których nie wiedziałem:
* dowolny wyraz, Franklin * Roosevelt
 ~ synonimy. np. ~ochrona ~zdrowia
100...1000 zakres, pn.  pralka automatyczna 900...1200zł (u nas to chyba nie działa jeszcze)

2. Na własnym komputerze:
DocFetcher: tutaj operator będzie wyglądać np. tak

"wikipedia lucene"~10


Pojawią się wszystkie dokumenty, w których wikpedia i lucene będą w odległości od 0 do 10 wyrażów.
Dodatkowo DocFetcher pozwala na zastosowanie wag:

dog^4 cat
Zwiększy to ilość trafień dotyczących psów. 

Warto tej opcji poszukiwać we wszelkich innych wyszukiwarkach i concordancerach
(np.: TextStat; Carrot2; AntConc, DocSearcher)

Źródła:
  Wikipedia: http://en.wikipedia.org/wiki/Proximity_search_(text)
http://booleanblackbelt.com/2011/06/beyond-boolean-search-proximity-and-weighting
Ciekawy artykuł na temat "proximity and weighing":


PS1: Przy okazji zaciekawił mnie temat Apache Lucene, biblioteki stosowanej w darmowych narzędziach do indeksowania i wyszukiwania tekstów. I generalnie text mining: keywords extraction, clustering, fuzzy search, Bayesian network, automatic annotation (eg. Ontea)...

PS2. Ciekawe serwisy online oferujące wyszukiwanie i analizę tekstu:

http://search.carrot2.org
http://voyant-tools.org/ (analizator korpusu online)
http://citeseer.uark.edu:8080/citeseerx/index

1 komentarz: