Coveo ExpressoTM Beta is how we make advanced information access available – to all businesses – at no cost for up to 50 users, 1 million emails and attachments, and 100,000 documents.
COVEO expresso
03 dinsdag nov 2009
Toegevoegd in ESP
03 dinsdag nov 2009
Toegevoegd in ESP
Coveo ExpressoTM Beta is how we make advanced information access available – to all businesses – at no cost for up to 50 users, 1 million emails and attachments, and 100,000 documents.
01 donderdag okt 2009
Toegevoegd in ESP
Afgelopen donderdag (24-09-2009) organiseerde Netwiz, in samenwerking met Eventhis en de Hanzehogeschool Groningen een evenement voor de lokale overheid in de vorm van een lunchsessie. Het evenement vond plaats in Hotel Tjaarda te Oranjewoud.
De interesse was zeer goed te noemen, wat ook bleek uit het aantal aanmeldingen.
De presentaties zorgden voor een compleet verhaal, van toepassingen tot het toepassen. De sessie werd voorgezeten door Andries Bottema, directeur van Netwiz, die het mini-seminar opende met een inleiding over de mogelijkheden van zoektechnologie.

Netwiz | Gemeenten presentatie
Vervolgens mocht ik mijn verhaal doen aan de hand van een op maat presentatie voor de Nederlandse gemeenten. De presentatie ging in op Coveo aan de hand van 2 cases en het door Dimpact ontwikkelde Klant Contact Centrum. De hoeveelheid informatiebronnen bij de gemeentes is groter dan normaal en ook hangen diverse wetgevingen als een molensteen om de nek van de baliemedewerkers. Zo moet door de gemeentes binnen een vastgestelde termijn informatie aan de burger verstrekt kunnen worden. Hier kan Enterprise Search bij helpen en fungeert tevens als vangnet om te voorkomen dat bepaalde informatie invindbaar is.
![]() Een blik in de zaal |
![]() Tijdens de lunch I |
![]() Tijdens de lunch II |
Vervolgens ging Edwin Adriaansen in op de OpenSource mogelijkheden voor Enterprise Search, gebruik makend van Lucene met SolR. Na de lunch stond Gert Pieters van Eventhis klaar en liet ons zien waar de focus op moet liggen bij de implementaties van oplossingen zoals Search. Na deze heldere presentatie, gaf Gert het stokje door aan Kees Westerkamp van de Hanzehogeschool die ons vertelde over de interessante cases die door studenten uitgevoerd zijn en nog uitgevoerd kunnen worden bij gemeenten.
Aan het einde van de sessie was er voor de bezoekers nog de mogelijkheid om vragen te stellen en was er een live demo.

Netwiz | Coveo demo door Han
14 zondag jun 2009
Toegevoegd in ESP, Webdevelopment
Tags
account, ESP, file system, Han Jongstra, linkedin, search index, thesaurus

Serverruimte
“Voor bedrijven is kennis van mega belang en dit zal in een steeds groter wordende kenniseconomie alleen maar toenemen. Doordat prijzen onder druk staan en werknemers minder trouw geworden zijn is het behoud van kennis, inwerken van nieuwe medewerkers en het hergebruiken van deze kennis noodzakelijk om te overleven. Vaak is deze kennis ingekapseld in talloze Word en Pdf documenten, Powerpoint presentaties en Excel sheets die overal en nergens in de organisatie rondzwerven. NAS en SAN oplossingen staan bol van de gigabytes aan data en het overzicht is ver te zoeken. Systeembeheer prikt hier en daar nog een netwerkschijfje bij om de (volgens de regel) jaarlijkse verdubbeling van documenten te kunnen ondersteunen. Gebruikers slaan lokaal bestanden op omdat het niet meer in de structuur past of omdat het gewoon ‘database huggers’ zijn. Omdat de naam van een document het enige karakteristieke van een bestand is worden bestanden op netwerkschijven door andere gebruikers overschreven met oudere versies.
Mocht je de mazzel hebben dat je een organisatie werkt met een reactief management, dan besluit deze uiteraard om voor een paar ton een draak van een Document Management Systeem aan te schaffen. Een lading consultants wordt door een willekeurige ‘automatiseerder’ naar binnen geschoven om nieuwe werkwijzes, categorisatiemethodes en cultuurveranderingen door de strotten van de werknemers te drukken. Als klap op de vuurpijl besluit de (door verkeerde bezuinigingen verouderde / niet vervangen) fileserver er mee op te houden en is de G-schijf niet meer te vinden onder Windows Verkenner.”
01 woensdag apr 2009
Tags
ESP, Han Jongstra, html crawling, http://, linkedin, Netwiz, sdxp://, search index, search result quality, xml
Enterprise Search is rapidly gaining popularity and the number of customers of ES products is growing. Every day more customers acquire ESP systems and start indexing their internal documents. Also many of these companies will start to see the advantage of competetive intelligence and information access and will start crawling external business websites. This blog will show some of the consequences and disadvantages of indexing public websites outside the firewall.
Dutch companies can’t wait to all have their own search index of government sites, youtube, social networking sites (like www.hyves.nl) and finincial and news sites. When ESP will become a common product:

screenshot from the site webwereld.nl
Example
As the screenshot of a Dutch news website on the right side shows only one third of the page is real content. The rest are ads, highlights of other interesting articles and comments by users. In my opinion we do want to index this, but it can and should not have an impact on the quality of the search results by adding unrelevant keywords and metadata to the content of the page.
We need a new protocol
My goal is to create an API on the information provider side so local indexes are no longer needed and the quality of the search results is based on the entities in the database of the website. The API should return the content in an XML format so the indexing engine can make the difference between the entities or real content of the article and on the other hand the ‘extra’ information.
A new standard will be developed which enables enterprise search in the future and search results quality will be guaranteed. An option for this search standard can be introduced (next to http://) through a new protocol, for example sdxp:// (Search Data Xml Protocol). This protocol prevents the crawler has to use HTML for indexing a website.
Why a new protocol? This prevents the endless discussion about using a subdomain or paths in the url.
XML example
In the image below an example of the XML structure is described. As you can see the XML file only contains raw data which can be parsed by the indexer.

XML example
HTML is not sufficient
HTML is intended to be a markup language, so a lot of markup is available within the document. But as enterprise search indexes plain text this markup language and other content on the website is according to the crawler connected to the content on the page. This is not always the case.
Also HTML is often badly programmed and tags are not always properly closed, so when parsing the content HTML tags can’t be trusted. Also the usage of e.g. Javascript and CSS increases this problem.
Keywords and meta-information
Naturally the quality of the search results are still based on the usage of keywords and meta-data. So the ESP API on the information provider side has got to have some intelligence for tagging the articles and extracting meta-information.
Robots.txt
To face the problem of performance-loss by crawler and from the point of information-ownership more sites will use a robots.txt file. Crawling will be prohibited and no longer possible.
System overview
Below an image is shown about the system overview. Next to the regular http:// protocol another protocol is shown, the sdxp:// protocol. This interface returns the website in a not readable format, just plain XML.

system overview
Who is going to use this? The idea is that this becomes a standard for example adopted by W3C.
Information
I was also inspired to write this article when I saw the movie “Tim Berners-Lee: The next Web of open, linked data“.