Moira Search

Neem de zoekformule die de Romeinse politicus (jurist, filosoof, enz.) Marcus Tullius Cicero (106-43 v. Chr.) hanteerde om in de rechtzaal een zaak te behandelen: quis, quid, ubi, quibus auxillis, cur, quomodo, quando.i Of bij ons in logischer volgorde: ‘wie’, ‘wat’, ‘waar’, ‘wanneer’, ‘hoe’, ‘waardoor’, ‘waarom’. Voor de opzet van Moira Search interpreteren we ‘waardoor’ als een vraag naar oorzaak, dus als in

Waardoor ontstond de lawine?

en ‘waarom’ als vraag naar doel of reden, als in

Waarom neem je de trein naar Amersfoort?

Misschien moeten we ‘waartoe’ gebruiken in plaats van ‘waarom’; misschien moeten we ook de vraagwoorden uiteindelijk minder nadrukkelijk presenteren. Hoe dan ook:

Stap 1: De gebruiker stelt eerst vast wat voor vraag hij of zij wil stellen: een wie-, wat-, enz. vraag.

Dit is niet ingewikkeld voor de gebruiker. Iedereen kent die vraagwoorden.ii
Neem een evenzo oude opvatting over subject (‘Jan’) en predicaat (‘is snel’, ‘geeft mij een cadeau’, ‘woont in Den Haag’). Dit idee speelt al vanaf de Griekse filosoof Aristoteles (384-322 v. Chr.) een belangrijke rol in de filosofie logica.iii
Dit is wel ingewikkeld voor de gebruiker. Hij of zij moet dit niet zo expliciet aangeboden krijgen. Het idee is dat als je een bewering doet dit meestal iets is als: je zegt van een ding (subject) dat het bepaalde eigenschappen heeft (predicaat), ofwel je ‘prediceert’ iets van het subject. Het geldt voor simpele beweringen als:

De biefstuk smaakt lekker.

Hier is het subject ‘de biefstuk’ en het predicaat ‘smaakt lekker’. Maar het gaat ook op voor ingewikkeldere zinnen als

Het Kabinet besluit gevangenen geen AOW uit te keren.

Subject: ‘het kabinet’; predicaat: ‘besluit gevangenen geen AOW uit te keren’. In een wie-, wat-, enz. vraag komt dat terug. Naast het vraagwoord (‘wie’, ‘wat’, enz.) geef je een subject en een predicaat, of in onze terminologie, vraagonderwerp en eigenschap.iv
Gebruikers moeten nadat ze een vraagwoord gekozen hebben een subject en een predicaat invullen.

En dan hebben we nog het ingrediënt Boolese combinaties zoals EN, OF, NIET, enz. Teruggaand op de Britse wiskundige en logicus George Boole (1815-1864)--niet te verwarren met de minstens zo vermaarde Amerikaanse wiskundige en logicus George Boolos (1940-1996)--vormen Boolese combinaties het fundament van veel hedendaagse logica en taalkunde.v Het gaat gewoon om de voegwoorden ‘en’, ‘of’, ‘niet’, en constructies van de vorm ‘als . . . het geval is dan is . . . ook het geval’. Iedereen kent dit. Je kunt het op verschillende niveaus toepassen. Allereerst natuurlijk op het niveau van combineren van vragen. Je krijgt dan zinnen als

Woont Jan in Berlijn, OF Woont Jan in Amsterdam?

Dit gaan we niet zo gebruiken.vi
We gaan dit wél toepassen op het niveau van woorden: bij het verfijnen of uitbreiden van componenten van een vraag. Een vraag als

Hoe kan ik vissen met een werphengel?

krijgen we uit

hoe-kunnen-(vissen EN werphengel)

met ‘hoe’ als vraagwoord, ‘kunnen’ als predicaat en ‘vissen EN werphengel’ als Boolese combinatie in het subject. Ander voorbeeld:

Waar kan ik een Audi of een Mercedes kopen?

wordt:

waar-kopen-(Mercedes OF Audi)

En

Hoe maak ik rijstgerechten, maar geen Indonesische?

wordt:

hoe-maken-(rijstgerechten EN (NIET Indonesische)).

Het is belangrijk dat we ons realiseren dat de Boolese combinaties geen aparte derde stap vormen in het bepalen van de vraag, maar dat ze worden gebruikt om de tweede stap (subject en predicaat) te verfijnen of uit te breiden.

In tabellen kunnen deze ingrediënten fraai worden weergegeven:

subject predicaat
wie
wat
waar Jan wonen
wanneer
hoe
waardoor
waarom

Deze tabel levert alleen heel simpele vragen op (‘Waar woont Jan?’), vooral als je geen Boolese combinaties gebruikt. Nu kun je simpelweg vragen om Boolese combinaties te gebruiken, maar ons systeem is geavanceerder. We herhalen de vraagprocedure met de vraagwoorden wie, wat, enz. Dit ziet er theoretisch weer simpel uit; praktisch is het de vraag hoe je dit gebruikersvriendelijk implementeert. Het idee kun je het best uitleggen door je af te vragen hoe je uit zou komen op complexere vragen zoals ‘Waar werkt Jan nu/in 1990?’,‘Waar werkt Jan om extra geld te verdienen?’vii en ‘Waar werkt Jan als computerprogrammeur?’ (met als antwoord: ‘Bij Philips, part-time. En als gymleraar werkt hij het andere deel van de tijd in een sportschool’). Je kunt de cursieve verfijningen van de vraag zien als resultaat van het toepassen van de zoekformule (wie, wat, enz.) op de oorspronkelijke vraag: ‘Waar werkt Jan?’

- wanneer?	->	nu/in 1990.
- waarom?	->	om extra geld te verdienen
- hoe?		->	als computerprogrammeur
			

Dan zie je dit: Bij elke vraag, behalve een wanneer-vraag, kun je een nieuwe vraag stellen: ‘wanneer?’viii Neem bijv. de vraag

Wie bewoont Paleis Noordeinde?

en stel dan de vraag ‘wanneer?’. Dan kom je op zoiets als

Wie bewoont Paleis Noordeinde nu/in 1990?

Je kunt dit doen door die vragen in popups de laten verschijnen, of door een kolom of dropdownmenuutje toe te voegen met tijdsbepalingen en alleen bij wanneer-vragen de invulmogelijkheid blokkeren. Evenzo kan je altijd vragen ‘waar?’, behalve bij een waar-vraag zelf.
Soortgelijk, maar misschien iets minder algemeen toepasbaar, kun je steeds een waardoor-vraag stellen (dan vraag je naar oorzaak) en een waarom- of waartoe-vraag (dan vraag je naar doel of reden). Bijv. toegepast op de beginzoektermen

Waar-Jan-werken (‘Waar werkt Jan?’)

krijg je dan

Waar werkt Jan om extra geld te verdienen?

Of kijk naar toepassen van ‘waardoor?’ op initiële vraag

wanneer-Rijn-(buiten z’n oevers)?

met toepassen ‘waardoor?’ levert ‘Wanneer liep de Rijn buiten zijn oevers door hevige regenval in de Zwitserse Alpen?’) En dit kan ten slotte ook met ‘hoe?’: Wanneer-Gullit-scoort goal? Je vraagt dan ‘hoe?’, en je krijgt: ‘Wanneer scoorde Gullit een goal met zijn hoofd?’ (suf voorbeeld, maar: You get the point)

Net een andere manier om nog wat voorbeelden op te schrijven:

(vissen) + wie		->	leeg
(vissen) + wat		->	(snoek EN vissen)
(vissen) + waar		->	(diepzee EN vissen), of (Noordzee EN vissen)
(vissen) + wanneer		->	(vissen EN nacht)
(vissen) + waardoor		->	(vissen EN werphengel)
(vissen) + waarom		->	(vissen EN sport), of (vissen EN opeten)
(vissen) + hoe		->	(vissen EN (instructie OF cursus OF handleiding)
			

Zoals gezegd, minstens twee interfaces zijn denkbaar om dit te incorporeren. Je kunt de bezoekers een 3x8-matrix aanbieden zoals boven, dan subject en predicaat laten invullen bij één of meer vraagwoorden, en hun dan steeds met een soort erbovenop plaatsvindende interface verfijningen ontlokken. Dan ontstaan er dus dialoogjes waar de computer vraagt, ‘hoe?’, en de gebruiker verfijnt zijn vraag van

subject predicaat
wie
wat
waar Gullit scoren goal
wanneer
hoe
waardoor
waarom

naar

subject predicaat verfijningen
wie
wat
waar Gullit scoren goal met zijn hoofd
wanneer
hoe
waardoor
waarom

En dat hoeft niet eens meer een matrix te zijn. Hiermee experimenteren.

Een alternatief is dat je de verfijningsmogelijkheden aanbiedt in de vorm van extra kolommen die er bijkomen, of al in het begin aanwezig zijn, of nadat de gebruiker subject en predicaat heeft ingevuld oppoppen. Bijv. zoals in

subject predicaat plaats tijd wijze oorzaak reden/doel
wie
wat
waar niet open
wanneer niet open
hoe niet open
waardoor niet open
waarom niet open

Voordeel van dit laatste is: mooi overzichtelijk. Nadeel: het conceptuele systeem erachter is minder helder; het is minder helder dat het systeem per combinatie vraagwoord-subject-predicaat (Waar-Jan-woont) weer de zoekformule doorloopt. Hiermee experimenteren.

Dan heb je in basis al een fraaie vraag, en de herhaling van het wie-, wat-, waar-vragen heeft al verfijning opgeleverd die in één of meerdere extra kolommen worden gepresenteerd, zoals in

wanneer-Gullit-(scoren EN goal EN met hoofd)

Maar je wilt nu nog verder gaan verfijnen en/of uitbreiden met Boolese combinaties.

Je kunt bovenstaande vraag verfijnen tot

wanneer-(Ruud EN Gullit-(scoren EN goal EN met hoofd).

En je kunt de vraag uitbreiden tot

wanneer-Gullit-(scoren EN goal EN (met hoofd OF kopbal OF koppen)

Dat is hier niet zo opzienbarend, en de interface met de Boolese operatoren bestaat eigenlijk ook slechts daar in dat men meerdere woorden kan invullen onder subject, predicaat, plaats, tijd, enz. Het is wel leuk als dit dan weer expliciet als mogelijkheid aangeboden wordt. Dus dat er iets oplicht, een ballonnetje of zo dat zegt: u kunt ook woorden combineren met EN, OF, en evt. NIET. En trouwens, het vereist nogal wat moeite mensen succesvol uit te nodigen Boolese combinaties correct en zinnig te gebruiken.
Hierbij kan het gebruik van een synoniemen lijst heel nuttig zijn om concrete suggesties te doen. Als Moira Search iemand naar een vraag loodst als

Waar-huidarts-werken

dan kan je uitbreiden naar

Waar-(dermatoloog OF huidarts)-werken

en dat kan je doen via een synoniemenlijst, en dan de gebruiker de suggesties gewoon voorschotelen en hem daar uit laten kiezen.

Hoe je foute vragen eruit haalt? Daar moeten we in een volgend stadium concreter over nadenken. Iemand kan bijv. vragen

Waar-recepten-risotto.

Dat is dus niet echt een goede vraag aan het Internet. Je wilt namelijk eigenlijk weten

Hoe-maken-risotto.

Wat we aan de gebruiker moeten uitleggen is dat Internet opgevat dient te worden als alwetend. Als iemand alles weet, vraag je direct hoe je risotto kan maken, en vraag je niet waar je een leuk risottorecept vindt. Je vraag aan een alwetend iemand natuurlijk wel dingen zoals

waar-is-(leuk EN Italiaans EN restaurant EN (NIET niet-roken) EN (NIET pizzeria))ix

Wat hebben we dan als we dat hebben? Dit levert een heel mooi systeem om mensen te laten nadenken over het verscherpen van de vraag die ze stellen. Het fungeert als het ware in een stadium dat vooraf gaat aan het vragen op Askjeeves.com enz., maar het is veel breder: dat je een plaats, tijd, oorzaak/gevolg, reden/doel, enz. kunt aangeven, kunt denken in termen van een subject en predicaat, en dat zoiets nuttig is bij het zoeken op Internet (en elders), daarvan is niet iedereen zich bewust. We leren mensen dus iets over vragen als zodanig. En niet alleen praktisch toepasbaar, maar ook filosofisch interessant.
Ons uitgangspunt -- mensen iets over kennis/informatie bij te brengen in de context van nieuwe media -- specificeren we dus door te zeggen: vragen zijn bij uitstek de taaluitingen waardoor mensen kennis verwerven; door mensen te laten spelen met vragen krijgen ze inzicht in de structuur van vragen; en zo dus ook in de structuur van kennis: wat voor zaken ze kunnen weten, wat voor informatie er is, enz. En dat is belangrijk voor een zinnig gebruik van de informatiebronnen die nieuwe media--met name Internet--ons bieden.
En misschien willen we dit wel verbinden met antwoorden. Ook dan is de zoekformule weer erg interessant, en misschien is het hier dat ook softwarematig het leukste werk zit. Want . . . de zoekformule stelt ons in staat om ook de soort antwoorden af te bakenen. Heel simpel: Als iemand een wie-vraag stelt, dan komt daar een persoon, een dier (‘Wie speelt de hoofdrol in het bekendste boek van Milne?’), enz. uit, vaak met een naam (‘Winnie-de-Poe’). Als je een wat-vraag stelt, is het antwoord een ding, zeg maar. OK, je hebt ook ‘Wat was de aanleiding van WO I?’, maar dat brengt ons op een tussenpunt, namelijk, hoe we foute vragen er uit halen. Dit is namelijk eigenlijk ‘Waardoor begon WO I?’ (Mogelijkheid: expliciete popups met vragen als: ‘Kun je deze vraag ook als een waardoor vraag stellen?’) Dit klinkt wat rigide, en dat is het ook, maar anders kunnen we helemaal niet werken. En verder, de structuur van kennis is soms ook meer rigide dan subtiele idiomatische taalwendingen suggereren. Het zou nu leuk zijn als Moira Search de antwoorden beperkt tot bepaalde typen antwoorden, net zoals je zoekresultaten beperkt door site:nl of doc-type:pdf te doen.

concept linguïstisch item
wie levend wezen naam
wat ding naam
waar plaats plaatsaanduiding
wanneer tijdstip tijdsaanduiding
hoe manier van doen wijze
waardoor oorzaak gebeurtenis in heden of verleden
waarom doel gebeurtenis in toekomst

Nu is het de vraag of dit makkelijk uit te werken is. Eigenlijk, allerlei werk in ‘query-answering’ laat zien dat dat niet zo is.x Een andere manier om antwoorden uit te sluiten is dat je geen, of juist wel, plaatjes, filmpjes, boeken, enz. meldt. Een test met hoe-vissen-snoek leverde vooral YouTube hits met eigen filmpjes van hengelaars.

i Marcus Tullius Cicero, De inventione, I, 24; zie ook J. P. Guépin, De beschaving (Amsterdam: Bert Bakker, 2007), 64; Rudyard Kipling begint zijn bekende ‘The Elephant’s Child’ met de vier regels ‘I keep six honest serving-men / (They taught me all I knew); / Their names are What and Why and When /And How and Where and Who’, zie Just So Stories for Little Children (1902). Dit zijn de ‘Five W’s’ uit de journalistiek (plus de H).
ii Dit sluit trouwens sommige vragen uit, maar dat vinden we niet erg--‘Zijn apen zoogdieren?’. Of je maakt een lege string in het dropdown menuutje. Andere vragen zijn reduceerbaar: ‘Hoeveel liter water gaat er in een pak melk?’ wordt ‘Wat is de hoeveelheid water die in een pak melk past?’
iii Aristoteles, Metaphysica. Zie ook Robin Smith, ‘Aristotle’s Logic’, Stanford Encyclopedia of Philosophy (30 juni 2008) referenties actualiseren?
iv Strikt genomen is dit niet helemaal waar, want als je vraagt ‘Wat is de hoofdstad van Nederland?’ dan zou je kunnen zeggen dat ‘wat’ het subject is en dat je als zoekterm dus geen subject hoeft op te geven. Maar dat versimpelen we dus. Zie Friedrich Löw, ‘Logik der Frage.’ Archiv für die gesamte Psychologie 88 (1928): 358-436, voor een neo-Kantiaanse analyse van de logica van de vraag. Voor modernere opvattingen, zie algemeen Martin Stokhof en Jeroen Groenendijk, ‘Questions’ in: Johan van Benthem en Alice ter Meulen (red.), Handbook of Logic and Language, (Amsterdam/Cambridge, Mass.: Elsevier/MIT Press, 1997): 1055-1124; C. E. M. Struyker Boudier, ‘Towards a History of the Question’, in Michel Meyer (red.), Questions and Questioning. (Berlin: Walter de Gruyter, 1988), 9, en meer gedetailleerd: C. L. Hamblin, ‘Questions.’ The Australasian Journal of Philosophy 36 (1958): 159-168; Henry Hiz, ‘Questions and Answers.’ The Journal of Philosophy 59 (1962): 253-2365; Jonathan Schaer, ‘Knowing the Answer.’ Philosophy and Phenomenological Research 75 (2007): 383-403; Pavel Tichy, ‘Questions, Answers, and Logic.’ American Philosophical Quarterly 15 (1978): 275-284; en--representant van een zeer sterke Nederlandse taalkundig-filosofische traditie: Martin Stokhof en Jeroen Groenendrijk, Studies on the Semantics of Questions and the Pragmatics of Answers. (1984) Dissertatie Universtiteit van Amsterdam.
v George Boole, An Investigation of the Laws of Thought, on Which are Founded the Mathematical Theories of Logic and Probabilities (MacMillan, 1854); zie ook R. L. Goodstein, Boolean Algebra (Dover, 1963).
vi Hier zijn leuke filosofische kwesties als: is dat dezelfde vraag als ‘Woon Jan in Berlijn of Amsterdam?’ maar we laten die vooreerst maar liggen.
vii Dat is dus zoiets als de vraag ‘Wat voor bijbaantje heeft Jan?’
viii Strikt genomen kun je zelfs bij een wanneer-vraag weer ‘wanneer?’ vragen: ‘Wanneer nam de macht van godsdienst toe?’ Je vraagt, ‘Wanneer? Bedoel je in de Klassieke Oudheid, of in de moderne tijd?’
ix Na vandaag bestaat er op deze vraag in Nederland geen ander antwoord dan: ‘Nergens’.
x Henrik L. Larsen, et al. (red.), Flexible Query Answering Systems: 7th International Conference, FQAS 2006, Milan, Italy, June 7-10, 2006 (Dordrecht: Springer, 2006). En weer in een stevige Nederlandse traditie, bezoek WiQA: Question Answering using Wikipedia, door Maarten de Rijke en Valentin Jijkoun