Ontdek verborgen website-verbindingen

Als je meerdere sites in Google hebt staan weet de zoekmachine waarschijnlijk wel beide met elkaar te verbinden. Bijvoorbeeld door de whois-informatie te vergelijken, of doordat je dezelfde Google Analytics of Adsense code gebruikt. Tot nu toe konden alleen grote databases dat, maar binnenkort kun je die verbindingen zelf ook analyseren, met dank aan de Nederlands sprekende Andre Weyher.

Oud-Nederlander en Ex-Googler Andre Weyher
Andre Weyher is geboren in de omgeving Nijmegen en spreekt nog altijd Nederlands, maar is hier al ruim tien jaar niet meer woonachtig. Hij  studeerde deels in Amerika en werkte daarna zo’n vier jaar bij Apple en vervolgens vier jaar bij Google. Bij dit bedrijf was hij werkzaam in het team dat de kwaliteit van zoekresultaten moet verbeteren. Het team waarin ook Matt Cutts, een van de gezichten van het bedrijf, werkzaam is.

Bij Google zelf is Andre onder andere bezig geweest met het analyseren van spam-netwerken. Als iemand spamt met een website is de kans groot dat hij dit ook op een andere website doet. Google wil zo zuiver mogelijke resultaten en als iemand op grotere schaal de resultaten vervuilt wil deze de mogelijkheid bezitten om in een keer een heel netwerk van websites uit de database te weren.

Nieuwe startup Netcomber
Leuk werk, maar vanwege een buitenkansje zag Andre kans om naar Australië te verhuizen. In april is hij dus gestopt bij Google om Down Under zijn eigen bedrijf op te richten, in samenwerking met enkele andere heuse dataminers. Samen met mensen die in het verleden oplossingen ontworpen voor spamfilters voor e-mail, of algoritmes die de koers van aandelen moeten voorspellen. Samen hebben zij Netcomber opgericht. Een bedrijf dat de verbanden tussen websites toont, en aanbiedt aan het publiek voor enkele tientjes per maand.

Welke website toont veel overeenkomsten met die van jou, en waarom dan precies? Netcomber laat het je zien. Het systeem controleert naar eigen zeggen zo’n drieduizend factoren en is in 2012 opgericht dus de kans is groot dat daar binnenkort nog wel wat factoren bijkomen. Op dit moment is de organisatie vooral bezig met het indexeren van websites.

Internetmarketeers, advocaten en journalisten
Wat je er uiteindelijk mee kunt is helemaal afhankelijk van je wensen. In eerste instantie is het leuk om eens te zien, hoeveel Google van je weet. Want hoe complex het algoritme van Netcomber is, je kunt er rustig van uitgaan dat Google het dubbele van je weet. En om bij Google te blijven, het kan bij SEO interessant zijn om netwerken te herkennen. Stel je hebt nu iemand op Skype en hij verwijst naar een website, dan kun je in enkele seconden uitvogelen of hij meer websites heeft waar jij graag genoemd zou worden.

Netcomber zelf wil zich graag breder richten dan alleen de SEO-wereld. Ook advocaten die willen uitzoeken of iemand die inbreuk maakt op merkenrecht, meer domeinnamen heeft waarop dat gebeurt kunnen er gebruik van maken. Een andere doelgroep van de website zijn journalisten die bijvoorbeeld schrijven over internetondernemers, en benieuwd zijn wat die nog meer allemaal in het portfolio hebben zitten. En natuurlijk ook gewoon mensen die benieuwd zijn naar internetnetwerken, en gewoon graag een tool voor handen hebben waarmee ze snel inzicht daarin kunnen krijgen.

In Nederland heeft de dienst duidelijk nog wat moeite met sommige resultaten. Grote, duidelijke websites met duidelijke verbindingen, heeft het systeem snel gevonden. Maar bij complexe websites als Frankwatching.com toont het inderdaad enkele domeinnamen die in het bezit zijn van dezelfde eigenaar, zoals de .nl-variant, Frankwatcher.com of Eventwatching.com. om dan al snel bedrijven te tonen die minder gerelateerd zijn dan het systeem denkt. Waarom is wel duidelijk. De open source techniek, het gebruik van meerdere auteurs en dus soms dezelfde social media-buttons, en vergelijkbare zaken die je normaal niet zo snel ziet, maken Frankwatching.com voor het systeem een lastig te beoordelen website. Daarnaast heeft het systeem nog een groot gedeelte van de minder bekende websites van ons land nog niet geïndexeerd. Andere bedrijven, zoals Sanoma Media of de websites van de Telegraaf, weet het systeem beter de connecties tussen te leggen. 

Vooral een kwestie van tijd
Als we Andre aanspreken op de kwaliteit van het systeem erkent hij de beperkingen die het nu nog heeft. Allereerst richt het bedrijf zich op de gehele wereld, en duurt het dus even voor heel Nederland geïndexeerd is. Daarnaast is het percentage is een belangrijk onderdeel van hoe je de resultaten op moet vatten. Het is geen ideale en foutloze tool en zal dat helaas ook niet worden, dat is de Google versie ook niet.

Het is vooral een ontzettend complex algoritme dat continu aan het leren is, en dus kunnen er garanties gegeven worden dat de resultaten continu beter zullen worden, maar ideaal zal het nooit zijn. Voor je dus te snel conclusies maakt aan de hand van de resultaten is het altijd noodzakelijk deze even handmatig na te lopen.

Verder lezen

Reacties