Het bedrijf moest een complexe migratie voltooien binnen een krappe deadline om miljoenen dollars aan post-contractkosten en boetes te vermijden.
E-commerce efficiëntie optimaliseren door botbeperking

De klant, een wereldleider in de e-commercebranche, is actief in meer dan 20 landen en verwerkt een immens volume van meer dan 1.000.000 orders per seconde op
.
Als gevolg van hun prominente aanwezigheid trok het platform veel webcrawlers aan , wat leidde tot aanzienlijke uitdagingen op
om de efficiëntie van het platform te handhaven en naadloze klantervaringen te leveren.
Behoeften van de klant
De klant had een dringende behoefte om de impact van robotcrawlers op hun platform te beperken , die de serverbelasting en schaalkosten aanzienlijk verhoogden. Deze activiteiten leidden tot extra latentie voor echte gebruikers, wat ten koste ging van de klantervaring.
De belangrijkste vereisten waren onder andere:
- Schadelijke bots identificeren en blokkeren zonder valse meldingen.
- Extra latentie bij het laden van pagina's vermijden om prestatienormen te behouden.
Uitdagingen
Het project begon met twee belangrijke beperkingen: ervoor zorgen dat er geen valse positieven ontstaan door prioriteit te geven aan het doorlaten van onzekere verzoeken boven het blokkeren van potentiële legitieme klanten en het vermijden van extra latentie bij het laden van pagina's om de prestaties van het platform te behouden.
Tijdens de implementatiefase kwam het team verschillende technische uitdagingen tegen. De belangrijkste uitdaging was het vinden van een gegevensstructuur die snel antwoord kon geven op de vraag "Hoort dit IP bij een robot?" met een latentie van minder dan 10 milliseconden, gemeten aan de serverkant. Daarnaast moesten ze naadloze communicatieprotocollen opstellen tussen de Java- en Python-systemen die gigabytes aan gegevensuitwisselden , en een zakelijke vereiste aanpakken om specifieke bots te whitelisten voor toegang tot het platform.

Geleverde oplossingen
Een team van zes experts, verdeeld over de afdelingen engineering en machine learning (ML), werkte samen om een efficiënte, schaalbare en krachtige oplossing te ontwikkelen . De machine learning divisie werd belast met een kritieke doelstelling:elk uur een uitgebreid bestand genereren en uploaden naar de cloud, met daarin IP-adressen die definitief werden geïdentificeerd als behorend tot geautomatiseerde bots die actief bezig waren met het crawlen van het e-commerce platform. Dit bestand was essentieel voor voortdurende analyse en proactieve maatregelen tegen bot-gestuurde activiteiten. Het doel van de technische afdeling was om een lijst met API's te leveren die in minder dan 10 milliseconden een IP konden classificeren of het een robot was of niet en die gegevens accepteerden voor de voortdurende bijscholing van de classificatiemodellen door de afdeling voor machinaal leren.
Technologie Stapel
Wat betreft de technologiestack, gebruikte het machine learning-gedeelte voornamelijk Python en Pandas, terwijl het engineering-gedeelte Java gebruikte met Spring Boot. De applicaties draaiden in de AWS-cloud en S3 werd gebruikt om bestanden op te slaan. Het technische gedeelte vond een zeer efficiënte datastructuur om de IP's op te slaan: een gesorteerde boomstructuur, waarbij elk octet van het IP-adres een nieuwe afstammeling is en in een snelletraversal een IP kan worden gevonden (wat betekent dat het een robot is) of niet (wat betekent dat het bij een "goede" bezoeker hoort).
Bereikte resultaten
- Botmitigatie: Met succes 78% van de crawlende robots geblokkeerd , waarmee het oorspronkelijke doel van 60% is overtroffen.
- Prestaties: Server-side latency van 6 ms bereikt , ruim onder de doelstelling van 10 ms.
- Schaalbaarheid: De oplossing verwerkte een piekbelasting van 780.000 aanvragen per seconde zonder afbreuk te doen aan de prestaties.