اولین مرحله در پیش­پردازش داده­ها پاکسازی داده­های خام وب می­باشد. در این مرحله داده­های موجود بررسی می­شوند و موارد نامربوط یا اضافی آن­ها حذف می­شود. این مساله خصوصا در مورد داده­های ثبت که توسط وب­سرورها جمع­آوری می­شوند صدق می­کند که می­توانند به شدت دارای نویز باشند. به این دلیل در این قسمت توجه خود را به داده­های ثبت معطوف می­کنیم. داده های تولید شده توسط عامل­های سمت مشتری، پاکیزه هستند زیرا این گونه داده ها صریحا توسط سیستم و بدون دخالت کاربر جمع­آوری می­شوند. از سوی دیگر داده های کاربران مانند داده های دموگرافیکی آن­ها باید تعیین اعتبار، تصحیح و نرمالسازی شوند تا بتوانند به کشف الگوهای مفید منجر شوند.

بخش قابل توجهی از تکرارها در فایل های ثبت از مشخصات پروتکل HTTP ناشی می­شود که برای هر فایل، تصویر، صوت، ویدیو و … موجود در صفحات وب نیاز به یک درخواست جداگانه به سرور دارد. معمولا وارده هایی که به تصویر، صوت، فایل های ویدیویی و اسکریپت های CGI مراجعه می­کنند، اضافی محسوب می­شوند. این فایل ها بدون این که کاربر صریحا درخواست آن­ها را بدهد دانلود می­شوند و از این رو بخشی از فعالیت حقیقی مرور کاربر محسوب نمی­شوند. در نتیجه چنین داده­هایی معمولا از فایل­های ثبت حذف می­شوند[Cooley 1999]. با این وجود همان طور که پیشتر اشاره شد، این مرحله وابسته به دامنه است و حذف این گونه موارد از فایل های ثبت می­تواند منجر به از دست رفتن اطلاعات ارزشمندی شود. یک مثال می­تواند وب سایتی باشد که بطور عمده­ای شامل محتوای چندرسانه­ای است.

علاوه بر این، وارده­های ثبتی که متناظر با درخواست هایی هستند که انجام نشده اند، مثلا درخواست هایی که با خطای HTTP مواجه شده اند، از فایل های ثبت حذف می­شوند. بعلاوه وارده­های متناظر با اسپایدرها و خزشگرهای وب (مانند برنامه های دانلود کامل یک وب سایت و درخواست های موتورهای جستجو) نیز باید حذف شوند. اسپایدرها و خزشگرها اغلب از طریق فیلد عامل کابر در ثبت سرور شناسایی می­شوند. بیشتر خزشگرها خود را از طریق این فیلد معرفی می­کنند. راه دیگر شناسایی آن­ها مشاهده­ی الگوی ترافیکی یک بازدید­کننده­ی خاص می­باشد. اگر رفتار یک بازدید­کننده به گونه­ای باشد که تمامی لینک­های موجود در تمامی صفحات یک وب­سایت را ملاقات کرده باشد، آن­گاه این بازدید­کننده یک خزشگر است. Tan و Kumar در [Tan 2002] روشی را برای شناسایی جلسات اسپایدرها برمبنای ویژگی های متعددی از قبیل درصد فایل های رسانه­ای مورد درخواست، درصد درخواست های وارده ا طریق متدهای HTTP و نیز ویژگی هایی که نشان­دهنده­ی جستجوی اول­سطح می­باشند ارائه کردند.

در این مرحله همچنین ممکن است نیاز باشد که فایل های ثبت چندین وب سرور را با هم ترکیب کنیم که به همزمانی سراسری بین این سرورها نیازمند است.