مارا دنبال کنید : 

داده‌های نادرست می‌توانند پرهزینه باشند. در بسیاری از موارد ممکن است داده ها در فایل ها و منابع مختلف نگهداری شوند و در این صورت نیاز است تا داده ها پیش از اجرای تکنیک های داده کاوی یا آماده سازی برای هوشمندسازی کسب و کار با یکدیگر یکپارچه شوند. یکپارچه سازی هم فعالیتی سنگین است و هم چالش های فراوانی را به همراه دارد. پاکسازی داده‌ها با هدف استخراج اطلاعات دقیق انجام می شود. فرآیندی است جهت تشخیص، حذف و اصلاح  داده‌های نادرست از  بانک‌های اطلاعاتی می‌باشد. داده‌های نادرست یا ناسازگار می‌تواند منجر به نتیجه‌گیری غلط و شکست سرمایه‌گذاری بزرگ و کوچک شود. پس از پاکسازی، مجموعه داده‌ها باید با سایر مجموعه داده‌های مشابه در سیستم سازگار باشد. در واقع داده‌های ناسازگار شناسایی شده یا حذف شده ممکن است در ابتدا ناشی از اشتباهات ورود داده‌ها از طرف کاربر، تغییر داده‌ها در حین انتقال پرونده یا ذخیره‌سازی با تعاریف غیراستانداردی که بین سازمان‌های مختلف متفاوت می‌باشد صورت پذیرد . مهمترین فعالیت های این بخش عبارت است:
  • تخمین مقادیر ناموجود در پایگاه داده ها؛
  • از بین بردن اختلال (noise) در داده ها؛
  • حذف کردن داده های پرت و نامربوط؛
  • از بین بردن ناسازگاری در داده ها؛
نکته مهم این است که هر چه این گام دقیقتر و مرتبطتر با کسب و کار شما انجام شود، استفاده از داده ها برای انبار داده و به طبع آن داده کاوی و هوشمندسازی کسب و کار نیز حرفه ای تر انجام خواهد شد.