ডেটা মাইনিং কম্পিউটার বিজ্ঞানে অপেক্ষাকৃত একটি নতুন সংযোজন। পরিসংখ্যান এবং কৃত্রিম বুদ্ধিমত্তার প্রয়োগ করে বিপুল পরিমাণ উপাত্ত থেকে নতুন প্যাটার্ন আবিষ্কারের কাজটি করা হয় ডেটা মাইনিংয়ের মাধ্যমে। এ কাজটি করার জন্য একই সঙ্গে প্রয়োজন হয় একটি কার্যকরী তথ্যভান্ডার (ডেটাবেজ) ব্যবস্থাপনা পদ্ধতি। বর্তমানে জ্ঞান-বিজ্ঞানের প্রায় প্রতিটি ক্ষেত্রে এ প্রযুক্তিটি ব্যবহার করা হচ্ছে।
সাধারণভাবে ডেটা মাইনিং একটি স্বয়ংক্রিয় অথবা আংশিক স্বয়ংক্রিয় পদ্ধতি, যার মাধ্যমে বিপুল পরিমাণ উপাত্ত থেকে কোনো ধরনবা প্যাটার্ন খুঁজে বের করা হয়। এ প্যাটার্নটি পরবর্তী সময়ে অন্যান্য বিশ্লেষণ যেমন মেশিন লার্নিং, পূর্বাভাষ বিশ্লেষণ ইত্যাদি ক্ষেত্রে ব্যবহার করা যেতে পারে। প্রায়ই কম্পিউটারভিত্তিক সিদ্ধান্ত গ্রহণ ব্যবস্থায় ডেটা মাইনিং প্রয়োগ করা হয়ে থাকে। কিন্তু তথ্য সংগ্রহ, তথ্য প্রক্রিয়াকরণ অথবা ফলাফল প্রকাশ ডেটা মাইনিং নয়, তবে একটি সম্পূর্ণ ডেটা মাইনিং সম্পন্ন করার ক্ষেত্রে এ ধাপগুলো প্রয়োজনীয়।
ডেটা মাইনিং ব্যবহার করার একটি অন্যতম প্রধান কারণ হলো সমষ্টিগত বিশ্লেষণে পর্যবেক্ষণ সহজতর করা। বিশ্লেষণের ফলাফলগুলো অনেক সময় এমন হয় যে এগুলোর মধ্যে আন্তসম্পর্ক খুঁজে বের করা অথবা সমন্বিতভাবে প্রকাশ করার প্রয়োজন হয়। এসব ক্ষেত্রে ডেটা মাইনিং বিশেষ কার্যকরী ভূমিকা পালন করে।
ডেটা মাইনিং কীভাবে কাজ করে
নির্বাচন, প্রাক-প্রক্রিয়াকরণ, ট্রান্সফরমেশন, ডেটা মাইনিং, ইভালুয়েশন ইত্যাদি ধাপগুলোর মাধ্যমে পূর্ণাঙ্গ ডেটা মাইনিং সম্পন্ন করা হয়। কোনো কোনো ক্ষেত্রে এ ধাপগুলো আরও বিভক্ত করে অথবা ভিন্ন নামে বর্ণনা করা হয়। তবে সহজভাবে এ কাজটি তিনটি পর্যায়ে সম্পন্ন করা হয়। ১. প্রি প্রসেসিং ২. ডেটা মাইনিং এবং ৩. ফলাফল যাচাই।
প্রি প্রসেসিং: ডেটা মাইনিং অ্যালগরিদম প্রয়োগের আগে এ ধাপটি সম্পন্ন করতে হয়। ডেটা মাইনিংয়ের মাধ্যমে উপাত্ত ডেটাবেজ থেকে তথ্যের প্যাটার্ন খুঁজে বের করা হয়। তাই ডেটাবেজ নির্বাচনের ক্ষেত্রে একটি বিষয়ে লক্ষ রাখতে হবে যে এতে উপাত্তের পরিমাণ যেন খুব কম না হয়।
ডেটা মাইনিং: একাধিক মধ্যবর্তী ধাপে এ পর্যায়টি সম্পন্ন করা হয়। তথ্য যাচাই, আন্তসম্পর্ক খুঁজে বের করা, শ্রেণী বিভাগ, সংক্ষেপ ইত্যাদি কাজ সম্পন্ন করা হয় এখানে।
ফলাফল যাচাই: এ ধাপে ফলাফল যাচাইয়ের কাজটি করা হয়। ডেটা মাইনিংয়ের ফলাফল সঠিক কি না, এটি পরীক্ষা করা হয় অন্য কিছু অ্যালগরিদম প্রয়োগ করে।
ব্যবহারের ক্ষেত্রগুলো
সিদ্ধান্ত গ্রহণের সব ক্ষেত্রে ডেটা মাইনিং ব্যবহার করা যেতে পারে। তবে ডেটা মাইনিং পরিচালনার জন্য অবশ্যই একটি সমৃদ্ধ উপাত্ত ডেটাবেজ প্রয়োজন হবে। ব্যবস্থা বাণিজ্যের ক্ষেত্রে এটি বর্তমানে ব্যাপকভাবে ব্যবহার করতে দেখা যাচ্ছে। ডেটা মাইনিং ব্যবহার করে রিটার্ন অন ইনভেস্টমেন্ট গণনা করা যায়, ফলে কোনো নতুন প্রকল্প শুরু করার আগে এটি ব্যবহার করা যেতে পারে। নতুন পণ্য গ্রাহকদের ব্যবহারের সম্ভাবনা, নতুন গ্রাহক সংগ্রহ করা, বর্তমান গ্রাহকেরা ছেড়ে যাবে কি না, সেটি জানার জন্য ব্যবহার করা হয় ডেটা মাইনিং পদ্ধতি। বাজারে পণ্যের চাহিদা যাচাই এবং কোনো নির্দিষ্ট পণ্যের ক্রেতা শ্রেণী সম্পর্কে জানতেও ব্যবহার করা হয় ডেটা মাইনিং। এ ছাড়া ডেটা মাইনিংয়ের কার্যকরী প্রয়োগ হলো অ্যাসোসিয়েশন রুল। এর মাধ্যমে বাজারে একটি পণ্য বিক্রির সঙ্গে অন্য এক বা একাধিক পণ্য বিক্রির সম্পর্ক খুঁজে বের করা যায়। এবং এর মাধ্যমে এ পণ্যের বিক্রি বাড়ানো যায়।
এ ছাড়া বায়োইনফরমেটিকস, জিন বিজ্ঞান, চিকিৎসা, শিক্ষা, প্রতিরক্ষাসহ বিজ্ঞানের প্রায় সব ক্ষেত্রে ডেটা মাইনিংয়ে প্রয়োগ করা হচ্ছে। প্রতিষ্ঠানে কর্মীদের দক্ষতা যাচাই অথবা নতুন নিয়োগের ক্ষেত্রেও এটি ব্যবহার করা যেতে পারে।
যে ধরনের প্রযুক্তির প্রয়োজন
বর্তমানে ডেটা মাইনিংয়ের বিভিন্ন ধরনের সফটওয়্যার পাওয়া যায়। যার মাধ্যমে খুব ছোট থেকে শুরু করে যেকোনো বড় আকারের ডেটাবেজ যাচাই করা যায়। মূলত ডেটা মাইনিংয়ের জন্য কী ধরনের প্রযুক্তি প্রয়োজন এটি নির্ভর করে দুটি বিষয়ের ওপর, একটি হলো ডেটাবেজের আকার এবং অন্যটি হলো কোয়রির ধরন । উপাত্ত-সমৃদ্ধ বিশাল ডেটাবেজ ব্যবহার করা হলে অথবা খুব জটিল কোয়েটির মাধ্যমে অনুসন্ধান বা যাচাই করা হলে সেই অনুপাতের কাজ করার ক্ষমতাসম্পন্ন প্রযুক্তি প্রয়োজন হবে।

উইকিপিডিয়া অবলম্বনে

http://www.prothom-alo.com/detail/date/2011-09-23/news/187953