ডেটা মাইনিং কম্পিউটার বিজ্ঞানে অপেক্ষাকৃত একটি নতুন সংযোজন। পরিসংখ্যান এবং কৃত্রিম বুদ্ধিমত্তার প্রয়োগ করে বিপুল পরিমাণ উপাত্ত থেকে নতুন প্যাটার্ন আবিষ্কারের কাজটি করা হয় ডেটা মাইনিংয়ের মাধ্যমে। এ কাজটি করার জন্য একই সঙ্গে প্রয়োজন হয় একটি কার্যকরী তথ্যভান্ডার (ডেটাবেজ) ব্যবস্থাপনা পদ্ধতি। বর্তমানে জ্ঞান-বিজ্ঞানের প্রায় প্রতিটি ক্ষেত্রে এ প্রযুক্তিটি ব্যবহার করা হচ্ছে।
সাধারণভাবে ডেটা মাইনিং একটি স্বয়ংক্রিয় অথবা আংশিক স্বয়ংক্রিয় পদ্ধতি, যার মাধ্যমে বিপুল পরিমাণ উপাত্ত থেকে কোনো ধরনবা প্যাটার্ন খুঁজে বের করা হয়। এ প্যাটার্নটি পরবর্তী সময়ে অন্যান্য বিশ্লেষণ যেমন মেশিন লার্নিং, পূর্বাভাষ বিশ্লেষণ ইত্যাদি ক্ষেত্রে ব্যবহার করা যেতে পারে। প্রায়ই কম্পিউটারভিত্তিক সিদ্ধান্ত গ্রহণ ব্যবস্থায় ডেটা মাইনিং প্রয়োগ করা হয়ে থাকে। কিন্তু তথ্য সংগ্রহ, তথ্য প্রক্রিয়াকরণ অথবা ফলাফল প্রকাশ ডেটা মাইনিং নয়, তবে একটি সম্পূর্ণ ডেটা মাইনিং সম্পন্ন করার ক্ষেত্রে এ ধাপগুলো প্রয়োজনীয়।
ডেটা মাইনিং ব্যবহার করার একটি অন্যতম প্রধান কারণ হলো সমষ্টিগত বিশ্লেষণে পর্যবেক্ষণ সহজতর করা। বিশ্লেষণের ফলাফলগুলো অনেক সময় এমন হয় যে এগুলোর মধ্যে আন্তসম্পর্ক খুঁজে বের করা অথবা সমন্বিতভাবে প্রকাশ করার প্রয়োজন হয়। এসব ক্ষেত্রে ডেটা মাইনিং বিশেষ কার্যকরী ভূমিকা পালন করে।
ডেটা মাইনিং কীভাবে কাজ করে
নির্বাচন, প্রাক-প্রক্রিয়াকরণ, ট্রান্সফরমেশন, ডেটা মাইনিং, ইভালুয়েশন ইত্যাদি ধাপগুলোর মাধ্যমে পূর্ণাঙ্গ ডেটা মাইনিং সম্পন্ন করা হয়। কোনো কোনো ক্ষেত্রে এ ধাপগুলো আরও বিভক্ত করে অথবা ভিন্ন নামে বর্ণনা করা হয়। তবে সহজভাবে এ কাজটি তিনটি পর্যায়ে সম্পন্ন করা হয়। ১. প্রি প্রসেসিং ২. ডেটা মাইনিং এবং ৩. ফলাফল যাচাই।
প্রি প্রসেসিং: ডেটা মাইনিং অ্যালগরিদম প্রয়োগের আগে এ ধাপটি সম্পন্ন করতে হয়। ডেটা মাইনিংয়ের মাধ্যমে উপাত্ত ডেটাবেজ থেকে তথ্যের প্যাটার্ন খুঁজে বের করা হয়। তাই ডেটাবেজ নির্বাচনের ক্ষেত্রে একটি বিষয়ে লক্ষ রাখতে হবে যে এতে উপাত্তের পরিমাণ যেন খুব কম না হয়।
ডেটা মাইনিং: একাধিক মধ্যবর্তী ধাপে এ পর্যায়টি সম্পন্ন করা হয়। তথ্য যাচাই, আন্তসম্পর্ক খুঁজে বের করা, শ্রেণী বিভাগ, সংক্ষেপ ইত্যাদি কাজ সম্পন্ন করা হয় এখানে।
ফলাফল যাচাই: এ ধাপে ফলাফল যাচাইয়ের কাজটি করা হয়। ডেটা মাইনিংয়ের ফলাফল সঠিক কি না, এটি পরীক্ষা করা হয় অন্য কিছু অ্যালগরিদম প্রয়োগ করে।
ব্যবহারের ক্ষেত্রগুলো
সিদ্ধান্ত গ্রহণের সব ক্ষেত্রে ডেটা মাইনিং ব্যবহার করা যেতে পারে। তবে ডেটা মাইনিং পরিচালনার জন্য অবশ্যই একটি সমৃদ্ধ উপাত্ত ডেটাবেজ প্রয়োজন হবে। ব্যবস্থা বাণিজ্যের ক্ষেত্রে এটি বর্তমানে ব্যাপকভাবে ব্যবহার করতে দেখা যাচ্ছে। ডেটা মাইনিং ব্যবহার করে রিটার্ন অন ইনভেস্টমেন্ট গণনা করা যায়, ফলে কোনো নতুন প্রকল্প শুরু করার আগে এটি ব্যবহার করা যেতে পারে। নতুন পণ্য গ্রাহকদের ব্যবহারের সম্ভাবনা, নতুন গ্রাহক সংগ্রহ করা, বর্তমান গ্রাহকেরা ছেড়ে যাবে কি না, সেটি জানার জন্য ব্যবহার করা হয় ডেটা মাইনিং পদ্ধতি। বাজারে পণ্যের চাহিদা যাচাই এবং কোনো নির্দিষ্ট পণ্যের ক্রেতা শ্রেণী সম্পর্কে জানতেও ব্যবহার করা হয় ডেটা মাইনিং। এ ছাড়া ডেটা মাইনিংয়ের কার্যকরী প্রয়োগ হলো অ্যাসোসিয়েশন রুল। এর মাধ্যমে বাজারে একটি পণ্য বিক্রির সঙ্গে অন্য এক বা একাধিক পণ্য বিক্রির সম্পর্ক খুঁজে বের করা যায়। এবং এর মাধ্যমে এ পণ্যের বিক্রি বাড়ানো যায়।
এ ছাড়া বায়োইনফরমেটিকস, জিন বিজ্ঞান, চিকিৎসা, শিক্ষা, প্রতিরক্ষাসহ বিজ্ঞানের প্রায় সব ক্ষেত্রে ডেটা মাইনিংয়ে প্রয়োগ করা হচ্ছে। প্রতিষ্ঠানে কর্মীদের দক্ষতা যাচাই অথবা নতুন নিয়োগের ক্ষেত্রেও এটি ব্যবহার করা যেতে পারে।
যে ধরনের প্রযুক্তির প্রয়োজন
বর্তমানে ডেটা মাইনিংয়ের বিভিন্ন ধরনের সফটওয়্যার পাওয়া যায়। যার মাধ্যমে খুব ছোট থেকে শুরু করে যেকোনো বড় আকারের ডেটাবেজ যাচাই করা যায়। মূলত ডেটা মাইনিংয়ের জন্য কী ধরনের প্রযুক্তি প্রয়োজন এটি নির্ভর করে দুটি বিষয়ের ওপর, একটি হলো ডেটাবেজের আকার এবং অন্যটি হলো কোয়রির ধরন । উপাত্ত-সমৃদ্ধ বিশাল ডেটাবেজ ব্যবহার করা হলে অথবা খুব জটিল কোয়েটির মাধ্যমে অনুসন্ধান বা যাচাই করা হলে সেই অনুপাতের কাজ করার ক্ষমতাসম্পন্ন প্রযুক্তি প্রয়োজন হবে।
উইকিপিডিয়া অবলম্বনে
http://www.prothom-alo.com/detail/date/2011-09-23/news/187953








kalke ordhekta prothom alo te poreshilam.
লেখাটা প্রথমআলোর জন্য লিখেছিলাম, সাথে নিজের ব্লগেও পাবলিশ করেছি