کلان داده ها

چاپ

مقدمه: اهمیت کلان داده ها در چند سال اخیر بسیار زیاد شده است که از جمله علت های آن بحث فضای ذخیره سازی زیاد و بروز شبکه های اجتماعی با حجم زیادی از اطلاعات و استفاده از سنسورها در قسمت های مختلف است.به گفته دانشمندان اطلاعات نفت قرن ۲۱ است گواه این موضوع وجود شرکت های متعدد در بحث تحلیل اطلاعات و کلان داده ها در سطح دنیاست.

باتوجه به تعریف،کلان داده ها به حجم گسترده ای از انواع اطلاعات با ویژگی های حجم،تنوع و سرعت تغییر داده گفته می شود. از جمله مزیت های از کلان داده  می توان به استفاده  در کسب وکار،بهداشت و درمان،خدمات آموزشی و مالی با توجه به آنکه با اطلاعات زیادی سروکار دارند اشاره کرد.کلان داده ها در واقع یک مفهوم انتزاعی است که مفاهیم بسیار دیگر را شامل می شود مفاهیمی که با ابزارفناوری اطلاعات سنتی در یک زمان مناسب و معقول قابل مدیریت و پردازش نیست.همچنین بعضی از محققان ابعاد ارزش و راستی را هم به سایر ارزش ها مثل سرعت،تنوع و حجم اضافه کردند.حجم در واقع واضح ترین بعد یا جنبه در رابطه با کلان داده است دقیقا به خاطر استفاده از کلان داده است که باید ساختارآن تجزیه و تحلیل شود تا پردازش درستی صورت گیرد.باافزایش تعامل بین کاربران آنلاین که به دلیل استفاده از اینترنت شکل گرفت اصطلاحی به نام وبلاگ پدید آمد. ازطریق این لاگ ها ممکن شد تا رفتارکاربران اینترنتی را فهمید.بعد از آن شبکه های اجتماعی شکل گرفت مثل توییتر و فیسبوک و همچنین افزایش دستگاههای سازگاربا اینترنت حجم زیادی از اطلاعات پدید آمد نیاز به بررسی و ذخیره داشت.به طورخلاصه حجم تولید داده های عظیم که هرروزه موجب بزرگ وبزرگترشدن مقیاس (حجم) اطلاعات می شود تعریفی از حجم است.گوناگونی ابعاد در واقع بسیار متنوع تر از منابع داده ای وقالب بندی آن است.قبلترها داده ها براساس تعاملات انجام شده در سیستم های تعاملاتی یعنی جایی که دیتا در یک روش بسیار ساخت یافته ذخیره شده تحلیل می شد.با این حال باگذشت زمان انواع دیگری از داده های نیمه ساخت یافته مثلXml,java script

ویا بدون ساختار مثل ویدیو و عکس. این تنوع داده ها به خصوص تجمیع ابعاد حجم و تنوع تحلیل را مشکل تر می کند.سرعت درهنگام کار با کلان داده ها موضوع بسیارمهمی است که به بعد سرعت ذخیره و تحلیل داده ها متصل شده است. این کار می تواند به آن منجر شود که در دنیای واقعی ارزش اقتصادی زیادی را در کوتاه ترین زمان ممکن ترسیم کرد.ارزی که دیتا به سازمان اضافه می کند.در واقع دیتا به خودی خود ارزشی را به سازمان اضافه نمی کند و تحلیل اطلاعات و تعاملات و خروجی اطلاعات که از نتیجه آنالیزها به دست می آید به تجارت ارزش می دهد.

در نهایت بعد حقیقت که شامل دو جنبه ثبات داده ها(اطمینان) که می تواند به عنوان وابستگی آماری آن راتعریف کرد و قابلیت اطمینان از داده ها که از طریق یک سری عوامل(منابع آن،روش جمع آوری و پردازش به علاوه آن یک زیرساخت آسان و قابل اعتماد) تعریف شده است.به طور کلی حقیقت اطمینان می دهد که داده های مورد استفاده قابل اعتماد،معتبرو برای جلوگیری از دسترسی غیرمجازمحافظت شده اند.کلاه داده با توجه به ویژگی هایی که تعریف شده راه حل های کلان داده نه تنها برای داده های ساخت یافته که برای داده های نیمه ساخت یافته و غیرساخت یافته هم مناسب است.

متدولوژی

دراین مطالعه روش تحقیق به صورت کتابی است که با توجه به آیتم های زیرصورت گرفته است:

  • کشورهای نویسندگان
  • ابعاد(حجم،سرعت،تنوع،صحت،اعتبار،ارزش)
  • زمینه برنامه(بهداشت،مالی،شهرهای هوشمندو…)
  • ابزارهای مورد استفاده
  • هدف ازمطالعه
  • شرح مطالعه موردی

این مطالعه در مارس۲۰۱۶ با مطالعه برروی دو سایت نشرمقالات و باتمرکز برروی معماری ،سیستم عامل و تکنولوژی انجام داشت.ضمن آنکه فقط مقالات مدنظربراساس زبان انگلیسی که در عنوان ،کلمات کلیدی و چکیده خود از عنوان کلان داده استفاده کرده بودند،مقاله بودندو غیرپولی انتخاب شدند.در تحقیق اولیه ۵۳۱۱ مقاله یافت شد که بعد از لحاظ کردن فیلترهای اشاره شده در نهایت به ۴۶۶ مقاله رسیدیم.همچنین لازم به توضیح است که مقالاتی که بیشتر روی زیرساخت تمرکز کرده بودند تا کلان داده هم حذف شدند.درنهایت تجزیه و تحلیل اطلاعات به راحتی ممکن شد.دراین تحقق ۴۶۶ مقاله ای که تحلیل شد تمامابعد از سال ۲۰۱۰منتشرشده بود که این رقم حجم خروجی بالای مقالات در این سالاها رانشان می دهد.بقیه موارد در نمودار ۶۴٫۳ آورده شده است.در۴۶۶ مقاله نشان داده شده متغییرهای تعیین شده برای مطالعه(حجم،تنوع،سرعت،صحت و ارزش) مورد بررسی قرار گرفت که در نهایت حجم بیشترین مورد بحث بوده است و بعد از آن سرعت و تنوع.این موارد درنمودار۴۶٫۴ آورده شده است.

همچنین چنان که در نمودار۶۴٫۵ آورده شده است ۱۳ زمینه مختلف کاربرد کلان داده مشخص شده است ضمن آنکه مقالاتی هم که بیشترین تعداد رادارند مقالات مقدماتی و ساده و بعد از آن تکنولوژی و شهرهای هوشمند هستند.

درادامه دررابطه با ابزارهای که درکلان داده استفاده می شوندموارددرنمودار۶۴٫۶ آورده شده است که به ترتیب ابزارهای زیرهستند: Apache Hadoop & Map Reduce

همچنین درتحلیلی منبع بازبودن یا نبودن هم مورد توجه واقع شده است که در۳۵ ابزار موجود تنها ۱۰ عدداز آنها منبع باز نبوده اند.   دربررسیی دیگر از مجموع ۴۶۶ مقاله تنها ۸۴ مقاله به صورت میدانی مورد بررسی قرار گرفته است که در نمودار۶۴٫۸ مشخص شده است.این عدد یعنی تنها ۱۸% از کل مقالات مورد بررسی ما.

نتیجه گیری:

هدف از انجام این مطالعه ارائه تصویری واضح و وسیع در مورد کلان داده ها بود. باتوجه به تجزیه و تحلیل های انجام شده کلان داده یک موضوع جدید است اما نشانه ای که تحلیل مارا بیشتر مورد وثوق قرار می دهد استفاده از منابع مختلف داده ای است.احتمالا متوجه شده اید که کلان داده در بحث های تجاری خلق ارزش و ایجاد فرصت های تازه بسیار کاربردی است.محدوده ای که بیشترین حجم از اطلاعات در آن قرار داشت در بحث بهداشت و درمان بود که این نتیجه براساس تحلیل بیشترین مقدار از مقالات منتشر شده به دست آمد.موضوع دیگری که تمرکز مطالعات ارائه شده را دربرمی گیرد به عنوان یک موضوع جدید در بسیاری از مقالات بیشتر به مفهوم سازی و توصیف پرداخته اند که تعدادی در حدود ۱۳۵ مقاله می باشد.به عنوان یک کار برای آینده معماری مرجع با هدف مطالعه برروی حوزه بهداشت و درمان خواهد بود که براساس مطالب ارائه شده در این مقاله خواهد بود.

 

 

۰