جزئیاتی در مورد محیط های محاسباتی توزیع شده دریافت کنید

مقدمه

این مقاله به شما کمک می کند تا نیاز به یک محیط محاسباتی توزیع شده را درک کنید، نقش Hadoop در راه اندازی محاسبات توزیع شده و فناوری های اصلی را که با Hadoop کار می کند، درک کنید.

به عنوان یک شروع، اجازه دهید در میان مجموعه داده‌هایی که غول‌هایی مانند فیس‌بوک، گوگل و NSA دارند حرکت کنیم.

توجه

همه داده های مشخص شده در زیر از Google گرفته شده است.

فیس بوک

داده هایی که فیس بوک در اختیار دارد	300 پتابایت
داده های پردازش شده توسط فیس بوک در یک روز	600 ترابایت
کاربران در یک ماه در فیس بوک	1 میلیارد
لایک ها در یک روز در فیس بوک	3 میلیارد
عکس های آپلود شده در یک روز در فیس بوک	300 میلیون

NSA

داده های ذخیره شده در NSA	5 اگزابایت
پردازش در روز	30 پتابایت

همانطور که می دانیم NSA روزانه 1.6 درصد از ترافیک اینترنت را تحت تأثیر قرار می دهد، NSA جستجوهای وب، وب سایت های بازدید شده، تماس های تلفنی، تراکنش های مالی، اطلاعات بهداشتی و غیره را نظارت می کند.

توجه - این گزارش مناسبی نیست زیرا NSA مقادیر آماری خود را برای اشخاص ثالث منتشر نمی کند.

گوگل

اوپس!! گوگل در مقایسه با دو غول دیگر از میزان تراکنش داده ها شکست می زند!!

داده هایی که گوگل دارد	15 اگزابایت
پردازش داده ها در یک روز	100 پتابایت
تعداد صفحات ایندکس شده	60 تریلیون
جستجوهای منحصر به فرد در ماه	1 میلیارد به علاوه
جستجو در ثانیه	2.3 میلیون

بنابراین، داشتن یک مجموعه داده عظیم مانند یک ماشین، هر چقدر هم که قدرتمند باشد، نمی تواند همه این داده ها را در چنین مقیاس عظیمی محاسبه کند. از این رو، ما به سمت یک سیستم کلان داده حرکت می کنیم.

ذخیره‌سازی نیازمندی‌های سیستم داده‌های بزرگ

- داده‌های خام

باید بتواند حجم عظیمی از داده‌ها را ذخیره کند، زیرا داده‌های خام همیشه عظیم هستند.

فرآیند

ما باید بتوانیم اطلاعات مفید را به تنهایی از آن به موقع استخراج کنیم. در نهایت، ما به یک زیرساخت مقیاس‌پذیر نیاز داریم که بتواند با داده‌ها هماهنگی داشته باشد، که مدام در حال رشد است. این باید به ما کمک کند تا داده ها را با افزایش حجم ذخیره کنیم و همچنین می تواند همان را پردازش کند.

توجه - ذخیره سازی و پردازش بدون داشتن زیرساخت مقیاس پذیر که بتواند نیازهایی را که با داده ها در حال افزایش هستند را برآورده کند بی فایده است.

بنابراین، برای کار با چنین محیطی که دارای بینش های مختلف است، به یک چارچوب محاسباتی توزیع شده نیاز داریم و Hadoop به آنجا می رود.

Build System for Computation

هر سیستمی که بتواند برای ما محاسبات بسازد به دو صورت ساخته می شود.

سیستم یکپارچه
همه چیز در یک ماشین واحد، که یک کامپیوتر فوق العاده است و تمام دستورالعمل های داده را پردازش می کند.
سیستم توزیع شده
چندین ماشین و چندین پردازنده وجود خواهد داشت. مجموعه‌ای از گره‌ها به نام خوشه را در خود نگه می‌دارد، جایی که هیچ گره‌ای یک سوپر کامپیوتر نیست که به عنوان یک موجودیت واحد عمل می‌کند. این سیستم می تواند به صورت خطی مقیاس شود و اگر تعداد گره ها را در سیستم خود دو برابر کنید، فضای ذخیره سازی را دو برابر خواهید کرد. همچنین سرعت دستگاه را به دو برابر افزایش می دهد.

این سیستم توزیع شده جایی است که شرکت هایی مانند فیس بوک، گوگل، آمازون و غیره با مجموعه ماشین هایی با محیط های سرور گسترده زنده می مانند و این مکانی است که پردازش واقعی داده ها در آن انجام می شود.

اکنون، همه این ماشین‌های محیط توزیع شده و نه سرورها نیاز به هماهنگی با یک نرم‌افزار دارند. این نرم افزار به نیازهای سیستم توزیع شده مانند پارتیشن بندی داده ها در چندین گره - تکرار داده ها در گره و هماهنگ کردن وظایف محاسباتی که روی ماشین های موازی اجرا می شوند، رسیدگی می کند. این نرم افزار همچنین تحمل خطا و بازیابی مانند خرابی دیسک و خرابی گره را مدیریت می کند. این نرم افزار همچنین باید فرآیند را تخصیص دهد، همانطور که ظرفیت گره از نظر حافظه و فضای هارد دیسک مدیریت می شود.

مقالات آینده من همه چیز درباره Big Data – Hadoop خواهد بود. بنابراین، به گشت و گذار برای مقالات من ادامه دهید.

[/membership]

جزئیاتی در مورد محیط های محاسباتی توزیع شده دریافت کنید

مطالب مرتبط:

پاسخ دهید لغو پاسخ