بیگ دیتا (Big Data) ترکیبی از دادههای ساختیافته، نیمه ساختیافته و بدون ساختار است که توسط سازمانها جمعآوری شده و میتوانند بهمنظور ایجاد اطلاعات شفاف استخراج و در پروژههای یادگیری ماشین، مدلهای پیشبینی کننده و دیگر برنامههای تحلیلی پیشرفته مورد استفاده قرار بگیرد.
سیستمهایی که بیگ دیتاها را پردازش و ذخیره میکنند به یکی از مؤلفههای مشترک معماری مدیریت داده تبدیل میشوند و با ابزارهایی که از کاربردهای تجزیهوتحلیل دادههای بزرگ پشتیبانی میکنند ترکیب میشوند. دادههای کلان اغلب با سه مؤلفه مشخص میشوند:
- حجم زیاد داده در بسیاری از محیطها
- طیف وسیع و متنوعی از انواع دادهها که اغلب در سیستم دادههای بزرگ ذخیره میشوند.
- سرعتی که در آن بسیاری از دادهها تولید، جمع آوری و پردازش میشوند.
این سه ویژگی اولینبار در سال 2001 توسط داگ لین، تحلیلگر شرکت Meta Group Inc ارائه شد. Gartner پس از تصاحب Meta Group در سال 2005 محبوبیت آنها را افزایش داد. در حال حاضر چند ویژگی دیگر از جمله صحت، ارزش و تنوع نیز اضافه شده است.
اگرچه دادههای بزرگ با حجم خاصی از داده تعریف نمیشود، استقرار دادههای بزرگ اغلب در اندازه ترابایت، پتابایت و حتی اگزابایت است که در طول زمان تولید و جمع آوری شده است.
چرا بیگ دیتا از اهمیت زیادی برخوردار است؟
اکنون که تا حدودی با ماهیت big data آشنا شدید، لازم است تا دلیل اهمیت آن را نیز برای شما روشن کنیم. شرکتها برای بهبود عملیات، ارائه خدمات بهتر به مشتریان، ایجاد کمپینهای تبلیغاتی شخصی و در نهایت هر اقدامی که میتواند درآمد و سود شرکت را افزایش دهد در سیستمهای خود از بیگ دیتا استفاده میکنند.
کسبوکارهایی که از بیگ دیتاها استفاده میکنند نسبت به کسانی که این کار را نمیکنند بهطور موثری مزیت رقابتی بالقوهای را بهدست میآورند؛ چرا که میتوانند با سرعت بیشتر و آگاهانهتر تصمیمات مهم را اتخاذ کنند.
بهعنوان نمونه شرکتهایی که از بیگ دیتا استفاده میکنند میتوانند اطلاعات ارزشمندی را در مورد مشتریان به دست آورند که میتوانند از آنها برای اصلاح شیوه بازاریابی، تبلیغات خود بهمنظور افزایش تعامل با مشتری و نرخ تبدیل استفاده کنند. دادههای تاریخی و بلادرنگ را میتوان برای ارزیابی رفتارهای در حال تغییر مصرفکنندگان یا خریداران استفاده کرد و به کسبوکارها این امکان را میدهد تا قادر به پاسخگویی به خواستهها و نیازهای مشتری باشند.
همچنین از بیگدیتاها در علم پزشکی برای شناسایی علایم بیماری، عوامل خطرزا و برای تشخیص دقیق بیماریها و شرایط پزشکی بیماران استفاده میشود. علاوه بر این موارد، ترکیبی از دادههای مربوط به سوابق پزشکی الکترونیکی، سایتهای رسانههای اجتماعی، وب و منابع دیگر به سازمانهای مراقبتهای بهداشتی و سازمانهای دولتی در بهروز نگهداشتن اطلاعات در مورد تهدیدات بیماریهای عفونی یا شیوع آنها کمک میند.
در ادامه ما به چند نمونه دیگر از نحوه استفاده از بیگ دیتا توسط سازمانهای بزرگ اشاره خواهیم کرد:
- در صنعت انرژی، دادههای بزرگ به شرکتهای نفت و گاز کمک میکند تا مکانهای احتمالی حفاری را شناسایی کرده و عملیات خط لوله را کنترل کنند. به همین ترتیب، ابزارهای کاربردی از آن برای ردیابی شبکههای برقی استفاده میکنند.
- موسسات خدمات مالی از سیستمهای بزرگ برای مدیریت ریسک و آنالیز بیدرنگ دادههای بازار استفاده میکنند.
- شرکتهای تولیدکننده و حملونقل برای مدیریت بهتر زنجیره تامین و همچنین ردیابی بهترین مسیر حرکت هنگام مسیریابی از بیگ دیتاها استفاده میکنند.
کاربردهای دولتی دیگر بیگ دیتا شامل واکنش اضطراری، پیشگیری از جرم و تجهیزات شهر هوشمند است.
چه مواردی بهعنوان نمونههایی از بیگ دیتا در نظر گرفته میشود؟
همانطور که از تعریف big data مشخص است، بیگ دیتاها از منابع زیادی بهدست میآیند؛ برخی از منابع قابل ذکر شامل سیستمهای پردازش تراکنش، پایگاههای داده مشتریان، اسناد، ایمیلها، سوابق پزشکی، گزارشهای جریان کلیکهای اینترنتی، برنامههای موبایل و شبکههای اجتماعی میشود. همچنین دادههای تولیدشده توسط ماشین، مانند فایلهای گزارش شبکه و سرور و دادههای حسگرهای ماشینهای تولیدی، تجهیزات صنعتی و دستگاههای اینترنت اشیاء نمونههایی هستند که بیگ دیتاها را ایجاد میکنند.
علاوه بر دادههای سیستمهای داخلی، دادههای بیگ دیتا اغلب دادههای خارجی در مورد مصرفکنندگان، بازارهای مالی، شرایط آبوهوایی و ترافیک، اطلاعات جغرافیایی، تحقیقات علمی و موارد دیگر را در خود جای میدهند.
تصاویر، ویدئوها و فایلهای صوتی نیز اشکال دیگری از بیگ دیتا هستند و بسیاری از کاربردهای بیگ دیتا شامل جریانهایی از دادهها هستند که بهطور مداوم پردازش میشوند.
بررسی چند خصوصیت بیگ دیتا
Volume یا حجم دادهها رایجترین مشخصه برای بیگ دیتاها هستند. حتماً لازم نیست که بیگ دیتاها دارای حجم زیادی از دادهها باشند، اما بیشتر آنها بهدلیل ماهیت دادههایی که در آنها جمعآوری شده است دارای چنین مشخصهای هستند. جریان کلیکها، گزارشهای سیستم و سیستم پردازش جریانی از جمله منابعی هستند که معمولاا حجم عظیمی از دادهها را بهصورت مداوم تولید میکنند.
بیگ دیتاها همچنین دارای تنوع گستردهای از انواع دادهها هستند، از جمله این موارد عبارتند از:
- دادههای ساختیافته، مانند معاملات و سوابق مالی
- دادههای بدون ساختار مانند متن، اسناد و فایلهای چند رسانهای
- دادههای نیمه ساختیافته مانند گزارش وب سرور و جریان دادهها از حسگرها
گاهی اوقات لازم است که انواع مختلف داده با هم در سیستم بیگ دیتا ذخیره و پردازش شوند. علاوه بر این موارد، کاربردهای بیگ دیتا اغلب شامل مجموعه دادههای متنوعی هستند که ممکن است از قبل یکپارچه سازی نشوند. بهعنوان مثال، ممکن است که یک پروژه تجزیهوتحلیل بیگ دیتا سعی کند که میزان فروش یک محصول را با استفاده از همبستگی دادههای مربوط به فروشهای گذشته، بازده، بررسیهای آنلاین و تماسهای خدمات مشتری پیشبینی کند.
Velocity یا سرعت رشد داده به سرعتی که در آن دادهها تولید، پردازش و تجزیهوتحلیل میشوند اشاره میکند. در بسیاری از موارد، مجموعهای از دادههای بزرگ بهجای بهروزرسانی روزانه، هفتگی یا ماهیانه که در بسیاری از انبارهای داده سنتی انجام میشود، بهصورت بیدرنگ یا تقریبا بیدرنگ بهروزرسانی میشوند.
مدیریت سرعت دادهها نیز مولفه مهمی در بیگ دیتا محسوب میشود، چرا که تجزیهوتحیل دادههای بزرگ به مباحثی نظیر یادگیری ماشین و هوش مصنوعی گسترش مییابد. در واقع این دو فناوری همان جایی است که فرآیندهای تحلیل بهطور خودکار الگوهایی را در دادهها مییابند و از آنها برای ایجاد بینش استفاده میکنند.
مشخصات دیگر بیگ دیتا
با نگاهی فراتر از آنچه که عنوان شد، در اینجا جزییاتی در مورد برخی از موارد دیگر وجود دارد که اکنون معمولا با دادههای بزرگ مرتبط هستند:
Veracity یا صحت، به میزان دقت مجموعه دادهها و میزان قابل اعتماد بودن آنها اشاره دارد. دادههای خام جمعآوری شده از منابع مختلف میتواند باعث بروز مسائلی در کیفیت دادهها شود که تشخیص دقیق آنها ممکن است دشوار باشد. اگر چنین دادههایی از طریق فرآیند پاکسازی حذف نشوند منجر به خطاهایی در تجزیهوتحلیل خواهند شد که میتواند ارزش طرحهای تجزیهوتحلیل تجاری را کاهش دهد. تیمهای مدیریت داده و آنالیز داده نیز باید این اطمینان را داشته باشند که دادههای دقیق کافی را برای تولید نتایج معتبر در اختیار دارند.
برخی از دانشمندان و مشاوران داده نیز ارزشمندی (Value) را به لیست ویژگیهای بیگ دیتا اضافه کردهاند. همه دادههای موجود در یک بیگ دیتا دارای ارزش یا مزایای تجاری نیستند. در نتیجه، سازمانها باید قبل از اینکه از دادهها در پروژههای تجزیهوتحلیل خود استفاده کنند مطمئن شوند که دادهها به مسائل کسبوکار مرتبط هستند.
Variability یا تغییرپذیری همچنین اغلب برای مجموعهای از بیگ دیتاها اعمال میشود که ممکن است معانی متعددی داشته باشند یا اینکه از منابع جداگانهای دریافت شده باشند. عواملی وجود دارند که مدیریت و آنالیز دادههای بزرگ را پیچیدهتر میکنند.
بیگ دیتا چگونه ذخیره و پردازش میشود؟
دادههای بزرگ اغلب در یک دریاچه داده ذخیره میشوند. در حالی که معمولاً انبارهای داده بر روی پایگاه داده رابطهای ساخته میشوند و فقط حاوی دادههای ساختیافته هستند، دریاچههای داده میتوانند انواع مختلف داده را پشتیبانی کنند و معمولاً مبتنی بر خوشههای Hadoop، سرویسهای ذخیرهسازی ابری آبجکتها، پایگاه داده NoSQL یا دیگر پلتفرمهای بیگ دیتا هستند.
بسیاری از محیطهای بیگ دیتا چندین سیستم را در یک معماری بیگ دیتای توزیعشده ترکیب میکنند. بهعنوان مثال، یک دریاچه داده مرکزی ممکن است با پلتفرم دیگر، از جمله پایگاههای رابطهای یا انبار داده ادغام شود. دادهها در سیستم بیگ دیتا ممکن است بهصورت خام باقی بماند و سپس در صورت نیاز برای استفاده در موارد خاص فیلتر و سازماندهی شوند. در موارد دیگر، با استفاده از ابزارهای دادهکاوی و نرمافزارهای آمادهسازی داده، این دادهها پردازش و برای برنامههایی که بهصورت منظم اجرا میشوند مورد استفاده قرار میگیرند.
پردازش بیگ دیتا به زیرساختهای محاسباتی فشار زیادی وارد میکند. قدرت محاسباتی مورد نیاز اغلب توسط سیستمهای خوشهای ارائه میشود که با استفاده از فناوریهایی مانند Hadoop و موتور پردازش Spark بارهای کاری پردازش را در صدها یا هزاران سرور اختصاصی توزیع میکنند.
فراهم کردن چنین ظرفیت پردازشِ مقرونبهصرفهای یک چالش محسوب میشود. در نتیجه، محیط محاسبات ابری مکان خوبی برای سیستمهای بیگ دیتا محسوب میشود. سازمانها میتوانند سرویس مبتنی بر ابر خود را پیادهسازی کنند یا اینکه از سیستمهای کلان داده ابری پیشنهاد شده توسط ارائهدهندگان استفاده کنند. کاربران تکنولوژیهای ابری میتوانند تعداد سرورهای موردنیاز را به میزانی که برای تکمیل پروژههای تجزیهوتحلیل بیگ دیتا لازم است افزایش دهند. کسبوکارها فقط هزینه فضای ذخیرهسازی استفادهشده و زمان پردازش را پرداخت میکنند و نمونههای ابری میتوانند تا زمان نیاز، خاموش شوند.
آنالیز بیگ دیتا چگونه کار میکند؟
برای بهدست آوردن نتایج معتبر و مرتبط از آنالیز بیگ دیتا از کاربردهای تجزیهوتحلیل بیگ دیتا، دانشمندان باید از دادههای موجود و آنچه را که بهدنبال آن هستند درک درستی داشته باشند. این باعث میشود که آنها نسبت به مراحل تجزیهوتحلیل که شامل تایید، پروفایلسازی، پاکسازی و جابهجایی مجموعه دادهها میشود، دید درستی داشته باشند.
پس از جمعآوری دادهها و آمادهسازی برای تجزیهوتحلیل، میتوان از رشتههای مختلف علوم داده و تجزیهوتحلیلهای پیشرفته و همچنین استفاده از ابزارهایی که ویژگیها و قابلیتهای آنالیز بیگ دیتا را ارائه میدهند برای اجرای کاربردهای مختلف استفاده کرد. این رشتهها شامل یادگیری ماشین، مدلسازی پیشبینی، دادهکاوی، تجزیهوتحلیلهای آماری، تجزیهوتحلیل جریان، متنکاوی و بسیاری از موارد دیگر است.
دادههای مشتری را بهعنوان یک مثال در نظر بگیرید؛ از جمله کارهایی که میتوان با استفاده از بیگ دیتا انجام داد شامل موارد زیر است:
- تحلیل تطبیقی: معیارهای رفتار مشتری و تعامل با مشتری را بررسی میکند تا محصولات، خدمات و برندینگ یک شرکت را با رقبا مقایسه کند.
- رصد کردن رسانههای اجتماعی: این تجزیهوتحلیل کمک میکند بفهمیم مردم در رسانههای اجتماعی در مورد یک کسبوکار یا محصول چه چیزی میگویند؛ که میتواند به شناسایی مشکلات بالقوه و مخاطبان هدف در کمپینهای بازاریابی کمک کند.
- آنالیز بازاریابی: آنالیز بازاریابی اطلاعاتی را برای ما فراهم میکند که میتواند برای بهبود کمپینهای بازاریابی و پروموشنهای محصولات ، خدمات و ابتکارات تجاری استفاده شوند.
- تحلیل احساسات: تمام دادههایی را که در مورد مشتریان جمعآوری میشود میتوان تجزیهوتحلیل کرد تا احساس مشتریان در مورد یک شرکت یا برند، سطح رضایت، مشکلات احتمالی و نحوه بهبود خدمات مشتری مشخص شود.
فناوریهای مدیریت بیگ دیتا
Hadoop یک فریمورک پردازشی منبع باز است که در سال 2006 منتشر شد، در ابتدا در مرکز اکثر معماریهای بیگ دیتا قرار داشت. توسعه Spark و سایر موتورهای پردازشی بیشتر باعث شد تا MapReduce موتوری که در Hadoop تعبیه شده بیشتر به حاشیه رانده شود. در نتیجه، اکوسیستمی از فناوریهای بیگ دیتا است که میتواند برای کاربردهای مختلف استفاده شود، اما در اغلب موارد آنها با یکدیگر مستقر خواهند شد.
پلتفرمهای بیگ دیتا و خدمات مدیریتشده ارائه شده توسط فروشندگان فناوری اطلاعات، بسیاری از این فناوریها را در یک بسته واحد، عمدتا برای استفاده در فضای ابری، ترکیب میکنند. در حال حاضر، این پلتفرمها پیشنهاد میشود:
- Amazon EMR (Elastic MapReduce سابق)
- پلتفرم Cloudera Data
- Google Cloud Dataproc
- HPE Ezmeral Data Fabric (MapR Data Platform سابق)
- Microsoft Azure HDInsight
سازمانهایی که میخواهند خودشان سیستمهای بیگ دیتا را چه بهصورت محلی و چه در فضای ابری پیادهسازی کنند میتوانند در کنار Hadoop و Spark از مجموعه ابزارهای زیر استفاده کنند :
- مخازن ذخیرهسازی، مانند Hadoop Distributed File System (HDFS) و سرویسهای ذخیرهسازی اشیا ابری که شامل Amazon Simple Storage Service (S3)، Google Cloud Storage و Azure Blob Storage میشود:
- فریمورکهای مدیریت خوشهبندی، مانند Kubernetes، Mesos و YARN.
YARN مدیر منابع داخلی و زمانبندی Hadoop، که مخفف عبارت Yet Another Resource Negotiator است و معمولاً به همین فرم مخفف شناخته میشود.
- موتورهای پردازش جریان، مانند Flink ،Hudi ،Kafka ،Samza ،Storm و ماژولهای Spark Streaming و ماژول Structured Streaming که در Spark تعبیه شده است
- پایگاه دادههای NoSQL که شامل Cassandra ,Couchbase ,CouchDB ,HBase ,MarkLogic Data Hub ,MongoDB ,Neo4j ,Redis و انواع تکنولوژیهای دیگر میشود
- موتورهای جستوجوی SQL مانند Drill ,Hive ,Impala ,Presto و Trino
چالشهای کلان داده
در ارتباط با ظرفیت پردازش داده بیگ دیتا، طراحی یک معماری بیگ دیتا یکی از چالشهای رایج برای کاربران محسوب میشود. سیستمهای کلان داده باید متناسب با نیازهای خاص سازمان باشند. یک روحیه DIY که به تیمهای IT و مدیریت داده نیاز دارد تا مجموعهای از فناوریها و ابزارهای سفارشیشده را کنار یکدیگر بگذارند. بهعلاوه، استقرار و مدیریت سیستمهای کلان داده نیازمند مهارتهای جدید و متفاوتی نسبت به مهارتهای مدیران پایگاه داده و توسعهدهندگان متمرکز بر نرمافزار رابطهای است.
هر دو مشکل را میتوان با استفاده از یک سرویس ابری مدیریتشده کاهش داد، اما مدیران فناوری اطلاعات باید مراقب استفاده از فضای ابری باشند تا مطمئن شوند که هزینهها از کنترل آنها خارج نمیشود. همچنین، انتقال مجموعههای داده و پردازش بارهای کاری به ابر اغلب یک فرآیند پیچیده است.
از جمله چالشهای دیگر در مدیریت سیستمهای بیگ دیتا دسترسی به دادهها برای دانشمندان و تحلیلگران بهویژه در محیطهای توزیعشده است که شامل ترکیبی از پلتفرمها و فروشگاههای داده متنوع است. برای کمک به تحلیلگران در یافتن دادههای مرتبط، تیمهای مدیریت داده و تجزیهوتحلیل بهطور فزایندهای به ساخت کاتالوگهای داده روی آوردهاند که مدیریت متا دیتا و توابع سلسله داده را در خود جای داده است. فرآیند ادغام مجموعههای بیگ دیتا اغلب پیچیده است این پیچیدگی زمانی افزایش مییابد که تنوع و سرعت دادهها جزو فاکتورهای آن باشد.
اصول یک استراتژی موثر بیگ دیتا
در یک سازمان، توسعه یک استراتژی بیگ دیتا مستلزم درک اهداف کسبوکار و دادههایی است که اکنون برای استفاده در دسترس هستند؛ همچنین بهمنظور دستیابی به اهداف، در صورت نیاز به دادههای اضافی، این موضوع باید مورد ارزیابی قرار بگیرد. اقدامات بعدی که باید انجام دهید شامل موارد زیر است:
- اولویتبندی موارد و کاربردهای موردنیاز
- شناسایی سیستمها و ابزارهای جدید موردنیاز
- ایجاد نقشه راه برای استقرار
- ارزیابی مهارتهای داخلی به منظور اطلاع از اینکه آیا بازآموزی و یا استخدام افراد جدید موردنیاز است یا خیر.
برای اطمینان از تمیز و منسجم بودن دادهها و استفاده صحیح از مجموعههای بیگ دیتا، برنامه حاکمیت داده و فرآیندهای مدیریت کیفیت داده مرتبط باید در اولویت قرار بگیرند. بهروشهای دیگر برای مدیریت و آنالیز بیگ دیتا شامل تمرکز بر نیازهای کسبوکار برای اطلاعات در مورد تکنولوژیهای جدید و استفاده از تجسم داده برای کمک به کشف و آنالیز دادهها است.
شیوهها و مقررات مرتبط با جمعآوری بیگ دیتا
با افزایش جمعآوری و استفاده از بیگ دیتا، امکان سوء استفاده از دادهها نیز افزایش مییابد. اعتراضات عمومی در رابطه با نقض قوانین حریم خصوصی باعث شد تا اتحادیه اروپا مقررات عمومی حفاظت از دادهها (GDPR) را تصویب کند. این قانون در ماه می 2018 اجرایی شد. GDPR انواع دادههایی که سازمانها میتوانند جمع آوری کنند را محدود و این کار را ملزم به کسب اجازه از افراد و رعایت سایر دلایل مشخصشده برای جمعآوری دادههای شخصی کرد. همچنین این قانون شامل یک ماده «حق فراموششدن» است که به ساکنان اتحادیه اروپا اجازه میدهد از شرکتها بخواهند دادههای آنها را حذف کنند.
جنبه انسانی مدیریت و تجزیهوتحلیل بیگ دیتا
در نهایت، ارزش تجاری و مزایای طرحهای بیگ دیتا به کارگرانی بستگی دارد که وظیفه مدیریت و آنالیز دادهها را برعهده دارند. برخی از ابزارهای بیگ دیتا، کاربران با مهارتهای فنی پایین را قادر میسازد تا برنامههای تحلیل پیشبینیکننده را اجرا کنند یا به کسبوکارها کمک میکنند تا زیرساخت مناسبی برای پروژههای بیگ دیتا مستقر کنند، در حالی که نیاز به سختافزار و دانش نرمافزاری توزیعشده را به حداقل میرسانند.
بیگ دیتا میتواند متضاد اسمال دیتا باشد. اسمال دیتا اصطلاحی است که گاهی اوقات برای توصیف مجموعه دادههای استفاده شده در هوش تجاری (BI) سلف سرویس و تجزیهوتحلیل بهکار میرود. معمولاً این نقلقول استفاده میشود که بیگ دیتا برای ماشین است و دادههای کم برای افراد.
سوالات متداول
3 نوع متداول از انواع بیگ دیتا چیست؟
از انواع متداول بیگ دیتا شامل دادههای ساختیافته، نیمه ساختیافته و بدون ساختار هستند.
کاربردهای بیگ دیتا چیست؟
با استفاده از بیگ دیتا میتوانید تولید، بازخورد و بازده مشتری و سایر عوامل را برای پیشبینی تقاضاهای آینده تجزیهوتحلیل و ارزیابی کرد. همچنین، از بیگ دیتا میتوان برای بهبود فرآیند تصمیمگیری مطابق با نیاز بازار استفاده کرد.