1.علم داده یا دیتاساینس چیست؟
دانشی برای مطالعه و بررسی داده ها که به استخراج بینش هایی معنادار از داده ها ختم میشه و ترکیبی از ریاضی، آمار، هوش مصنوعی و مهندسی کامپیوتر هستش. این دانش به دانشمندان داده کمک میکنه تا بتونن سوالات اساسی مدیران کسب و کار رو پاسخ بدن.
شرکت های بزرگ و مدرن در داده ها غرق هستن و پایگاه داده های بزرگی و عظیمی دارن. اونا با داده ها ابزارها، روشها و فناوری های که در اختیار دارن، به بینش ها که باعث رشد و پیشرفت کمپانی ها میشن، میرسن!
2.علم داده برای آنالیز داده ها چگونه و به چند روش روش عمل می کنه؟
-
تحلیل توصیفی (Descriptive analysis)
در تجزیه و تحلیل توصیفی داده ها برای رسیدن به بینش و مفهوم اصلی، آنچه اتفاق افتاده یا آنچه در محیط داده ها اتفاق می افتد بررسی میشه و این آنالیز توصیفی با تجسم داده ها(Data visualization) مثل نمودار دایره ای، نمودار میله ای، نمودار خطی، جداول، یا روایت های تولید شده مشخص میشن.
به عنوان مثال، یک آژانس مسافرتی ممکنه داده هایی مانند تعداد بلیط های رزرو شده توی هر روز رو ثبت کنه، تجزیه و تحلیل توصیفی افزایش رزرو، افت رزرو، آمار برگشتی بلیط و…. رو با کمک دیداری سازی داده ها(Data visualization) نشون میده.
-
تجزیه و تحلیل تشخیصی (Diagnostic analysis)
بررسی عمیق یا دقیق داده ها برای درک اینکه چرا چیزی اتفاق افتاده. با تکنیک هایی مثل کشف داده، داده کاوی و تکنیک شکستن مسئله(Drill Down) مشخص میشه. وقتی چندین عملیات تبدیل داده ها روی یک مجموعه داده ای معین پیاده سازی بشه الگوهای منحصربهفردی به کمک هر یک از این تکنیکها کشف میشن.
-
پیش بینی داده ها (Predictive analysis)
از این مورد برای پیشبینی دقیق الگوهای دادهای که ممکنه در آینده رخ بده، استفاده میشه. با تکنیک هایی مثل یادگیری ماشین، پیش بینی، تطبیق الگو و مدل سازی پیش بینی ها پیشبینی داده ها رخ میده.
برای مثال، یک تیم خدمات پرواز ممکنه از علم داده برای پیش بینی الگوهای رزرو پرواز برای سال آینده در آغاز هر سال استفاده کنه. برنامه یا الگوریتم رایانه ممکنه به داده های گذشته نگاه کنه و افزایش رزرو رو برای مقاصد خاصی در ماه های آینده پیش بینی کنه. این شرکت با پیشبینی الزامات سفر آینده مشتریان خود، میتونه تبلیغات هدفمند تری برای جذب مشتری داشته باشه.
-
تحلیل تجویزی (Prescriptive analysis)
این تکنیک پیش بینی رو به سطح بالاتری میبره. این تکنیک گام نهایی و مهم در انالیز داده هاست، که نه تنها احتمال وقوع رو پیش بینی میکنه بلکه نتیجه رو هم اطلاع میده؛ همچنین پیامد های بالقوه رو تحلیل و بهترین اقدام رو توصیه می کنه! حالا میخوایم داده های یک آژانس مسافرتی رو به صورت فرضی تحلیل تجویزی کنیم:
سناریو:
یک آژانس مسافرتی میخواهد فروش تورهای خودش رو در فصل تابستان افزایش بده. دادههای موجود شامل اطلاعات مشتریان، تاریخچه خرید، نظرسنجیهای مشتریان، و روندهای بازار میشن.
گام 1: جمعآوری دادهها: آژانس دادههایی از مشتریان خود جمعآوری میکنه، مانند:
سن، جنسیت، مقاصد محبوب، زمانهای سفر، نوع خدمات مورد علاقه (هتل، پرواز، تورهای راهنما)
گام 2: بررسی دادهها: با استفاده از تکنیکهای تحلیلی، آژانس میتونه الگوهایی رو شناسایی بکنه. مثلاً:
– مشتریان زیر 30 سال بیشتر به سفرهای ماجراجویی علاقه دارن.
– خانوادهها معمولاً در تعطیلات تابستانی سفر میرن.
گام 3: ارائه توصیهها: بر اساس تحلیل انجام شده، آژانس میتونه توصیههای زیر رو ارائه بده:
- طراحی بستههای سفری ویژه:ایجاد بستههای سفری ماجراجویانه برای جوانان و بستههای خانوادگی با تخفیف برای خانوادهها.
- نظرسنجی و بازخورد:برگزاری نظرسنجی برای جمعآوری نظرات مشتریان در مورد خدمات و مقاصد جدید.
گام 4: پیادهسازی و ارزیابی: آژانس این توصیهها را پیادهسازی میکنه و تأثیر اونها رو از طریق بررسی فروش و بازخورد مشتریان ارزیابی میکنه. اگر فروش افزایش پیدا کنه و نظرات مثبت باشه، میتوان نتیجه گرفت که تحلیل تجویزی مؤثر بوده است.

3.کاربرد علم داده در کسب و کار چیه؟
1.الگوهای ناشناخته دگرگون کننده را کشف می کنه!
به کسبوکارها اجازه میده تا الگوها و روابط جدیدی رو کشف کنن که پتانسیل تغییر سازمان رو دارن.
2.محصولات و راه حل های جدید نوآوری میشن!
میتونه شکاف ها و مشکلاتی رو آشکار کنه که قبل تر کسی متوجه اونها نبوده. بینش بیشتر در مورد تصمیمات خرید، بازخورد مشتری و فرآیندهای تجاری میتونه باعث نوآوری در عملیات داخلی و راه حل های خارجی بشه.
3.باعث بهینه سازی سریع میشه!
برای کسب و کارها، به ویژه شرکت های بزرگ، بسیار چالش برانگیزه که به شرایط در حال تغییر در زمان واقعی پاسخ بدن. این میتونه باعث زیان یا اختلالات قابل توجهی توی فعالیت های تجاری بشه. علم داده میتونه به شرکت ها کمک کنه تا تغییرات را پیش بینی کنن و به شرایط مختلف واکنش بهتری نشون بدن.
برای مثال، یک شرکت حمل و نقل مبتنی بر کامیون، از علم داده برای کاهش زمان خرابی کامیون ها استفاده میکنه. اونها مسیرهایی رو که منجر به خرابی سریعتر میشن شناسایی میکنن و برنامه کامیونها رو تغییر میدن.
4.فرآیند علم داده چیه؟
یک مشکل تجاری معمولاً فرآیند علم داده رو آغاز می کنه. یک دانشمند داده با ذینفعان(ذی نفع یعنی افراد و گروههایی که به نوعی در موفقیت یا شکست یک کسب و کار، سهیم هستن) کسب و کار می کنن تا بفهمن کسب و کار به چه چیزی نیاز داره. هنگامی که مشکلی تعریف بشه، دانشمند داده ممکنه اون رو با استفاده از فرآیند OSEMN حل کنه:
O – به دست آوردن داده ها (Obtain)
داده ها می تونن تازه به دست بیان یا یک مخزن داده قابل دانلود از اینترنت باشن یا دانشمندان داده اونهارو از پایگاههای داده داخلی یا خارجی، نرمافزار CRM شرکت و.. استخراج کنن یا از منابع قابل اعتماد دیگری خریداری کنن.
S – پاکسازی داده ها (Scrub)
پاکسازی داده ها، فرآیند استانداردسازی داده ها بر اساس فرمت از پیش تعیین شده هستش. این شامل رسیدگی به داده های از دست رفته، رفع خطاهای داده، و حذف هر گونه اطلاعات نامربوطه. که شامل:
_ تغییر تمام مقادیر تاریخ به یک قالب استاندارد مشترک.
_ رفع اشتباهات املایی یا فاصله های اضافی.
_ رفع نادرستی های ریاضی یا حذف کاما از اعداد بزرگ.
E – کاوش در داده ها(Explore)
دانشمندان داده با استفاده از آمار توصیفی و ابزارهای تجسم داده ها به درک اولیه ایی از داده ها میرسن . سپس اونها داده هارو بررسی می کنن تا الگوهای جالب رو شناسایی میکنن.
M – داده های مدل(Model)
نرمافزار و الگوریتمهای یادگیری ماشین برای به دست آوردن بینشی عمیقتر، پیشبینی نتایج و تجویز بهترین مسیرعمل استفاده میشن. تکنیکهای یادگیری ماشین مثل:
تداعی داده ها((Freeassociation، طبقه بندی (Classification) و خوشه بندی (Clustering)در مجموعه دادهها اعمال میشن.
N – تفسیر نتایج
دانشمندان داده با تحلیلگران و کسب و کارها همکاری می کنن تا بینش هارو عملیاتی کنن. اونها انواع نمودار ها رو برای نمایش روندها و پیش بینی ها می سازن.

5. سه عملیات مهم علم داده چیه؟
1.طبقه بندی (Classification)
مرتب سازی داده ها در گروه ها یا دسته های خاص رو طبقه بندی داده ها میگیم. مجموعه داده های شناخته شده برای ساختن الگوریتم های تصمیم گیری در رایانه ها به کار گرفته میشن، که به سرعت داده ها رو پردازش و دسته بندی می کنه.
2.رگرسیون (Regression )
روشی برای یافتن رابطه بین دو نقطه داده به ظاهر نامرتبط. اتصال معمولاً حول یک فرمول ریاضی مدلسازی میشود و به صورت نمودار یا منحنی نشان داده میشه. هنگامی که مقدار یک نقطه داده مشخصه، از رگرسیون برای پیش بینی نقطه داده دیگر استفاده میشه.
3.خوشه بندی (Clustering)
روشی برای گروه بندی داده های نزدیک به هم که به جستجوی الگوها و ناهنجاری ها کمک میکنه. خوشه بندی با طبقه بندی متفاوته چون داده ها رو نمی تونیم به طور دقیق در دسته های ثابت طبقه بندی کنیم.
6.فن آوری های مختلف علم داده چیست؟
هوش مصنوعی: مدلهای یادگیری ماشین و نرمافزارهای مرتبط برای تجزیه و تحلیل پیشبینیکننده و تجویزی استفاده میشن.
رایانش ابری: فناوریهای ابری به دانشمندان داده انعطافپذیری و قدرت پردازش مورد نیاز برای تجزیه و تحلیل دادههای پیشرفته را داده.
اینترنت اشیا: دستگاه های مختلفی اطلاق می شود که می توانند به طور خودکار به اینترنت متصل شوند.
محاسبات کوانتومی: کامپیوترهای کوانتومی می توانند محاسبات پیچیده را با سرعت بالا انجام دهند و برای ساختن الگوریتم های کمی پیچیده استفاده میشن.

