30 نتیجه برای بیز
دکتر وحید رضایی تبار، سلوا سلیمی،
جلد 21، شماره 1 - ( 6-1395 )
چکیده
شبکههای بیزی، مدلهای گرافیکی احتمالی هستند که رابطۀ علّت و معلولی بین متغیرها را تعیین میکنند و شامل یادگیری ساختاری و یادگیری پارامتری میباشند. الگوریتم K2 یکی از بهترین روشهای یادگیری ساختار در شبکههای بیزی برای متغیرهای گسسته است. کارایی الگوریتم K2، بهشدت تحت تأثیر ترتیب متغیرهای ورودی است. بنا بر این برای رسیدن به گراف دقیقی که توصیفکنندۀ دادهها باشد، یافتن الگوریتمی که ترتیب دقیقتری از عناصر بهعنوان ورودی 2K ارائه کند، مورد نیاز است. در این مقاله، نخست با استفاده از روش افزایشی-کاهشی، پوشش مارکوفی هر متغیر را یافته، سپس بر اساس فراوانیهای شرطی و استفاده از تابع چگالی احتمال دیریکله، از بین پوشش مارکوفی هر متغیر، والدین احتمالی آن متغیر انتخاب میشوند. مجموعۀ والدین انتخابی هر رأس بهعنوان ورودی الگوریتم K2 مورد استفاده قرار میگیرد و شبکۀ بیزی به دست میآید. نتایج حاصل از اعمال الگوریتم پیشنهادی بر روی چند مجموعه دادۀ معیار و مقایسۀ آن با روشهای دیگر، نشان میدهد که الگوریتم پیشنهادی بسیار کاراتر از سایر روشها است.
علی آقامحمدی، سکینه محمدی،
جلد 21، شماره 2 - ( 12-1395 )
چکیده
مدلهای دادههای پانلی پویا قسمت مهمی از مطالعات حوزههای پزشکی، اجتماعی و اقتصادی را شامل میشوند.
ویژگی بارز این مدلها وجود متغیر وابستۀ تأخیری بهعنوان متغیر توصیفی است. مشکل برآورد در این مدلها از همبستگی بین متغیر وابستۀ تأخیری و مؤلفۀ خطای فعلی ناشی میشود. اخیراً رگرسیون چندکی تاوانیده برای تحلیل دادههای پانلی پویا مورد توجه قرار گرفته است. در این مقاله نخست مدل رگرسیون چندکی با ایجاد تاوان لاسو سازوار روی اثرهای تصادفی برای دادههای پانلی پویا با فرض وابستگی اثرهای تصادفی و مشاهدات اولیه ارائه میشود. همچنین این مدل با فرض استقلال بین اثرهای تصادفی و مشاهدات اولیه نیز بررسی خواهد شد. هر دو مدل از دیدگاه آمار بیزی بیان شده، مورد تحلیل قرار میگیرند. چون در این دو روش، توزیع پسین پارامترها به شکل بسته قابل حصول نیست، توزیعهای پسین شرطی کامل پارامترها محاسبه و از الگوریتم نمونهگیری گیبز برای استنباط استفاده میشود. برای مقایسۀ کارایی روشهای بیزی ارائهشده با روشهای متداول، مطالعۀ شبیهسازی انجام شده و در پایان نیز روش استفاده از مدلها در قالب مثال کاربردی شرح داده خواهد شد.
شهرستانی شهرام یعقوب زاده،
جلد 21، شماره 2 - ( 12-1395 )
چکیده
در این مقاله برآورد E-بیزی پارامترهای توزیع نمایی دوپارامتری تحت تابع زیان درجه دوم به دست میآید. سپس با استفاده از شبیهسازی مونتهکارلو برآورد E-بیزی پارامترها با برآوردهای بیزی مقایسه میشوند.
فتانه نظام پور، علیرضا سلیمانی،
جلد 22، شماره 1 - ( 9-1396 )
چکیده
در این مقاله برخی ویژگیهای خانوادۀ لوژستیکX- و عضوی از این خانواده، توزیع لوژستیک-نرمال، در جزئیات مورد مطالعه قرار گرفته است. میانگین انحرافات، تابع خطر و مد برای توزیع لوژستیک-نرمال بهدستآمده است. همچنین در این مقاله از روش درستنمایی ماکسیمم برای برآورد پارامترها و از یک مجموعهداده برای نشان دادن برنامههای کاربردی، توزیع لوژستیک-نرمال استفاده شده است.
بهمن حمیدیان، دکتر حسین باغیشنی،
جلد 22، شماره 1 - ( 9-1396 )
چکیده
تحلیل بیزی دادههای زمینآماری حجیم، با محاسبات ماتریسی سنگین و هزینهبر مواجه است. این محاسبات برای دادههای فضایی و فضایی-زمانی چندمتغیره با ساختارهای وابستگی پیچیده، سنگینتر نیز خواهند بود. این مسئله برای الگوریتمهای نمونهگیری MCMC که استفاده از آنها در تحلیل بیزی مدلهای فضایی معمول هستند، مشکلاتی جدی مانند سرعت کند و همگرایی زنجیر ایجاد میکند. برای فرار از چنین مشکلات محاسباتی، یک رهیافت جانشین، استفاده از مدلهای دونرتبه است که با کاهش فضای پارامتر و پرهیز از محاسبات ماتریسی سنگین، موجب میشود تا نرخ همگرایی الگوریتمهای MCMC و سرعت محاسبات بهبود یابد. در مدلهای دونرتبه، اطلاعات فضایی مکانهای مشاهدهشده در یک مجموعه از مکانهای کوچکتر خلاصه میشوند. این مجموعۀ کوچکتر به مجموعۀ گره معروف است. تعیین نقاط مجموعۀ گره و تعداد آنها بهطوری که برآورد ساختار وابستگی فضایی متناظرشان نمایشی واضح و کمخطا از ساختار وابستگی حاصل از همۀ دادهها باشد، یک جنبۀ پایهای و کلیدی در ساخت مدلهای دونرتبه محسوب میشود. طراحی نقاط مکانی و تعداد گرهها برای اجرای این کاهش بعد، هدف اصلی این مقاله است. برای نمایش عملکرد طرحهای مختلف در این رده از مدلها، دادههای کیفیت آب منطقۀ وسیعی از استان گلستان را در بازۀ زمانی سالهای 1382 تا 1392 مورد تحلیل قرار دادهایم.
دکتر فاطمه حسینی، دکتر امید کریمی، خانم عهدیه عزیزی،
جلد 23، شماره 1 - ( 6-1397 )
چکیده
اغلب در عمل دادههای مربوط به زمان مرگ و میر یک واحد زنده دارای همبستگی ناشی از موقعیت قرار گرفتن مشاهدات در فضای مورد مطالعه است.
یکی از موضوعات مهم در تحلیل این نوع از دادههای بقا با وابستگی فضایی، برآورد پارامترها و پیشگویی مقادیر نامعلوم در موقعیتهای مشخص بر اساس بردار مشاهدات است. در این مقاله، برای تحلیل این نوع از دادههای بقا، مدل رگرسیونی کاکس با تابع خطر بهصورت تکهای نمایی استفاده و وابستگی فضایی بهصورت یک میدان تصادفی گاوسی و یک متغیر پنهان به مدل اضافه میشود.
به دلیل عدم وجود صورت صریح برای توزیع پسین و توزیعهای شرطی کامل و طولانی بودن محاسبات با الگوریتمهای مونتهکارلوی زنجیر مارکوفی برای تحلیل این مدل از رهیافت بیزی تقریبی استفاده میشود.در یک مثال کاربردی نحوه پیادهسازی رهیافت بیزی تقریبی ارائه میشود.
فتانه نظامپور، علیرضا سلیمانی،
جلد 23، شماره 1 - ( 6-1397 )
چکیده
در این مقاله خانوادۀ بتا - X بهصورت کلّی و عضوی از این خانواده، توزیع بتا - نرمال، در جزئیات مورد مطالعه قرار گرفته است. از یک مجموعهداده واقعی برای نشان دادن کاربرد توزیع بتا - نرمال و همچنین مقایسۀ این توزیع با توزیعهای گاما - نرمال و بیرن بام سندرس، استفاده شده است.
علی اکبر راسخی،
جلد 23، شماره 2 - ( 12-1397 )
چکیده
نرمافزار WinBUGS یکی از نرمافزارهای معروف در آمار بیز محاسباتی است که میتوان با استفاده از آن بهسادگی مدلهای بیزی را به دادهها برازش داد.
با وجود اینکه توابع ریاضی و توزیعهای معروف آماری در این نرمافزار بهصورت تعریف شده وجود دارد، گاهی لازم میشود توابع و توزیعهای دیگری را در محاسبات وارد کرد.
این کار با ترفندهایی و بهطور غیرمستقیم انجام میشود. با استفاده از ابزار توسعۀ WinBUGS که WBDev نام دارد، میتوان توابع ریاضی و توزیعهای جدید را به این نرمافزار افزود و بهطور مستقیم از آنها استفاده کرد. این کار نوشتن کدهای مدل را سادهتر و محاسبات را سریعتر و کاراتر میسازد.
در این مقاله، روش و مراحل تعریف توابع و توزیعهای جدید همراه با مثالها شرح داده میشود.
علی شادرخ، شهرستانی شهرام یعقوب زاده،
جلد 24، شماره 1 - ( 6-1398 )
چکیده
در این مقاله برآوردهای E-بیزی و بیزی سلسله مراتبی پارامتر توزیع رایلی تحت تابع زیان درجۀ دوم و بر اساس نمونههای سانسور فزآیندۀ نوع دوم به دست آورده میشود و سپس با استفاده از روش شبیهسازی مونتهکارلو، این برآوردگرها با هم و با برآوردگر بیزی مقایسه میشوند.
شهرستانی شهرام یعقوب زاده،
جلد 24، شماره 1 - ( 6-1398 )
چکیده
در این مقاله، قابلیت اعتماد در مدل تنش-مقاومت چندمؤلفهای، وقتی که متغیرهای تنش و مقاومت دارای توزیعهای رایلی وارون با پارامترهای متفاوت alpha و beta هستند، به روشهای ماکسیمم درستنمایی، بیزی و بیزی تجربی برآورد میشود. سپس بهکمک شبیهسازی مونتهکارلو و دو مجموعهدادههای واقعی، این روشهای برآورد با هم مقایسه میشوند.
دکتر فاطمه حسینی، دکتر امید کریمی، خانم فاطمه حامدی،
جلد 24، شماره 1 - ( 6-1398 )
چکیده
مدلهای درختی یک روش جدید و ابتکاری را برای تحلیل مجموعهدادههای بزرگ بهوسیله تقسیمبندی فضای پیشبینی کنندهها به نواحی سادهتر به نمایش میگذارند. مدل رگرسیونی درختی جمعی بیزی، مدلی که در این مقاله به معرفی و توضیح آن میپردازیم، در ساختار خود از مدل جمع درختان استفاده میکند، زیرا ترکیب چند درخت از درخت تنها دقت بالاتری دارد. پس این مدل مبتنی بر درخت و جزء مدلهای ناپارامتری است و در واقع تعمیمی از روشهای ردهبندی و رگرسیون درختی است، که در ساختار این روشها درخت تصمیم وجود دارد. این روشها تحلیلی قدرتمند برای کشف ساختار دادهها هستند و کاربرد آنها در علوم پزشکی بسیار وسیع است.
در این روش، روی پارامترهای مدل جمع درختان پیشینهایی در نظر گرفته میشود و سپس با استفاده از الگوریتمهای کمکی به تحلیل میپردازد. در این مقاله ابتدا مختصراً مدل رگرسیونی درختی جمعی بیزی را معرفی کرده و سپس کاربرد آن را در تحلیل بقا با بررسی دادههای مربوط به بیماران سرطان ریه بیان میکنیم.
آقای حسن اسفندیاری فر، دکتر پرویز نصیری، خانم رقیه ماکویی،
جلد 24، شماره 2 - ( 12-1398 )
چکیده
در تجزیه و تحلیل متغیرهای برنولی، بررسی وابستگی بین آنها از اهمیت زیادی برخوردار است. در این مقاله با اعمال وابستگی مرتبه اول بین متغیرهای برنولی، توزیع سری لگاریتمی مارکف معرفی میشود. برای برآورد پارامترهای این توزیع از روشهای ماکسیمم درستنمایی، گشتاوری، بیزی و همچنین روش جدیدی موسوم به روش بیزی مورد انتظار (E- بیزی) استفاده میشود. در ادامه با استفاده از یک مطالعه شبیهسازی نشان دادهشده که برآوردگر بیزی مورد انتظار در مقایسه با برآوردگرهای دیگر بهتر عمل میکند.
شهرام یعقوب زاده شهرستانی، رضا زارعی،
جلد 25، شماره 1 - ( 11-1399 )
چکیده
هرگاه اطلاعاتی تقریبی و اولیه راجع به پارامتر نامعلوم یک توزیع در دسترس باشد، میتوان از روش برآورد انقباضی برای برآورد آن استفاده نمود. در این مقاله ابتدا برآورد E -بیز پارامتر توزیع رایلی معکوس تحت تابع زیان آنتروپی عمومی به دست آورده شده و سپس به کمک مقدار حدسی پارامتر توزیع رایلی معکوس، برآورد انقباضی آن ارائه شده است. همچنین با استفاده از شبیهسازی مونتکارلو و یک مجموعه داده واقعی، برآورد انقباضی پیشنهادی با برآوردهای نااریب با کمترین واریانس و E -بیز بر اساس معیار کارایی نسبی، مقایسه میشود.
دکتر فرزاد اسکندری، دکتر سیما نقی زاده اردبیلی، آقای سروش پاکنیت،
جلد 25، شماره 2 - ( 12-1399 )
چکیده
اینترنت اشیاء با دارا بودن قابلیت بسیار بالا برای بهرهور نمودن کسب و کارها در حوزههای مختلف از جمله صنایع بهعنوان انقلاب آتی در فناوری اطلاعات و ارتباطات معرفی شده است. این بهرهوری در زمینه بروز نوآوری و ارائه قابلیتهای نو برای کسب و کارها است. صنایع مختلف در خصوص اینترنت اشیاء واکنشهای مختلفی را نشان دادهاند اما آنچه واضح است این است که اینترنت اشیاء در تمامی کسب و کارها و صنایع دارای کاربرد است. این کاربردها در برخی صنایع مانند بهداشت و حوزه سلامت و یا حمل و نقل پیشرفت چشمگیری داشته اما در صنایع دیگر همچون کشاورزی و دامداری در حال توسعه است. در واقع تولید دادهها بر مبنای اینترنت اشیاء از ارکان اصلی در حوزه مه دادهها و علم دادهها خواهد بود. لذا استفاده از مفاهیم و مدلهای آماری که در علم دادهها مورداستفاده قرار میگیرند بهخوبی میتوانند در اینگونه دادهها مورداستفاده قرار گیرند. از جمله مدلهای آماری معتبر آمار بیزی برای مه دادهها است که مبنای استفاده در این پژوهش قرار گرفته است. در این پژوهش ضمن معرفی مفاهیم مهم و معتبر که در حوزه مه دادهها مورد استفاده قرار میگیرند بهطورخاص اصول آمار بیزی برای مه دادهها و بهطور مشخص برای دادههای حاصل از اینترنت اشیاء توضیح داده شده است. بهصورت کاربردی نیز در دو حوزه رفتار اجتماعی افراد برای علاقهمندی به استفاده از وسیله نقلیه و ترافیک شهری بررسی شده است که نتایج معتبری از نظر علمی و کار بردی در برداشته است
دکتر غلامرضا محتشمی برزادران،
جلد 25، شماره 2 - ( 12-1399 )
چکیده
توماس بیز ۱ بنیانگذار نگاه بیزی در سال ۱۷۱۹ وارد دانشگاه ادینبرو شد که در رشته منطق و الهیات
تحصیل کند. در بازگشت سال ۱۷۲۲ در کنار پدر خود در کلیسای کوچکی مشغول فعالیت شد. او همچنین
ریاضی دان بود و در سال ۱۷۴۰ کشف بدیعی را نمود که هرگز آنرا منتشر نکرد، اما دوست وی ریچارد پرایس
آن را پس از مرگ وی در سال ۱۷۶۱ در میان یادداشت های او یافت، مجدداً ویرایش کرد و آن را منتشر نمود
ولی تا زمان لاپلاس کسی بدان اهمیت نداد تا اواخر قرن ۱۸ میلادی که خصوصا در اروپا داده ها از قابلیت
اطمینان برابر برخوردار نبودند. پیر−سیمون لاپلاس، ریاضیدان جوان، به این باور رسید که نظریه احتمال کلید
را در دست دارد، و او به طور مستقل مکانیسم بیز را کشف کرد و در سال ۱۷۷۴ منتشر کرد. لاپلاس اصل
را نه با یک معادله بلکه با کلمات بیان کرد. امروزه آمار بیز به عنوان رشته ای از علم آمار از لحاظ فلسفی
و تعبیر احتمال بسیار پراهمیت است و به قضیه بیزکه پس از مرگ بیز ارائه شد معروف گشته است. آلن
تورینگ دانشمند علوم کامپیوتر، ریاضیدان و فیلسوف بریتانیایی است که امروزه به عنوان پدر علم کامپیوتر
و هوش مصنوعی شناخته می شود. دستاوردهای برجسته او در طول زندگی کوتاهش حاصل ماجراجویی هاییک ذهن زیبا است که در نهایت با مرگی مشکوک برای همیشه خاموش شد. در طول جنگ جهانی، تورینگ
در بلچلی پارک مرکز کد شکنی انگلستان مشغول و برای مدتی مسئول بخش مربوط به تحلیل نوشته های
رمزی نیروی دریایی آلمان بود. او چند روش و بطور خاص از نگاه بیزی بدون اینکه نامش را ببرد برای
شکستن رمزهای آلمان ها ابداع کرد، همینطور روش ماشینی الکترومکانیکی که می توانست ویژگی های ماشین
انیگما را پیدا کند نیز در زمره کارهای بزرگ وی می توان قلمداد کرد. آلن تورینگ دانشمندی پیشرو بود که
نقش مهمی در توسعه علوم کامپیوتری و هوش مصنوعی و احیای اندیشه بیزی ایفا کرد. تورینگ به کمک
آزمایش تورینگ سهم مؤثر و محرکی در زمینۀ هوش مصنوعی ارائه کرد. او سپس در آزمایشگاه ملی فیزیک
در انگلستان مشغول به کار شد، و یکی از طرح های اولیه برنامه ذخیره شده کامپیوتر را ارائه کرد، هرچند که
کار کند، که به عنوان « منچستر مارک ۱ » در واقع ساخته نشد. در ۱۹۴۸ به دانشگاه منچستر رفت تا روی
اولین کامپیوتر حقیقی دنیا شناخته شد. در هر حال بعدها نقش قاعده و قانون بیز در تحولات علمی روزبروز
اهمیت آن آشکارتر میشود. وبسیاری روشهای احتمالی بیزی در قرن بیست و یک پیشرفت های مهمی رادر
تبیین و به کار گیری آمار بیزی در توسعه غلمی رقم زده است و معضلات زیادی از دنیا را حل و فصل کرده
است تکنولوژی نوین جهانی در گرو اندیشه های بیزی رشد کرده که در این مقاله مروری بر این نگاه خواهد گردید .
زهرا احمدیان، فرزاد اسکندری،
جلد 28، شماره 1 - ( 6-1402 )
چکیده
امروزه تشخیص بیماریها با استفاده از هوش مصنوعی و الگوریتمهای یادگیری ماشین از اهمیت بسیار بالایی برخوردار است، چرا که با استفاده از دادههای موجود در زمینه مطالعاتی بیماری مورد نظر میتوان به اطلاعات و نتایج سودمندی دست یافت که از رخداد بسیاری از مرگ ومیرها میکاهد. از جمله این بیماریها میتوان به تشخیص بیماری دیابت که امروزه با توجه به رشد زندگی شهرنشینی و کاهش فعالیت افراد گسترش یافته است، اشاره کرد. پس تشخیص این موضوع که فرد به بیماری دیابت مبتلا میگردد یا خیر از اهمیت بسیار بالایی برخوردار است. در این مقاله از مجموعه داده مربوط به اطلاعات افرادی که آزمایش تشخیص دیابت را انجام دادهاند استفاده شده است. این اطلاعات مربوط به 520 نفر است،
عمل ردهبندی افراد به دو دسته که آیا نتیجه آزمایش دیابتشان مثبت است یا خیر صورت میگیرد و از روشهای ردهبند بیزی مانند ماشین بردار پشتیبان بیزی، بیز ساده، CN$ و روش ردهبند ترکیبی کتبوست استفاده شده است تا بتوان نتیجه گرفت که کدام یک از این روشها میتوانند توانمندی بهتری برای تحلیل دادهها داشته باشند و همچنین برای مقایسه این روشها از معیارهای دقت، صحت، وضوح، حساسیت و نمودار راک استفاده شده است.
شهرستانی شهرام یعقوب زاده شهرستانی، امراله جعفری،
جلد 28، شماره 1 - ( 6-1402 )
چکیده
در این مقاله مدل صفبندی $M/M/1$ که در آن زمانهای بین دو ورود متوالی مشتریها دارای توزیع نمایی با پارامتر $lambda$ و زمانهای سرویس دارای توزیع نمایی با پارامتر $mu$ و مستقل از زمانهای بین ورودهای متوالی هستند، در نظر گرفته میشود. همچنین فرض میشود که سیستم تا زمان $T$ فعال است. سپس تحت این زمان توقف $(T)$، برآوردهای بیز، $E$-بیز و بیز سلسله مراتبی پارامتر شدت ترافیک این مدل صفبندی، تحت تابع زیان آنتروپی عمومی و با در نظر گرفتن توزیعهای پیشین گاما و ارلانگ به ترتیب برای پارامترهای $lambda$ و $mu$ به دست آورده میشود. سپس به کمک تحلیل عددی و بر اساس شاخصی جدید بر حسب احتمال پایایی و تابع هزینه، روشهای برآورد بیز، $E$-بیز و بیز سلسله مراتبی با هم مقایسه میشوند.
دکتر اکرم کهن سال، خانم عاطفه کرمی،
جلد 28، شماره 1 - ( 6-1402 )
چکیده
استنباط آماری پارامتر تنش-مقاومت چند مولفهای،
، در یک توزیع وایبول سه پارامتری بررسی میشود. مسئله در دو حالت مختلف مورد مطالعه قرار میگیرد. در حالت اول، با فرض اینکه متغیرهای تنش و مقاومت هر دو دارای پارامتر شکل و مکان مشترک و پارامترهای مقیاس غیرمشترک هستند و تمام این پارامترها نامعلومند، برآورد درستنمائی ماکسیمم و برآورد بیزی پارامتر
بررسی میشود. در این حالت، از آنجائیکه برآورد بیزی دارای فرم بسته نمیباشد، با دو روش لیندلی و
تقریب زده میشود. همچنین فواصل اطمینان مجانبی به دست آمده است. در حالت دوم، با فرض اینکه متغیرهای تنش و مقاومت دارای پارامتر شکل و مکان مشترک معلوم و پارامترهای مقیاس غیرمشترک و نامعلوم هستند، برآورد درستنمائی ماکسیمم، برآورد نااریب با واریانس به طور یکنواخت مینیمم، برآورد دقیق بیزی پارامتر
و نیز فاصله اطمینان مجانبی محاسبه میشود. در نهایت، با استفاده از شبیه سازی مونت کارلو، عملکرد برآوردگرهای مختلف با هم مقایسه شده اند.
دکتر ناهید سنجری فارسی پور، دکتر بهرام طارمی، خانم زهرا معمار کاشانی،
جلد 28، شماره 2 - ( 12-1402 )
چکیده
مارشال و اولکین خانواده ای از توزیع ها را معرفی کردند که با اضافه کردن یک پارامتر به توزیع های دیگر بدست می آید. سانتوز-نتو و همکاران مطالعه روی خانواده ی توزیع های تعمیم یافته وایبول را انجام دادند. در این مقاله دو توزیع ریلی و پارتو تعمیم یافته وایبول مورد مطالعه قرار گرفته, مطالب گوناگون مانند گشتاورها و آمار بیزی تحت تابع زیان های مختلفی از جمله مربع خطا, آنتروپی, لاینکس, مربع خطا در لگاریتم و لاینکس اصلاح شده را مورد بحث قرار داده ایم. همچنین روش زنجیره مارکف مونت کارلو(mcmc) برای این دو توزیع قرار گرفته اند.
دکتر مهدیه بیاتی،
جلد 28، شماره 2 - ( 12-1402 )
چکیده
ما در عصر اطلاعات زندگی می کنیم و همواره در حال درک و دریافت دادههای زیادی از دنیای اطراف خود هستیم که برای استفاده از این اطلاعات لازم است آنها را به کمک آمار و بهصورت ریاضی بیان کنیم. آمار در همهی زمینهها نقش موثری ایفا میکند. یکی از مواردی که جدیدا مورد توجه قرار گرفته و از فنون آماری کمک میگیرد، متن کاوی است. متن کاوی یک روش تحقیقی برای شناسایی الگوهای موجود در متون است که میتواند نوشتاری، گفتاری و یا تصویری باشد. متن کاوی بسیار گسترده است همانند طبقه بندی متون، خوشهبندی متون، وبکاوی و عقیده کاوی و .... تکنیکهای متن کاوی بهکار گرفته میشود تا مقادیر عددی را برای یک متن تعیین کند. از آنجا که اساس کار با داده، دارا بودن علم آمار است. پس با استفاده از ابزارهای آماری به تحلیل متن می پردازند همانند پیش بینی افزایش یا کاهش قیمت دلار یا سهام با استفاده از اطلاعات متنی امروز. بهکارگیری روشهای آماری می تواند حقایق موجود در متن را کشف، تائید و یا رد کند. امروزه این مبحث در یادگیری ماشین بسیار پر کاربرد است. در این مقاله سعی کردیم تا آشنایی ابتدایی با ابزارهای آماری در روش متن کاوی داشته باشیم و از این ابزار قدرتمند برای تحلیل وقایع استفاده کنیم.