36 نتیجه برای رگرسیون
جواد احمدی، فریبرز حیدری،
جلد 23، شماره 2 - ( 12-1397 )
چکیده
یک نوار اطمینان، همزمان اطلاعات مفیدی در محدودۀ قابل قبولی از مدل رگرسیونی مجهول ارائه میدهد و نوارهای اطمینان متفاوت اغلب میتوانند برای مدل رگرسیونی یکسان ساخته شوند. برای یک خط رگرسیون ساده، لیووهایتر(2007) کاربرد سطح مجموعۀ اطمینان متناظر با یک نوار اطمینان را بهعنوان یک معیار بهینگی در مقایسۀ نوارهای اطمینان پیشنهاد کردند؛ هرچه سطح مجموعۀ اطمینان کوچکتر باشد، نوار اطمینان متناظر بهتر است. در مطالعۀ نوارهای اطمینان برای یک مدل رگرسیونی خطی چندگانه، این معیار مجموعۀ اطمینان با سطح مینیمم را میتوان به یک معیار مجموعۀ اطمینان با حجم مینیمم تعمیم داد.
در این مقاله نوارهای اطمینان هذلولوی و نوارهای اطمینان با پهنای ثابت برای یک مدل رگرسیونی خطی چند گانه روی یک ناحیۀ بیضیواری خاصی از متغیرهای پیشگوی تحت معیار مقایسه میشوند. مشاهده میشود که بهتر بودن یک نوار نسبت به نوار دیگر به مقدار یک زاویۀ خاص بستگی دارد که اندازۀ ناحیه متغیر پیشگو را تعیین میکند. زمانیکه این زاویه و در نتیجه اندازۀ ناحیه متغیر پیشگو کوچک باشد، نوار اطمینان با پهنای ثابت بهتر از نوار اطمینان هذلولوی است اما فقط بهطور حاشیهای. وقتی که این زاویه و در نتیجه اندازۀ ناحیه متغیر پیشگو بزرگ است، نوار اطمینان هذلولوی میتواند بهطور کلّی بهتر از نوار اطمینان با پهنای ثابت باشد.
خانم اعظم راستین، دکتر محمدرضا فریدروحانی، دکتر امیرعباس مومنان، دکتر فاطمه اسکندری، دکتر داود خلیلی،
جلد 23، شماره 2 - ( 12-1397 )
چکیده
بیماریهای قلبی-عروقی شایعترین علت مرگ و میر در سراسر جهان است. از سوی دیگر برای تعیین یک مدل بقای مناسب بهمنظور پیشگویی خطر بروز بیماریهای قلبی و شناسایی عوامل خطرساز مهم در بروز این بیماریها باید شکل تابعی که زمان بقا و عوامل خطرساز را به هم مرتبط سازد را مشخص کرد. در این مطالعه یک روش کاهش بعد بسنده با استفاده از یک مدل کلّی که مدلهای بقای متداول را بهعنوان موارد خاص شامل میشود، بهمنظور پیشگویی خطر بروز بیماریهای قلبی پیشنهاد شده است.
روشهای کاهش بعد بسنده مبتنی بر رگرسیون وارون که با مدل خطرهای متناسب کاکس ترکیب شده، در مجموع یک عملکرد پیشگویانۀ خوبی برای بقای آینده افراد دارد.
سیده منا احسانی جوکندان، بهروز فتحی واجارگاه،
جلد 24، شماره 2 - ( 12-1398 )
چکیده
در این مقاله تفاوت میان رگرسیون کلاسیک و رگرسیون فازی مورد بحث و بررسی قرار گرفته است. در رگرسیون فازی دادههای غیرفازی و فازی را میتوان برای مدلبندی استفاده کرد. در حالی که در رگرسیون کلاسیک فقط از دادههای غیرفازی استفاده میشود. هدف بررسی روش رگرسیون امکانی، روش رگرسیون کمترین مربعات مبتنی بر رگرسیون امکانی و روش هیبرید رگرسیون خطی کمترین مربعات بر اساس حساب فازی وزنی برای ورودی غیرفازی و خروجی فازی با استفاده از اعداد فازی مثلثی متقارن میباشد و در ادامه اندازه قابلیت اطمینان، فاصله اطمینان و معیار نیکویی برازش برای انتخاب مدل بهینه ارائه شده است. در آخر با ارائه مثالهایی رفتار روشهای مطرح شده را مورد بررسی قرار داده و بهینگی مدل هیبرید رگرسیون کمترین مربعات خطی فازی نشان داده میشود.
اکرم حیدری گرمیانکی، مهرداد نیاپرست،
جلد 24، شماره 2 - ( 12-1398 )
چکیده
در عصر حاضر دستهبندی دادهها بهمنظور تشخیص و پیشبینی وقایع، یکی از موضوعات بسیار مهم در علوم مختلف است. در علم آمار دیدگاه سنتی این کلاسبندیها براساس روشهای کلاسیک و بر پایه مدلهای آماری از جمله رگرسیون لژستیک امکان پذیر خواهد بود. در عصر حاضر که بهعبارتی عصر انفجار اطلاعات نامیده میشود، در اکثر موارد با دادههایی مواجه هستیم که نمیتوان توزیع دقیقی را برای آنها یافت؛ از اینرو استفاده از روشهای داده کاوی و یادگیری ماشین که به مدلهای از پیش تعیین شده نیاز ندارند، میتواند مسمر ثمر باشد. در بسیاری از کشورها تشخیص دقیق نوع منابع آبهای زیر زمینی، یکی از مسائل قابل توجه در زمینه علوم آب است. در این مقاله به مقایسه نتایج حاصل از ردهبندی یک مجموعه داده مربوط به منابع آبهای زیرزمینی با استفاده از روشهای رگرسیونی، شبکه عصبی و ماشین بردار پشتیبان پرداختهایم. نتایج از این کلاسبندیها نشان داد که روشهای یادگیری ماشین در تشخیص دقیق نوع چشمهها موثر بوده است.
خانم سمیه گله، دکتر روح الله روزگار،
جلد 24، شماره 2 - ( 12-1398 )
چکیده
روش کمترین واگرایی توان چگالی یک برآورد استوار در مواجهه با موقعیتهایی که دادهها شامل تعدادی داده پرت هستند ارائه میدهد. در این پژوهش به معرفی و استفاده از برآوردگر استوار کمترین واگرایی توان چگالی برای برآورد پارامترهای مدل رگرسیون خطی پرداخته و در ادامه با چند مثال عددی از رگرسیون خطی، استواری این برآوردگر را در مواجهه با مجموعه دادههایی که شامل تعدادی داده پرت هستند نشان میدهیم.
خانم فاطمه پاپی، آقای پرویز ملک زاده، دکتر فاطمه حسینی،
جلد 24، شماره 2 - ( 12-1398 )
چکیده
گاهی در عمل دادهها به صورت تابعی از یک متغیر دیگر هستند که به این نوع دادهها، دادههای تابعی گفته میشود. اگر متغیر پاسخ اسکالر و به صورت رستهای یا گسسته باشد و متغیرهای کمکی به صورت تابعی، آنگاه برای تحلیل این نوع دادهها از مدل خطی تابعی تعمیمیافته استفاده میشود.
در این مقاله یک مدل بریدهشده خطی تابعی تعمیمیافته بررسی و برای به دست آوردن برآورد پارامترهای مدل از یک رهیافت ماکسیمم درستنمایی استفاده میشود. درنهایت در یک مطالعه شبیهسازی و دو مثال کاربردی مدل و روشهای ارائهشده پیادهسازی میشوند.
زهرا اسلامی، مینا نوروزی راد، محمد آرشی،
جلد 25، شماره 1 - ( 11-1399 )
چکیده
در تجزیه و تحلیل دادههای بقای سانسورشده، مدلهای رگرسیونی کاکس از اهمیت ویژهای برخوردار هستند. با افزایش متغیرها در یک مدل، به منظور دستیابی به مدلهای کاراتر، میتوان از روشهای تاوانیده استفاده کرد. در این مقاله، به مروری بر مدل رگرسیون کاکس تاوانیده برای برخی از توابع تاوان معروف پرداخته شده است. همچنین، مجموعه دادههای پزشکی mgus2 بررسی شده و نشان داده شده که مدلهای تاوانیده بهتر از رگرسیون کاکس به این دادهها برازش میشود که تاوان لاسو، بهترین عملکرد را برای این دادهها دارد.
علیرضا رضایی، مجتبی گنجعلی، احسان بهرامی،
جلد 25، شماره 1 - ( 11-1399 )
چکیده
بیپاسخی در آمارگیریها منبعی برای بروز خطا در نتایج آمارگیری است و سازمانهای ملی آماری همواره به دنبال راهکارهایی برای کنترل و کاهش آن هستند. پیشبینی واحدهای نمونهگیری بیپاسخ در آمارگیری قبل از اجرای آمارگیری از جمله راهکارهایی است که میتواند کمک زیادی به کاهش و مرتفع نمودن مشکل بیپاسخی آمارگیری داشته باشد. با توسعههای اخیر فناوری و تسهیل در محاسبات پیچیده امکان به کارگیری روشهای یادگیری آماری، مانند درختهای رگرسیون و ردهبندی یا ماشین بردار پشتیبان در بسیاری از مسائل از جمله پیشبینی بیپاسخی واحدهای نمونهگیری در آمارگیریها فراهم شده است. در این مقاله ضمن مرور کلی روشهای فوق، واحدهای نمونهگیری بیپاسخ در یک آمارگیری کارگاهی با استفاده از آنها پیشبینی شده و نشان داده میشود ترکیب روشهای فوق دارای دقت بیشتری در پیشبینی درست بیپاسخی نسبت به هر کدام از روشهای تکی است.
احسان بهرامی سامانی، سمیرا بهرامیان،
جلد 26، شماره 1 - ( 9-1400 )
چکیده
رخداد دادههای طول عمر مسالهای است که معمولا در تحقیقهای گوناگون شامل آمارگیریها، آزمایشهای کلینیکی و مطالعات اپیدمیولوژی روی میدهد. اخیرا تحقیقهای نظری وسیعی در حوزهی تحلیل دادههای طول عمر انجام شده است. با این حال، از آنجایی که معمولا اطلاعات کمی بر اساس دادهها برای برآورد صحیح پارامترهای مدل موجود است؛ استنباطها ممکن نسبت به فرضهای غیر قابل آزمون حساس باشند که نیاز به انجام یک تحلیل حساسیت را گوشزد مینماید. در این مقاله، ما نحوه ارزیابیکردن اثر پریشیدگی پاسخهای رگرسیونی لگ – بتا وایبل را بیان میکنیم. همچنین کاربرد و تفسیر روشهای تحلیل تاثیر با استفاده از تحلیل داده های سانسور شده، مرور و تعمیم داده می شود. یک شیوه درستنمایی – مبنا که منجر به برآوردههای ماکسیمم درستنمایی برای پارامترهای مدل میگردد، مورد استفاده قرار می گیرد. به منظور ارزیابی عملکرد شاخصهای معرفی شده در کشف حساسیت پارامترهای کلیدی مدل، چندین مطالعه شبیه سازی انجام گرفته است. ما به وسیله تحلیل کردن دادههای سرطان، روش های بیان شده را تشریح میکنیم.
مهسا مرکانی، منیژه صانعی طبس، حبیب نادری، حامد احمد زاده، جواد جمالزاده،
جلد 26، شماره 2 - ( 12-1400 )
چکیده
هنگام کار با یک مجموعه داده رگرسیونی ممکن است برخی شرایط برقرار نباشند و محدودیتهایی برای اجرای مدل رگرسیون به وجود آیند. روش آنتروپی تعمیمیافته ماکسیمم قادر است پارامترهای مدل رگرسیونی را بدون اعمال هیچ شرطی روی توزیع احتمال خطاها برآورد کند. این روش حتی در مواردی که حجم نمونه خیلی کم است و یا بین متغیرهای مستقل، همخطی بالایی وجود داشته باشد قادر به برآورد پارامترهای مدل است و لذا روشی توانمندی است. در این پژوهش قصد بر آن است پارامترهای مدل لجستیک دودویی با بهکارگیری آنتروپی تعمیمیافته ماکسیمم (GME) برآورد شود و نتایج آن با روش ماکسیمم درستنمایی (ML) براساس معیار میانگین مربعات خطا(MSE) مقایسه شود. بدینمنظور نمونهای تصادفی به حجم 399 نفر از اطلاعات مشتریان بانک مانند سن، شغل، وضعیت تأهل، میزان تحصیلات و وام بهعنوان متغیرهای مستقل و تقاضای مشتری برای افتتاح حساب مدّتدار بهعنوان متغیر وابسته جمعآوری شد. درنهایت با توجه به مقدار MSE نتیجه گرفته شد که روش GME نسبت به روش ML دقیقتر است.
دکتر مهدی روزبه، آقای آرتا روحی، خانم فاطمه جهادی، دکتر سعید زالزاده،
جلد 26، شماره 2 - ( 12-1400 )
چکیده
در این تحقیق، هدف بررسی و تحلیل روشی برای پیشبینی قیمت سهام بورس اوراق بهادار است. هرچند پیشبینی بازار سرمایه با توجه به وابستگی آن به عامل سیاست چندان ساده نیست،
اما با مدلسازی دادهها، پیشبینی عملکرد سهام بورس اوراق بهادار در بازه بلندمدت تا حدودی امکانپذیر خواهد بود. در این راستا با استفاده از مدلهای رگرسیون نیمپارامتری و رگرسیون بردار تکیهگاه
با هستههای مختلف و اندازهگیری خطاهای پیشبین، بر روی یکی از سهمهای بازار بورس اوراق بهادار بر اساس نوسانهای روزانه و مقایسه روشها با استفاده از معیارهای ریشه میانگین توان دوم خطاها
و میانگین قدرمطلق درصد خطاها، مدل رگرسیون بردار تکیهگاه با هسته شعاعی و خطای برابر 0.1
دارای مناسبترین برازش روی دادههای واقعی بازار سهام بوده است.
دکتر مجید جعفری خالدی، آقا حسن میرزاوند،
جلد 26، شماره 2 - ( 12-1400 )
چکیده
برای استنباط آماری در مورد پارامترهای مدل رگرسیونی نیاز به فرض توزیع مشخصی بر روی عبارت خطای تصادفی میباشد. یک فرض اساسی در مدل رگرسیون خطی این است که عبارت خطای تصادفی از یک توزیع نرمال پیروی کند. با این حال، در پژوهشهای آماری گاهی با دادههایی مواجه میشویم که توزیع آنها چولگی و دو مدی را ارائه میدهند، و دیگر نمیتوان از فرض توزیع نرمال برای تحلیل آنها استفاده کرد. یک رویکرد مرسوم برای حل این مسئله به کارگیری آمیختهای از مدلهای چوله نرمال است. اما در این گونه مدلها تعداد پارامترها به نحو فزایندهای افزایش مییابد که این خود برازش مدلها به دادهها را دشوار مینماید. بعلاوه مدلهای آمیخته خود درگیر مسائلی مانند شناساناپذیری هستند.
در این حالت یک راهحل مناسب استفاده از توزیعهای منعطفی است، که بتوانند چولگی و دو مدی بودن دادهها را در مدل بندی لحاظ کنند. تاکنون روشهای مختلفی ارائه شده که بر مبنای توسعه توزیع چولهنرمال، توزیعهای دو مدی نامتقارن ایجاد شدهاند. در این مقاله از این روشها برای ساخت و معرفی مدل رگرسیونی منعطف نسبت به مدلهای رگرسیون مبتنی بر توزیع چولهنرمال و آمیختهای از دو توزیع چولهنرمال استفاده شده و با بکارگیری مثال شبیه سازی عملکرد آنها مورد بررسی قرار میگیرد. سپس نحوه کاربست آنها در یک مثال کاربردی مربوط به مجموعه دادههای اسب دوانی نشان داده میشود.
آقای آرتا روحی، خانم فاطمه جهادی، دکتر مهدی روزبه،
جلد 27، شماره 1 - ( 12-1401 )
چکیده
مشهورترین تکنیک تحلیل دادههای تابعی رویکرد مؤلفۀهای اصلی تابعی است که ابزاری مهم برای کاهش بعد نیز است. رگرسیون بردار پشتیبان شاخهای از یادگیری ماشین و ابزار قدرتمندی برای تحلیل داده است. در این مقاله با استفاده از رگرسیون مؤلفۀ اصلی تابعی براساس تاوانهای مشتق دوم، ریج و لاسو و با توجه به رگرسیون بردار پشتیبان با چهار هستۀ (خطی، چند جملهای، سیگمویید و شعاعی) در دادههای طیف سنجی به مدلسازی متغیر وابسته روی متغیرهای پیشبین پرداخته شده است. بر اساس نتایج بدست آمده طبق معیارهای نیکویی برازش پیشنهادی، مدل رگرسیون بردار پشتبان با هستۀ خطی و خطای بهینه شده $0.2$مناسبترین برازش را به دادهها داشته است.
خانم زهرا جعفریان مورکانی، دکتر حیدرعلی مردانی فرد،
جلد 27، شماره 1 - ( 12-1401 )
چکیده
در رگرسیون خطی معمول، مدل به صورت $Y=Xbeta+varepsilon$ است و برآورد پارامتر $beta$ عبارتست از: $hatbeta=(X'X)^{-1}X'Y$ است. با این حال در هنگام استفاده از این برآوردگر به صورت عملی، ممکن است مشکلات خاصی مانند مشکل انتخاب متغیر، هم خطی، مدل با ابعاد بالا، کاهش بعد، وجود خطای اندازهگیری بوجود آید که استفاده از برآوردگر بالا را مشکل می سازد. در اغلب این مشکلات، مساله اصلی عدم معکوس پذیری ماتریس $X'X$ است. برای رفع آن ها راه حلهای متعددی ارایه شده است. در این مقاله ضمن مروری بر این مشکلات، مجموعه ای از راه حل های معمول و متداول و همچنین چند روش خاص و پیشرفته (که کمتر مورد اقبال همگان است ولی با این حال توانایی بالقوه ای در رفع هوشمند این مشکلات دارند) برای رفع آن ها را بررسی می کنیم.
دکتر مهدی روزبه، آقای آرتا روحی، خانم فاطمه جهادی،
جلد 27، شماره 2 - ( 12-1401 )
چکیده
تحلیل دادههای تابعی برای توسعه رویکردهای آماری در دادههایی مورد استفاده قرار میگیرد که دارای ماهیت تابعی و پیوسته هستند و چون این توابع به فضاهای با بعد بینهایت تعلق دارند، استفاده از روشهای متداول در آمار کلاسیک برای تحلیل آنها، با چالش روبرو است.
مشهورترین تکنیک تحلیل دادههای آماری، رویکرد مولفههای اصلی تابعی میباشد که ابزاری مهم برای کاهش بعد است،
در این مقاله با استفاده از روش
رگرسیون مولفه اصلی تابعی براساس جریمه مشتق دوم، ریج و لاسو
به تحلیل دادههای تابعی آب و هوای کانادا و دادههای تابعی طیفسنج پرداخته خواهد شد. بدین منظور برای تعیین مقدار بهینه پارامتر جریمه در روشهای مورد استفاده از اعتبار سنجی متقابل تعمیم یافته، که معیاری معتبر و کارآمد است، استفاده میگردد.
سید روح الله روزگار، امیر رضا محمودی،
جلد 27، شماره 2 - ( 12-1401 )
چکیده
بسیاری از روشهای برآوردیابیِ رگرسیونی در مواجه با دادههای پرت به شدت تحت تأثیر قرار میگیرند و خطاهای زیادی در برآوردهای حاصل از آنها رخ میدهد. در سالهای اخیر، برای حل این مشکل روشهای توانمندی توسعه یافته اند. برآوردگر حداقل واگرایی توان چگالی یک روش برآورد بر مبنای حداقل فاصله بین دو تابع چگالی است که این روش، برآورد توانمندی در مواجه با موقعیتهایی که دادهها شامل تعدادی داده پرت هستند ارائه میدهد. در این پژوهش، روش برآوردگر توانمند حداقل واگرایی توان چگالی را برای برآورد پارامترهای مدل رگرسیون پواسون ارائه می کنیم که میتواند برآوردگرهای توانمند با کمترین نقصان در کارایی تولید کند. همچنین عملکرد برآوردگرهای پیشنهادی را از طریق ارائه مثال واقعی مورد بررسی قرار خواهیم داد.
دکتر منیژه صانعی طبس،
جلد 27، شماره 2 - ( 12-1401 )
چکیده
تحلیل رگرسیون به روش کمترین توان های دوم مستلزم برقراری فرضیات زیربنایی است. یکی از مسائلی که تحلیل رگرسیون به این روش را با مشکلات عمده مواجه می سازد وجود هم خطی در بین متغیرهای رگرسیونی است. روش های زیادی برای حل مشکلات ناشی از وجود هم خطی معرفی شده اند. یکی از این روش ها رگرسیون ستیغی است. در این مقاله یک برآورد جدید برای پارامتر ستیغی به کمک ماکسیمم آنتروپی تی سالیس تعمیم یافته ارائه داده وآن را برآوردگر ریج ماکسیمم آنتروپی تی سالیس مرتبه دو تعمیم یافته می نامیم. برای مجموعه داده های سیمان پرتلند که از هم خطی قوی برخوردار هستند و از سال ۱۳۳۲ ، برآوردگرهای مختلفی برای این داده ها ارائه شده است این برآورد گر را محاسبه و با برآوردگر ستیغی ماکسیمم آنتروپی تعمیم یافته و برآوردگر کمترین توان های دوم مقایسه می کنیم.
دکتر احسان بهرامی سامانی، خانم کیانا جاویدی انارکی، دکتر سعید عظمتی،
جلد 28، شماره 1 - ( 6-1402 )
چکیده
باتوجه به محدود بودن منابع انرژی درجهان، بهینهسازی انرژی امری حیاتی است. بخش زیادی از این انرژی توسط ساختمانها مصرف میشود. بنابراین هدف از این پژوهش کشف عوامل موثر به طورهمزمان بر بارگرمایشی و سرمایشی ساختمانها است. در پژوهش حاضر بر روی 768 ساختمان مسکونی متنوع شبیهسازی شده با نرم افزار Ecotect، بررسی و تحقیق انجام شده است. از مدل رگرسیون همزمان و روشهای تحلیل اکتشافی دادهها برای شناسایی عوامل موثر به طور همزمان بر بارگرمایشی و سرمایشی ساختمانها استفاده شده و براساس متغیرهای فشردگی نسبی، ارتفاع، مساحت سطح و سقف ساختمانها متغیر جدیدی تحت عنوان type (مدل ساختمان) معرفی و نشان داده شد که یکی از قویترین عوامل موثر بر بارگرمایشی و سرمایشی ساختمانها متغیر type (مدل ساختمان) است. این متغیر مرتبط با شکل ساختمان است. در مدل رگرسیون همزمان فرض میشود که پاسخها از توزیع نرمال چندمتغیره پیروی میکنند. سپس این مدل را با مدلهای رگرسیون جدا از هم (بدون فرض همبستگی پاسخها) مقایسه کرده و طبق معیارهای اطلاع آکائیکه و معیار اطلاع انحراف به برتری مدل رگرسیون همزمان اشاره شده است. پارامترهای دو مدل توسط روش ماکسیمم درستنمایی برآورد شده است و مقدار اطلاع آکائیکه مدل همزمان نسبت به مدل جدا از هم، کاهش 0072/0% داشته است که برتری مدل همزمان را نشان داده است. همچنین میزان اطلاع انحراف برابر با 001736/0% شده است و در مقایسه با توزیع کای منجر به رد فرض صفر آزمون برتری مدلها شده است که منجر به برتری مدل رگرسیون همزمان میشود.
مریم مالکی، دکتر حمید رضا نیلی ثانی، دکتر محمد قاسم اکبری،
جلد 28، شماره 2 - ( 12-1402 )
چکیده
در این مقاله، مدل های رگرسیونی لوژستیک که در آن متغیرهای پاسخ به صورت دو (یا چند) ارزشی و متغیرهای توضیحی (پیشگو یا مستقل) متغیرهای معمولی هستند اما خطاها علاوه بر ماهیتی تصادفی، ماهیتی ابهامی، نیز دارند، مورد مطالعه قرار می گیرند. بر این اساس مدل پیشنهادی را صورت بندی کرده و برآورد ضرایب را برای حالتی با تنها یک متغیر توضیحی و با استفاده از روش کمترین توانهای دوم تعیین می کنیم. در پایان با یک مثال به تشریح نتایج حاصله می پردازیم
دکتر مهدیه بیاتی،
جلد 28، شماره 2 - ( 12-1402 )
چکیده
ما در عصر اطلاعات زندگی می کنیم و همواره در حال درک و دریافت دادههای زیادی از دنیای اطراف خود هستیم که برای استفاده از این اطلاعات لازم است آنها را به کمک آمار و بهصورت ریاضی بیان کنیم. آمار در همهی زمینهها نقش موثری ایفا میکند. یکی از مواردی که جدیدا مورد توجه قرار گرفته و از فنون آماری کمک میگیرد، متن کاوی است. متن کاوی یک روش تحقیقی برای شناسایی الگوهای موجود در متون است که میتواند نوشتاری، گفتاری و یا تصویری باشد. متن کاوی بسیار گسترده است همانند طبقه بندی متون، خوشهبندی متون، وبکاوی و عقیده کاوی و .... تکنیکهای متن کاوی بهکار گرفته میشود تا مقادیر عددی را برای یک متن تعیین کند. از آنجا که اساس کار با داده، دارا بودن علم آمار است. پس با استفاده از ابزارهای آماری به تحلیل متن می پردازند همانند پیش بینی افزایش یا کاهش قیمت دلار یا سهام با استفاده از اطلاعات متنی امروز. بهکارگیری روشهای آماری می تواند حقایق موجود در متن را کشف، تائید و یا رد کند. امروزه این مبحث در یادگیری ماشین بسیار پر کاربرد است. در این مقاله سعی کردیم تا آشنایی ابتدایی با ابزارهای آماری در روش متن کاوی داشته باشیم و از این ابزار قدرتمند برای تحلیل وقایع استفاده کنیم.