یادگیری شبکه‌های LSTM

اگه تازه دارید شبکه‌های LSTM یا همون Long Short-Term Memory ها رو یاد می‌گیرید، یکی از منابعی که خیلی از افراد و سایت‌های معتبر تو زمینه شبکه‌های عصبی پیشنهاد می‌کنن بخونید نوشتهِ وبلاگ آقای Colah هستش که به بهترین نحو توضیح دادن این مطلب رو.

اینجا من سعی کردم به زبون ساده نوشتهِ ایشون رو ترجمه کنم.

برای خوندن این نوشتهِ به زبان اصلی می‌تونید به آدرس وبلاگ ایشون مراجعه کنید یا برای خوندن ادامه ترجمه، روی دکمه «ادامه مطلب» کلیک کنید:

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

شبکه‌های عصبی بازگشتی (RNN)

در مورد نحوه فکر کردن انسان‌ها می‌شه گفت اینجوری نیست که هر ثانیه ریست بشن و روند فکر کردن از اول شروع بشه. در همین لحظه که دارید این مطلب رو می‌خونید شما معنی هر کلمه رو با توجه به دانشی که از خوندن کلمه‌های قبلی کسب کردید متوجه می‌شید. به عبارتی شما موقع خوندن یک متن، درک و فهمی رو که در مورد اون متن با توجه به خوندن کلمات قبل کسب کردید دور نمی‌ریزید بلکه به صورت پیوسته با خوندن هر کلمه جدید، نسبت به اون متنی که دارید می‌خونید درک و فهم پیدا می‌کنید و به عبارتی معنی اون متن رو متوجه می‌شید.

شبکه‌های عصبی متداولی که تاکنون متخصصان یادگیری ماشین از اون‌ها استفاده می‌کردن نمی‌تونستن به این صورت شبیه انسان عمل کنند و این یک نقصان بزرگ برای این شبکه‌ها محسوب می‌شه. برای مثال فرض کنید مدلی که شما ساختید قرار است مشخص کند در هر لحظه از فیلم چه اتفاقی در حال افتادن است. مشخص نیست شبکه‌های عصبی قدیمی چطور می‌توانند از اطلاعاتی که در صحنه‌های قبلی فیلم به دست آورده‌اند برای تشخیص نوع اتفاق در صحنه‌های بعدی فیلم استفاده کنند.

شبکه‌های عصبی بازگشتی (Recurrent Neural Network) برای برطرف کردن این مشکل طراحی شدند. در حقیقت شبکه‌های عصبی بازگشتی تو خودشون شامل یه حلقه بازگشتی هستند که منجر میشه اطلاعاتی که از لحظات قبلی بدست آوردیم از بین نرن و تو شبکه باقی بمونن.

شبکه‌های عصبی بازگشتی دارای حلقه هستند.

در شکل بالا، بخش A، به عنوان ورودی مقدار x_t را دریافت و مقدار h_t را به خروجی می‌برد. حلقه باعث می‌شود که اطلاعات از یک مرحله به مرحله بعد ارسال شوند.

این حلقه‌ها احتمالا باعث شدن که شبکه‌های عصبی بازگشتی براتون مبهم به نظر بیان. اگر چه اگه بیشتر جلو بریم متوجه می‌شید که این شبکه‌ها عملاً تفاوت خاصی با شبکه‌های عصبی معمولی ندارن. شبکه‌های عصبی بازگشتی رو میشه به صورت چندین کپیِ یکسان از یک شبکه عصبی در نظر گرفت که هر کدام اطلاعاتش را به شبکه بعدی منتقل می‌کند. در شکل زیر وضعیت شبکه عصبی بازگشتی در صورت باز کردن حلقه نمایش داده شده است:

شبکه عصبی بازگشتیِ باز شده

با توجه به ذات زنجیره‌مانند شبکه‌های عصبی بازگشتی، می‌توان تشخیص داد که این شبکه‌ها به مقدار زیادی به دنباله‌ها و لیست‌ها مرتبط هستند. در حقیقت شبکه‌های عصبی بازگشتی اولین انتخاب برای کار با چنین داده‌هایی هستند.

در حقیقت در سال‌های گذشته مکرراً از این شبکه‌ها استفاده شده که منجر به موفقیت‌های بسیار چشم‌گیری در حوزه‌های مختلف از جمله تشخیص صدا، مدل کردن زبان، ترجمه، درج خودکار توضیح برای تصویر و ... شده است. برای مشاهده نتایج و آزمایشات خارق‌العاده‌ای که با اساتفاده از شبکه‌های عصبی بازگشتی انجام شده، می‌توانید نوشتهِ جذاب و عالی Andrej Karpathy با عنوان عملکرد عالی ولی بی‌دلیل شبکه‌های عصبی بازگشتی رو مطالعه کنید که قدرت خارق‌العاده شبکه‌های عصبی بازگشتی شرح داده شده.

بیشتر این موفقیت‌ها مدیون استفاده از شبکه‌های "LSTM" است. نوع خاصی از شبکه‌های عصبی بازگشتی که در بیشتر موارد عملکرد بهتری از شبکه‌های عصبی بازگشتی استاندارد دارد. تقریباً میشه گفت اکثر موفقیت‌های شبکه‌‌های عصبی بازگشتی وقتی بدست آمده که از LSTM‌ها استفاده شده است. تو این نوشته ما شبکه‌های LSTM رو به تفسیر توضیح می‌دیم.

مشکلی به نام وابستگی‌های بلندمدت

یکی از جذابیت‌های شبکه‌های عصبی بازگشتی این است که آن‌ها ممکن است بتوانند اطلاعات که قبلاً مشاهده شده را به کاری که در حال حاضر در حال انجام است مرتبط سازد، برای مثال استفاده از فریم‌های قبلی یک ویدئو می‌تواند در فهمیدن فریم کنونی کمک‌کننده باشد. اگر شبکه‌های عصبی بازگشتی بتوانند واقعاً این کار را انجام دهند، می‌توان آن‌ها را بسیار مفید دانست. ولی آیا واقعاً می‌تونن؟ جواب اینه که بستگی داره.

بعضی مواقع ما فقط نیاز داریم فقط به اطلاعات گذشته نزدیک نگاه کنیم تا متوجه اطلاعات حال حاضر بشیم. برای مثال، فرض کنید ما مدلِ زبانی‌ای ساخته‌ایم که تلاش می‌کند کلمه بعدی را با توجه به کلمات قبلی‌ای که در اختیارش قرار دادیم پیش‌بینی کند. اگه ما می‌خوایم آخرین کلمه تو جمله «ابر‌ها هستند در آسمان» رو پیش‌بینی کنیم، ما به اطلاعات اضافیِ دیگه‌ای نیاز نداریم و تقریباً میشه گفت واضحه که کلمه بعدی «آسمان» است. در موارد مشابه این مثال، که فاصله بین اطلاعات مرتبط و جایی که به این اطلاعات نیاز داریم خیلی کمه، شبکه‌های عصبی بازگشتی می‌تونن یاد بگیرن که از این اطلاعات استفاده کنند.

ولی ممکن است مواردی وجود داشته باشد که ما به اطلاعات بیشتری نیاز داشته باشیم. فرض کنید قصد داریم کلمه بعدی در جمله «من زبان فرانسه را خیلی راحت صحبت می‌کنم... من به دنیا آمدم در فرانسه.» با توجه به اطلاعات اخیر (یعنی چهار پنج کلمه قبل از آخرین کلمه)، می‌توان گفت که کلمه آخر احتمالا اسم یک کشور است، ولی اگر بخواهیم دقیقاً متوجه بشیم چه کشوری است، ما نیاز داریم به اطلاعات دورتر (یعنی تا ده یا بیست کلمه قبل از آخرین کلمه) دسترسی داشته باشیم. به صورت کلی ممکن است فاصله بین اطلاعات مرتبط و جایی که به این اطلاعات نیاز داریم زیاد باشد.

متأسفانه، هر چه این فاصله افزایش پیدا می‌کند، شبکه‌های عصبی بازگشتی قدرت‌شان را در به یادآوردن و استفاده از اطلاعاتی که در گذشته دورتر یاد گرفته‌اند کاهش پیدا می‌کند و به عبارتی توانائی استفاده از اطلاعات گذشته دورتر را ندارند.

از نظر تئوری، شبکه‌های عصبی بازگشتی توانائی مدیریت وابستگی‌های بلندمدت رو باید داشته باشند. یک فرد متخصص می‌تونه با دقت پارامتر‌های شبکه رو طوری تعیین کنه که مسائل کوچیکِ این شکلی را حل کنه. متأسفانه در عمل شبکه‌‌های عصبی بازگشتی توانائی یادگیری وابستگی بلندمدت رو ندارن. این مشکل به صورت دقیق‌تر تو این دو تا مقاله یعنی Hochreiter 1991 و ‌Bengio, et al. 1994 شرح داده شدن.

بخوام خلاصه بگم دو تا مشکل اصلی به نام Vanishing and Exploding Gradient تو شبکه‌های عصبی بازگشتی وجود داره که LSTM حل‌اش کرده که می‌تونید خودتون در موردشون بیشتر تحقیق کنید. (این پاراگراف تو متن اصلی نیست!)

خُب خوشبختانه، شبکه‌های LSTM این مشکل را حل کرده‌اند!

شبکه‌های LSTM

شبکه‌های LSTM که خلاصه شده عبارت "Long Short Term Memory" هستند، نوع خاصی از شبکه‌های عصبی بازگشتی هستند که توانائی یادگیری وابستگی‌های بلندمدت را دارند. این شبکه‌ها برای اولین بار توسط Hochreiter و Schmidhuber در سال ۱۹۹۷ در این مقاله معرفی شدند. البته تعداد زیادی از محققان در بهبود این شبکه‌ها نقش داشتند که در متن اصلی به آن‌ها اشاره شده است.

در حقیقت هدف از طراحی شبکه‌های LSTM، حل کردن مشکل وابستگی بلندمدت بود. به این نکته مهم توجه کنید که به یاد سپاری اطلاعات برای بازه‌های زمانی بلند مدت، رفتار پیش‌فرض و عادی شبکه‌های LSTM‌ است و ساختار آ‌ن‌ها به صورتی است که اطلاعات خیلی دور را به خوبی یاد می‌گیرند که این ویژگی در ساختار آن‌ها نهفته است.

همه شبکه‌های عصبی بازگشتی به شکل دنباله‌ای (زنجیره‌ای) تکرار شونده از ماژول‌های (واحد‌های) شبکه‌های عصبی هستند. در شبکه‌های عصبی بازگشتی استاندارد، این ماژول‌های تکرار شونده ساختار ساده‌ای دارند، برای مثال تنها شامل یک لایه تانژانتِ هایپربولیک (tanh) هستند.

ماژول‌های تکرار شونده در شبکه‌های عصبی بازگشتی استاندارد فقط دارای یک لایه هستند.

شبکه‌های LSTM نیز چنین ساختار دنباله یا زنجیره‌مانندی دارند ولی ماژولِ تکرار شونده ساختار متفاوتی دارد. به جای داشتن تنها یک لایه شبکه عصبی، ۴ لایه دارند که طبق ساختار ویژه‌ای با یکدیگر در تعامل و ارتباط هستند.

ماژول‌های تکرار شونده در LSTM‌ها دارای ۴ لایه که با هم در تعامل هستند است.

نگران جزئیات تصویر نباشید، جلوتر قدم یه قدم ساختار شبکه‌های LSTM را توضیح خواهیم داد. ابتدا معنی هر کدام از شکل‌ و علامت‌هایی را که از آن‌ها استفاده خواهیم کرد توضیح می دهیم.

کپی کردن | وصل کردن | بردار انتقال | عملیات نقطه به نقطه | یک لایه‌ی شبکه عصبی

در شکل بالا، هر خط یک بردار را به صورت کامل از خروجی یک گره به ورودی گره دیگر انتقال می‌دهد. دایره‌های صورتی نمایش دهنده عملیات‌های نقطه‌ به نقطه مانند «جمع کردن دو بردار» هستند. مستطیل‌های زرد، لایه‌‌های شبکه‌های عصبی هستند که شبکه پارامتر‌های آن‌ها را یاد می‌گیرد. خط‌هایی که با هم ادغام می‌شوند نشان‌دهنده الحاق (concatenation) و خط‌هایی که چند شاخه می‌شوند نشان دهنده‌ای این موضوع است که محتوای آن‌ها کپی و به بخش‌های مختلف ارسال می‌شود.

ایده اصلیِ پشت LSTM‌ها

عنصر اصلی LSTM‌ها سلول حالت (cell state) است که در حقیقت یک خط افقی است که در بالای شکل قرار دارد.

سلول حالت را می‌توان به صورت یک تسمه نقاله تصور کرد که از اول تا آخر دنباله یا همان زنجیره با تعاملات خطیِ جزئی در حرکت است (یعنی ساختار آن بسیار ساده است و تغییرات کمی در آن اتفاق می‌افتد).

LSTM این توانائی را دارد که اطلاعات جدیدی را به سلول حالت اضافه یا اطلاعات آن را حذف کنید. این کار توسط ساختارهای دقیقی به نام دروازه‌ها (gates) انجام می‌شود.

دروازه‌ها راهی هستند برای ورود اختیاری اطلاعات. آن‌ها از یک لایه شبکه عصبیِ سیگموید (sigmoid) به همراه یک عملگر ضرب نقطه به نقطه تشکلیل شده‌اند.

خروجی لایه سیگموید عددی بین صفر و یک است، که نشان می‌دهد چه مقدار از وروی باید به خروجی ارسال شود. مقدار صفر یعنی هیچ اطلاعاتی نباید به خروجی ارسال شود در حالی که مقدار یک یعنی تمام ورودی به خروجی ارسال شود!

LSTM دارای ۳ دروازه مشابه برای کنترل مقدار سلول حالت است.

بررسی قدم به قدمِ ورود و خروج اطلاعات به LSTM

قدم اول در LSTM تصمیم در مورد اطلاعاتی است که می‌خواهیم آن‌ها را از سلول حالت پاک کنیم. این تصمیم توسط یک لایه سیگموید به نام «دروازه فراموشی» (forget gate) انجام می‌شود. این دروازه با توجه به مقادیر h_t-1 و x_t ، برای هر عدد، مقدار صفر یا یک را در سلول حالتِ C_t-1 به خروجی می‌برد. مقدار یک یعنی به صورت کامل مقدار حال حاضرِ سلول حالت (C_t-1) را به C_t ببر و مقدار صفر یعنی به صورت کامل اطلاعات سلول حالت کنونی (C_t-1) را پاک کن و هیچ مقداری از آن را به C_t نبر.

بیاید به مثال قبلی‌مان که یک مدل زبانی‌ای بود که در آن تلاش داشتیم کلمه بعدی را بر اساس همه کلمه‌های قبلی حدس بزنیم، برگردیم. در چنین مسأله‌ای، سلول حالت ممکن است دربردارنده جنسیت فاعل کنونی باشد، که با توجه به آن می‌توانیم تشخیص دهیم از چه ضمیری باید استفاده کنیم. زمانی که یک فاعل جدید در جمله ظاهر می‌شود، می‌بایست جنسیت فاعل قبلی حذف شود.

قدم بعدی این است که تصمیم بگیریم چه اطلاعات جدیدی را می‌خواهیم در سلول حالت ذخیره کنیم. این تصمیم دو بخشی است. ابتدا یک لایه سیگموید به نام دروازه ورودی (input gate) داریم که تصمیم می‌گیرد چه مقادیری به‌روز خواهند شد. مرحله بعدی یک لایه تانژانت هایپربولیک است که برداری از مقادیر به نام C_t~ می‌سارد که می‌توان آن‌ها را به سلول حالت اضافه کرد. در مرحله بعد، ما این دو مرحله را با هم ترکیب می‌کنیم تا مقدار سلول حالت را به‌روز کنیم.

در مثال مدل زبانی‌ای که پیش‌تر داشتیم، قصد داریم جنسیت فاعل جدید را به سلول حالت اضافه کنیم تا جایگزین جنسیت فاعل قبلی شود که در مرحله قبلی تصمیم گرفتیم آن را فراموش کنیم.

حال زمان آن فرا رسیده است که سلول حالت قدیمی یعنی C_t-1 را سلول حالت جدید یعنی C_t به‌روز کنیم. در مراحل قبلی تصمیم گرفته شد که چه کنیم و در حال حاضر تنها لازم است تصمیماتی را که گرفته شد عملی کنیم.

ما مقدار قبلی سلول حالت را در f_t ضرب می‌کنیم که یعنی فراموش کردن اطلاعاتی که پیش‌تر تصمیم گرفتیم آن‌ها را فراموش کنیم. سپس i_t * ~C_{t را به آن اضافه می‌کنیم. در حال حاضر مقادیر جدید سلول حالت با توجه به تصمیماتی که پیش‌تر گرفته شده بود بدست آمده‌اند.}

_{در مثال مدل زبانی، اینجا دقیقاً جائی است که اطلاعاتی که در مورد جنسیت قبلی داشتیم را دور می‌ریزیم و اطلاعات جدید را اضافه می‌کنیم.}

در نهایت باید تصمیم بگیریم قرار است چه اطلاعاتی را به خروجی ببریم. این خروجی با در نظر گرفتن مقدار سلول حالت خواهد بود، ولی از فیلتر مشخصی عبور خواهد کرد. در ابتدا، یک لایه سیگموید داریم که تصمیم می‌گیرد چه بخشی از سلول حالت قرار است به خروجی برده شود. سپس مقدار سلول حالت (پس از به‌روز شدن در مراحل قبلی) را به یک لایه تانژانت هایپر بولیک (تا مقادیر بین ۱- و ۱+ باشند) می‌دهیم و مقدار آن را در خروجی لایه سیگموید قبلی ضرب می‌کنیم تا تنها بخش‌هایی که مد نظرمان است به خروجی برود.

در مثال مدل زبانی، با توجه به اینکه تنها فاعل را دیده، در صورتی که م‌خواهیم کلمه بعدی را حدس بزنیم، ممکن است بخواهد اطلاعاتی در ارتباط با فعل را به خروجی ببرد. برای مثال ممکن است اینکه فاعل مفرد یا جمع است را به خروجی ببرد، که ما با توجه به آن بدانیم فعل به چه فُرمی خواهد بود.

انواع مختلف LSTM‌ها

چیزی که تا الان توضیح داده شده، یک LSTM عادی است. ولی همه LSTM‌ها به این صورت نیستند. در حقیقت در هر مقاله‌ای که از LSTM‌ها استفاده شده، از نسخه‌هایی از LSTM که اندکی با هم متفاوت هستند استفاده شده است. تفاوت تو این LSTM‌ها خیلی کمه ولی خوبه چند نسخه مختلف دیگه از این LSTM‌ها رو بشناسید که در صورت علاقه می‌تونید نوشته اصلی به زبان انگلیسی رو مطالعه کنید.

ترجمه این نوشته

آخرش لازم می‌دونم بگم که این متن با اجازه از نویسنده اصلی یعنی آقای Christopher Olah ترجمه شده.

۲۵ مهر ۹۶ ، ۱۴:۱۷

سعیده

عالی بود
کاش میشد تمام مدل های شبکه های عصبی و یادگیری ماشین رو به این قشنگی در وبلاگ می گذاشتین
ممنون

۲۵ شهریور ۹۷، ۱۲:۳۶

پاسخ:

یه مقدار کمبود وقت دارم. اگه وقتم خالی بشه حتما این کار رو می‌کنم.

۱۵ آبان ۹۶ ، ۱۴:۳۶

Besyar ali bud....

man modatha maghale mikhundam dar in zamine vali be in khubi jayi nadidam...

ba arezuye movafaghiat

ممنون از شما. شما هم موفق باشید.

۱۶ آذر ۹۶ ، ۱۲:۱۰

مینا

سلام.

فوق العاده بود...خیلی خیلی متشکرم از شما که بدون هیچ چشم داشتی آموخته هاتون رو با ما به اشتراک میگدارید...

سپاسگذارم...

اگر یادگیری LSTM رو ادامه بدید که محشر میشه...

۲۵ شهریور ۹۷، ۱۲:۳۷

ممنون از شما.
یه متاسفانه یه کم درگیرم. سرم خلوت‌تر بشه حتما این کار رو می‌کنم.

۲۷ دی ۹۶ ، ۱۱:۵۶

ghazal

سلام، بسیار عالی بود. همون چیزی که دنبالش بودم، مختصر و مفید... متشکرم :)

۲۵ شهریور ۹۷، ۱۲:۳۸

ممنون. خوبه که مفید بوده

۲۵ بهمن ۹۶ ، ۲۱:۴۷

ساناز

بسیار عالی بود واقعا برای ارائم به همچین توضیحات خوبی نیاز داشتم خدا ازتون راضی باشه

ممنون. امیدوارم ارائه خوبی داشته باشید.

۲۵ ارديبهشت ۹۷ ، ۱۹:۳۸

MAHZAD

عالی بود واقعا عالییییی، دستتون درد نکنه بابت این مطلب خوب و ترجمه روان

۲۵ شهریور ۹۷، ۱۲:۳۹

مرسی

۲۲ شهریور ۹۷ ، ۱۷:۳۹

سعید

سلام ممنون از توضیح خوبتون

من فقط چند تا سوال داشتم. دلیل این که در گیت فراموشی ۲ تا تابع سیگموید و هایپربولیک استفاده شده چیه؟

در کل چجوری میشه که ترکیب با سیگموید خالی میشه گیت فراموشی و ترکیب با سیگموید و هایپر بولیک میشه گیت یادگیری حالت

۲۵ شهریور ۹۷، ۱۲:۵۷

ممنون از شما.

حقیقتش یه مدتیه که در این زمینه مطالعه نداشتم جواب دقیق سوال‌تون رو نمی‌دونم و سعی می‌کنم تا حدودی جواب بدم.

جواب سوال اول: در گیت فراموشی فقط از تابع سیگموید استفاده شده. اگه منظورتون دروازه یادگیریه، نمی‌دونم چرا از این دو تابع استفاده شده و مطمئن نیستم سازندگان این معماری هم جواب و اثبات ریاضی براش داشته باشن چون تا اونجایی که میدونم معماری‌های دیگه‌ای هم داریم که شاید از دو تا تابع استفاده نکردن ولی جواب قابل قبولی دارن می‌گیرن از مدل‌شون. شاید جواب سوال‌تون خیلی تخصصی‌تر در حوزه ریاضی باشه که من دانشش رو ندارم.

جواب سوال دوم: فکر کنم جواب سوال دوم‌تون مشابه سوال اوله.

پی‌نوشت:

اگه متن زبان اصلی این آموزش رو بخونید گفته که مقدار سیگموید همیشه بین ۰ و ۱ هست. مقدار تانژانت بین -۱ و +۱.
ما وقتی می‌خوایم یه چیزی رو فراموش کنیم، فقط نیاز داریم بدونیم چقدرش رو قراره فراموش کنیم و چقدرش بمونه که مقادیر بین ۰ و ۱ تعیین می‌کنن این قضیه رو. پس فقط به یه تابع سیگموید نیاز داریم.

ولی وقتی قراره یه چیزی رو یاد بگیریم اولش میاد با تابع هایپربولیک میگه که اصلا چی رو می‌خوایم یاد بگیریم بعد از تابع سیگموید استفاده می‌کنه که بگه از اون چیزی که قرار شده یاد بگیریمش، چقدرش رو واقعا نیاز داریم یاد بگریم.

۱۳ آذر ۹۷ ، ۲۰:۱۲

علی

ممنون از سایت خوبتون

سلول حالت چیه؟ مثلا h خروجی نرون قبلی هست مقصودم این هست که چی درش نگهداری میشه؟

۱۵ آذر ۹۷ ، ۱۷:۵۴

مهرداد

سلول حالت یه بردار (vector) هستش که توش اطلاعاتی در مورد گذشته نگه‌داری می‌شه. مثلا اگه یه جمله رو فرض کنیم، ممکنه فاعل جمله اول شخص بوده باشه که تو سلول حالت این مورد ثبت و نگه‌داری می‌شه. اینکه چطوری اول شخص بودن تو یه بردار نگه‌داری می‌شه رو به صورت دقیق منطق ریاضیش رو نمی‌دونم ولی ممکنه یه برداری شبیه این باشه [1,3,6,1,9] که شاید اون ۳ نشون‌دهنده اول شخص بودن باشه یا اون ۹ یا هر چیز دیگه‌ای.
این فقط یه مثاله که مفهوم رو بهتر درک کنید و مثال دقیقی نیست.

۲۴ دی ۹۷ ، ۱۷:۵۸

شادی

سلام. خیلی ازتون ممنونم واقعا عالی بود. یه سوالی ازتون داشتم من میخوام از مدل LSTM برای پیش بینی استفاده کنم. آیا میتونم از کد مخصوص به این مدل در نرم افزار متلب برای پیش بینی استفاده کنم؟

۲۶ اسفند ۹۷ ، ۱۷:۳۵

فرزانه

ممنون من اول من=تن اصلی رو خونده بودم و یه ابهاماتی داشتم که باخوندن ترجمه شما برطرف شد سپاس

۲۷ فروردين ۹۸ ، ۲۲:۵۷

سید حسین الحسینی

با سلام- خیلی خوب بود- فقط امکان دارد نمونه کدهایی برای متلب از روش LSTM به جی میل من بفرستید. خیلی ها دنبال کدهای شبکه های بازگشتی هستند.

۰۶ خرداد ۹۸ ، ۱۱:۰۱

حمیده

واقعا عالی بود. کاش همه الگوریتم های یادگیری ماشین و شبکه عصبی رو اینقد روان و زیبا آموزش بدید.یک دنیا تشکر.

۱۳ خرداد ۹۸ ، ۲۰:۱۹

ehsan

تشکر می کنم بابت ترجمه روان

دوستی سوال کردند که<

دلیل این که در گیت فراموشی ۲ تا تابع سیگموید و هایپربولیک استفاده شده چیه؟

در کل چجوری میشه که ترکیب با سیگموید خالی میشه گیت فراموشی و ترکیب با سیگموید و هایپر بولیک میشه گیت یادگیری حالت.

لایه اول از سیگموید استفاده شده است. چون سیگموید به شما صفر یا یک می دهد به این معنی است که این اطلاعات فراموش شوند یا حفظ شوند. (اگر توجه کنید خروجی سیگموید در C_t-1 ضرب شده است. بنابراین اگر خروجی تابع سیگموید صفر شود و در C_t-1 ضرب شود داده ها فراموش می شوند.)

در لایه دوم از ضرب سیگموید و تانژانت هایپربولیک استفاده شده است. یعنی اگر سیگموید اجازه عبور x_t و H_t-1 را بدهد آنگاه تانژانت هیپربولیک میزان اهمیت آن را تعیین می کند و به مقدار سلول حالت (که می تواند صفر باشد یا C_t-1) اضافه می کند. (اگر توجه کنید خروجی مضرب این دو تابع با سلول حالت جمع شده است).

۱۲ آبان ۹۸ ، ۰۹:۱۵

حمیدرضا خوشوقتی

بسیار حرفه‌ای و کارآمد بود متنتون.

خیلی متشکرم

به علاوه از این که گفتید از نویسنده اجازه گرفته‌اید خیلی لذت بردم.

۱۰ آذر ۹۸ ، ۱۶:۵۵

سید

سلام واقعا ازتون سپاسگزارم عالی بود و خدا خیر و برکت و سلامتی روز افزون بهتون عنایت داشته باشه

ان شاء الله

افرین

۱۲ آبان ۹۹ ، ۲۱:۲۶

sara

سلام

بسیار مطلب مفیدی بود مچکرم فقط یه سوال داشتم، برای انالیز یه سری عکسای سه بعدی که بخوام بر حسب یک نتیجه ای که از قبل ازون عکسا به دست امده،ترین و تست بشه آیا میشه از lstm استفاده کرد و نتیجرو با کانولوشن نتوورک مقایسه کنم؟ ینی داده های من سری زمانی نیستن.

وبلاگ شخصی

هوش مصنوعی، یادگیری ماشین و داده‌کاوی

یادگیری شبکه‌های LSTM

LSTM

RNN

Recurrent Neural Network

شبکه‌های عصبی

شبکه‌های عصبی عمیق

نظرات (۴۴)

مطالب مفیدی رو که در زمینه هوش مصنوعی می‌خونم اینجا برای دل خودم به اشتراک می‌ذارم :دی
اندازه فونت: ۴
اندازه فونت عناوین: یک واحد به ازای هر سطح

هوش مصنوعی

شبکه‌های عصبی

هوش مصنوعی، یادگیری ماشین و داده‌کاوی

نظرات (۴۴)

مطالب مفیدی رو که در زمینه هوش مصنوعی می‌خونم اینجا برای دل خودم به اشتراک می‌ذارم :دیاندازه فونت: ۴اندازه فونت عناوین: یک واحد به ازای هر سطح

هوش مصنوعی

شبکه‌های عصبی

مطالب مفیدی رو که در زمینه هوش مصنوعی می‌خونم اینجا برای دل خودم به اشتراک می‌ذارم :دی
اندازه فونت: ۴
اندازه فونت عناوین: یک واحد به ازای هر سطح