معماری

الگوریتم BP

مقدمه
شبکه های عصبی چند لایه پیش خور1 به طور وسیعی د ر زمینه های متنوعی از قبیل طبقه بندی الگوها، پردازش تصاویر، تقریب توابع و … مورد استفاده قرار گرفته است.
الگوریتم یادگیری پس انتشار خطا2، یکی از رایج ترین الگوریتم ها جهت آموزش شبکه های عصبی چند لایه پیش خور می باشد. این الگوریتم، تقریبی از الگوریتم بیشترین تنزل3 می باشد و در چارچوب یادگیری عملکردی 4 قرار می گیرد.
عمومیت یافتن الگوریتمBP ، بخاطر سادگی و کاربردهای موفقیت آمیزش در حل مسائل فنی- مهندسی می باشد.
علیرغم، موفقیت های کلی الگوریتم BP در یادگیری شبکه های عصبی چند لایه پیش خور هنوز، چندین مشکل اصلی وجود دارد:
– الگوریتم پس انتشار خطا، ممکن است به نقاط مینیمم محلی در فضای پارامتر، همگرا شود. بنابراین زمانی که الگوریتم BP همگرا                می شود، نمی توان مطمئن شد که به یک جواب بهینه رسیده باشیم.
– سرعت همگرایی الگوریتم BP، خیلی آهسته است.
از این گذشته، همگرایی الگوریتم BP، به انتخاب مقادیر اولیه وزنهای شبکه، بردارهای بایاس و پارامترها موجود در الگوریتم، مانند نرخ یادگیری، وابسته است.
در این گزارش، با هدف بهبود الگوریتم BP، تکنیک های مختلفی ارائه شده است. نتایج شبیه سازیهای انجام شده نیز نشان می دهد، الگوریتم های پیشنهادی نسبت به الگوریتم استاندارد BP، از سرعت همگرایی بالاتری برخوردار هستند.
خلاصه ای از الگوریتم BP
از قانون یادگیری پس انتشار خطا (BP)، برای آموزش شبکه های عصبی چند لایه پیش خور که عموماً شبکه های چند لایه پرسپترون 5 (MLP) هم نامیده می شود، استفاده می شود، استفاده می کنند. به عبارتی توپولوژی شبکه های MLP، با قانون یادگیری پس انتشار خطا تکمیل می شود. این قانون تقریبی از الگوریتم بیشترین نزول (S.D) است و در چارچوب یادگیری عملکردی قرار می گیرد.
بطور خلاصه، فرایند پس انتشار خطا از دو مسیر اصلی تشکیل می شود. مسیر رفت6 و مسیر برگشت 7 .
در مسیر رفت، یک الگوی آموزشی به شبکه اعمال می شود و تأثیرات آن از طریق لایه های میانی به لایه خروجی انتشار می یابد تا اینکه
_________________________________
1. Multi-Layer Feedforward Neural Networks
2. Back-Propagation Algorithm
3. Steepest Descent (S.D)
4. Performance Learning
5. Multi Layer Perceptron
6. Forward Path
7. Backward Path
نهایتاً خروجی واقعی شبکه MLP، به دست می آید. در این مسیر، پارامترهای شبکه (ماتریس های وزن و بردارهای بایاس)، ثابت و بدون تغییر در نظر گرفته می شوند.
در مسیر برگشت، برعکس مسیر رفت، پارامترهای شبکه MLP تغییر و تنظیم می گردند. این تنظیمات بر اساس قانون یادگیری اصلاح خطا1 انجام می گیرد. سیگنال خطا، رد لایه خروجی شبکه تشکیل می گردد. بردار خطا برابر با اختلاف بین پاسخ مطلوب و پاسخ واقعی شبکه می باشد. مقدار خطا، پس از محاسبه، در مسیر برگشت از لایه خروجی و از طریق لایه های شبکه به سمت پاسخ مطلوب حرکت کند.
در شبکه های MLP، هر نرون دارای یک تابع تحریک غیر خطی است که از ویژگی مشتق پذیری برخوردار است. در این حالت، ارتباط بین پارامترهای شبکه و سیگنال خطا، کاملاً پیچیده و و غیر خطی می باشد، بنابراین مشتقات جزئی نسبت به پارامترهای شبکه به راحتی قابل محاسبه نیستند. جهت محاسبه مشتقات از قانون زنجیره ای2 معمول در جبر استفاده می شود.
فرمول بندی الگوریتم BP
الگوریتم یادگیری BP، بر اساس الگوریتم تقریبی SD است. تنظیم پارامترهای شبکه، مطابق با سیگنالهای خطا که بر اساس ارائه هر الگو به شبکه محاسبه می شود، صورت می گیرد.
الگوریتم بیشترین تنزل با معادلات زیر توصیف می شود:
(1)
(2)
به طوری WLji و bLj، پارامترهای نرون j ام در لایه iام است. α، نرخ یادگیری2 و F، میانگین مربعات خطا می باشد.
(3)
(4)
(5)
به طوریکه SLj(k)، حساسیت رفتار شبکه در لایه L ام است.

_________________________________
1. Error-Correctting Learning Rule
2. Chain Rule
3. Learning Rate
معایب الگوریتم استاندارد پس انتشار خطا1 (SBP)
الگوریتم BP، با فراهم آوردن روشی از نظر محاسباتی کارا، رنسانسی در شبکه های عصبی ایجاد نموده زیرا شبکه های MLP، با قانون یادگیری BP، بیشترین کاربرد را در حل مسائل فنی- مهندسی دارند.
با وجود، موفقیت های کلی این الگوریتم در یادگیری شبکه های عصبی چند لایه پیش خود، هنوز مشکلات اساسی نیز وجود دارد:
– اولاً سرعت همگرایی الگوریتم BP آهسته است.
همانطور که می دانیم، تغییرات ایجاد شده در پارامترهای شبکه (ماتریس های وزن و بردارهای بایاس)، پس از هر مرحله تکرار الگوریتم BP، به اندازه  ، است، به طوریکه F، شاخص اجرایی، x پارامترهای شبکه و α، طول قدم یادگیری است.
از این، هر قدر طول قدم یادگیری، α، کوچکتر انتخاب گردد، تغییرات ایجاد شده در پارامترهای شبکه، پس از هر مرحله تکرار الگوریتم BP، کوچکتر خواهد بود، که این خود منجر به هموار گشتن مسیر حرت پارامترها به سمت مقادیر بهینه در فضای پارامترها می گردد. این مسئله موجب کندتر گشتن الگوریتم BP می گردد. بر عکس با افزایش طول قدم α، اگرچه نرخ یادگیری و سرعت یادگیری الگوریتم BP افزایش می یابد، لیکن تغییرات فاحشی در پارامترهای شکه از هر تکراربه تکرار بعد ایجاد می گردد، که گاهی اوقات موجب ناپایداری و نوسانی شدن شبکه می شود که به اصطلاح می گویند پارامترهای شبکه واگرا شده اند:

– ثانیاً احتمالاً به دام افتادن شبکه در نقاط مینیمم محلی وجود دارد.
در شبکه های MLP، میانگین مجوز خطا، در حالت کلی خیلی پیچیده است و از تعداد زیادی نقطه اکسترمم در فضای پارامترهای شبکه برخوردار می باشد. بنابراین الگوریتم پس انتشار خطا با شروع از روی یک سری شرایط اولیه پارامترهای شبکه، به نقطه مینیمم سراسری و با شروع از یک مجموعه شرایط اولیه دیگر به تقاط مینیمم محلی در فضای پارامترها همگرا می گردد،  بنابراین زمانی که الگوریتم BP همگرا می شود، نمی توان مطمئن شد که به یک جواب بهینه رسیده باشیم.
– ثالثاً: همگرايي الگوريتم BP، به يقين مقادير اوليه پارامترهاي شبكه عصبي MLP وابسته است، بطوري كه يك انتخاب خوب مي تواند كمك بزرگي در همگرايي سريعتر الگوريتم BP فراهم آورد. برعكس انتخاب اوليه نادرست پارامترهاي شبكه MLP، منجر به گير افتادن شبكه در نقاط مينيمم محلي در فضاي برداري پارامترهاي شبكه مي گردد كه اين خود منجر به اين مي شود كه شبكه خيلي زودتر از معمول به موضعي بيفتد كه منحني يادگيري شبكه براي تعداد بزرگي از دفعات تكرار، تغيير نكند.
به عنوان مثال، فرض مي كنيم مقدار اوليه پارامترهاي شبكه خيلي بزرگ باشند، در حالي كه مي دانيم توابع تبديل نرونها مخصوصاً در              لايه هاي مياني از نوع زيگموئيد هستند. در اين حالت براي نرون i ام، اندازه ورودي تابع تبديل (ni) خيلي بزرگ مي باشد و خروجي نرون (ai) به مقدار 1± ميل مي كند. لذا مشتق بردار خروجي شبكه، a ، خيلي كوچك مي باشد. فرض كنيم كه بايد مقدار واقعي ai، 1 باشد يعني ti = 1، ليكن به خاطر انتخاب بر مقادير اوليه، ai = -1 گردد. در اين حالت خطاي حداكثر را داريم در حالي كه چون ai ≈ 0               مي باشد تغييرات ناچيزي در پارامترهاي متناظر با نرون i ام داريم. اين چيزي است كه بيانگر رسيدن زودتر از معمول نرونها به حد اشباع خود مي باشند، جايي كه پاسخ واقعي با پاسخ شبكه كاملاً فرق دارد و زمان زيادي طول خواهد كشيد كه نرون از اين حالت خارج شود. از اين رو با پيشرفت پروسه يادگيري، پارامترهاي منتسب به نرورنهايي كه به مرز اشباع نرسيده اند، سريعتر تنظيم مي شوند، چرا كه سيگنال خطار گراديانهاي محلي از مقدار از اندازه بزرگتري برخوردار مي باشند. اين عمل منجر به كاهش در مجموع مربعات خطاي لحظه اي             مي گردد و اگر در اين مرحله، نرونهاي به حد اشباع رسيده تغييري در وضعيت تحريكشان رخ ندهد، شبكه براي مدتي طولاني از يك شكل هموار منحني خطا برخوردار خواهدبود.
بهبود الگوريتم استاندارد پس انتشار خطا (SBP)
– الگوريتم BP از نوع دسته اي1 (BBP)
الگوريتم استاندارد BP، بر اساس فرم الگو به الگو است، بدين ترتيب كه پارامترهاي شبكه پس از ارائه هريك از الگوهاي يادگيري كه عموماً بطور تصادفي انتخاب مي شوند، تنظيم مي گردند، اما در الگوريتم BBP، تنظيم پارامترهاي شبكه پس از اعمال تمامي ورودي ها صورت مي پذيرد. پردازش دسته اي موجب مي شود كه گراديانهاي محلي به گراديان محلي واقعي نزديكتر باشند و نهايتاً الگوريتم BP به الگوريتم بيشترين نزول نزديكتر گردد كه اين خود موجب مي شود همگرايي الگوريتم BP افزايش يابد.
در شكل زير مسئله XOR با متد الگوريتم BP به فرم دسته اي پياده شده است. به راحتي مي توان ديد كه الگوريتم BBP از سرعت همگرايي بالاتري به الگوريتم SBP برخوردار است.

شكل (2). رفتار شبكه با الگوريتم BBP در مسأله XOR ( ـــ )
رفتار شبكه با الگوريتم SBP (0ـــ)

_________________________________
1. Batching Back-Propagation Algorithm
– روش ممنتم 1 براي الگوريتم BP (MBP)
همانطور كه مشاهده شد، اگر نرخ يادگيري α، كوچك انتخاب شود، متد BP كه در واقع همان تقريب الگوريتم SD است، بسيار كند     مي گردد. و اگر α، بزرگتر انتخاب شود، شبكه نوساني خواهد بود.
يك راه ساده و مؤثر كه عموماً جهت افزايش و بهبود نرخ يادگيري، استفاده مي شود- جايي كه خطر ناپايداري و نوساني شدن شبكه جلوگيري مي گردد- افزودن يك جمله ممنتم در الگوريتم تقريبي SD مي باشد، يعني به هر پارامتر از شبكه MLP، يك مقدار اينرسي يا اندازه حركت اضافه مي شود تا اينكه پارامتر مورد نظر در مسيري تمايل به تغيير داشته باشد كه كاهش تابع انرژي احساس شود.
الگوريتم يادگيري MBP با معادلات زير قابل توصيف است:
(6)
(7)
جايي كه (1و0)  ، ترم ممنتم را نشان مي دهد و عموماً با نرخ ياديگيري  به صورت زير رابطه دارد:
(8)
معادلات فوق، ترم هاي اصلاحي پارامترهاي شبكه را از فيلتر پايين گذر عبور مي دهند واين يعني تغييرات با فركانس بالا(نوسانات شديد) فيلترمي شوند. شكل (3)، مسأله XOR را كه به وسيله الگوريتم MBP، پياده شده است، نشان مي دهد. شبيه سازي نشان مي دهد كه الگوريتم MBP نسبت به الگوريتم استاندارد BP، از سرعت همگرايي بالاتري برخوردار است.

شكل(3): رفتار شبكه با الگوريتم MBP درمسأله XOR (ــــ)
رفتار شبكه با الگوريتم SBP(.ــــ)
_______________________________
1. Momentum
– نرخ يادگيري متغير1 (VLR)
درالگوريتم BP استاندارد، نرخ يادگيري درطول فرآيند يادگيري ثابت نگه داشته مي شود. عملكرد الگوريتم به انتخاب مناسب نرخ يادگيري خيلي حساس مي باشد. اگر نرخ يادگيري خيلي بزرگ انتخاب شود ممكن است الگوريتم نوسان كرده وناپايدار شود. اگر نرخ يادگيري خيلي كوچك باشد زمان زيادي طول خواهد كشيد تا الگوريتم همگرا شود. انتخاب نرخ يادگيري اپتيمم قبل از يادگيري، عملي نبوده ودرحقيقت نرخ يادگيري اپتيمم به هنگام پروسه آموزش، همچنان كه الگوريتم برروي سطح خطا حركت مي كنددائماً تغيير مي كند.
اگر اجازه دهيم نرخ يادگيري بهنگام پروسه آموزش تغيير كند عملكرد الگوريتم BP استاندارد را مي توان بهبود بخشيد. نرخ يادگيري تطبيقي سعي مي كند كه نرخ يادگيري را تا آنجايي كه ممكن است و سيستم ناپايدار نشده است، افزايش دهد.
نرخ يادگيري تطبيقي نياز به تغييراتي در الگوريتم BP استاندارد دارد.
مراحل الگوريتم VLR، به طور خلاصه در زير بيان شده است:
VLR Algorithm
Initialize Nearal Neywork Weights and Biases.
Set Training Parameters.
for    i = 1: N
; break, end           if  SSE <
Feed forward Path;
Backward Path;
Compute New Weights and Biases;

Compute  new-SSE
if    new-SSE > SSE * max – perf-inc
α = α * Lr-dec;      % Learning Rate
δ = 0               ;      % Momentum Factor
else
if new-SSE < SSE
α = α * Lr-inc;
end

Compute New Weights and Biases
end
end

_______________________________
1. Variable Learning Rate
معمولاً مقادير 1.04، 0.7  و 1.05 به ترتيب براي ضرائب 1 inc- perf- max، 2 dec- Lr و 3 inc- Lr در نظر گرفته مي شود.
در اين روش نرخ يادگيري به اندازه اي افزايش مي يابد كه موجب افزايش زياد در خطاهاي آموزش نگردد. بنابرين، يك نرخ يادگيري نزديك به بهينه بدست مي آيد.
الگوريتم VLR بر روي مسأله XOR پياده شده است. شبيه سازي نسان مي دهد، كه سرعت يادگيري اين الگوريتم را از الگوريتم SBP، بيشتر است.
نتايج شبيه سازي در شكل (4) نشان داده شده است.

شكل (4). – رفتار شبكه با الگوريتم VLR براي مسأله XOR ( ـــ )
رفتار شبكه با الگوريتم SBP (0 ـــ)
– تغييرات نرخ يادگيري (α) در كل فرآيند يادگيري براي مسأله XOR
در اين، خلاصه اي از نتايج مقالات مورد بررسي، جهت بهبود الگوريتم يادگيري پس انتشار خطا، ذكر مي گردد:
1- الگوريتم BP، با وجود آنكه كاربردهاي فراواني دارد، متأسفانه نرخ همگرايي آن بسيار پائين است. اگر از نرخ يادگيري كوچك استفاده شود، اين مسأله مي تواند سبب نرخ پائين همگرايي. به منظور جلوگيري از اين پديده نامطلوب، يك راه حل، استفاده از نرخ يادگيري مي باشد. اين راه حل بويژه در مواقعي كه در نقطه اي از سطح قرار داريم كه شيب تندي دارد، نامطلوب بوده و مي تواند باعث واگرايي شبكه شود.
_________________________________
1. Maximum Performance Increase
2. Learning Rate decrease
3. Learning Rate increase
موقعيكه شكل سطح خطا از سطح خطاي درجه دوم خيلي فاصله داشته باشد، در اينصورت سطح خطا، شامل مناطق با شيب تند زيادي خواهد بود. در اين صورت الگوريتم BP با نرخ يادگيري ثابت داراي راندمان پائيني مي باشد، دليل اين مسأله اين است كه به منظور جلوگيري از نوسان در مناطقي كه سطح خطا داراي شيب زيادي است بايستي نرخ يادگيري كوچك انتخا شود، در ننيجه بردار وزن، موقعي كه در مناطق مسطح قرار داريم به دليل كوچك بودن گراديان، خيلي كند حركت خواهد كرد.
بنابراين نياز به يك الگوريتم يادگيري كارآمد مي باشد تا بتواند بطور پويا نرخ يادگيري را تغيير دهد.
– الگوريتم پس انتشار خطاي تطبيقي1 (ABP)
در الگوريتم پس انتشار خطاي تطبيقي، نرخ يادگيري، بطور، اتوماتيك و بر اساس خطاي آموزش تنظيم مي گردد. ]1[
ايده اصلي از الگوريتم پس انتشار خطاي تطبيقي آن است كه:
– اگر علامتهاي گراديان          ، در طول دو تكرار متوالي مخالف هم باشد، دلالت بر اين امر دارد كه خطاي جديد نسبت به خطاي قبلي، افزايش يافته است و تكرار جاري با ارزش نيست.
لذا نرخ يادگيري را بايستي كاهش داد.
– اگر علامتهاي امتدادگراديان  در طول دو تكرار متوالي، يكسان باشند، دليل بر اين امر است كه نرخ تنزل آهسته است و نرخ يادگيري را بايستي افزايش داد.
ايده فوق را مي توان با معادلات زير، توصيف كرد:
(8)
به طوري كه   را به صورت زير، تعريف مي شود:
(9)
مشخص است كه زماني كه λ>0 ، نرخ يادگيري افزايش مي يابد.
الگوريتم BP تطبيقي با معادلات زير بيان مي شود:
(10)
شكل (5)، رفتار شبكه را با قانون يادگيري فوق، جهت جداسازي الگئهاي XOR، نشان مي دهد.
_________________________________
1. Adaptive Back-Propagation Algorithm

شكل (5). منحني يادگيري الگوريتم BP تطبيقي براي XOR
– الگوريتم پس انتشار خطا با نرخ يادگيري و ضريب ممنتم تطبيقي1 (BPALM)
در اين الگوريتم نرخ يادگيري و ضريب ممنتم در هر سيكل به طور تطبيقي تنظيم مي شوند تا به همگرايي الگوريتم BP استاندارد بهبود بخشيده شود]2[.
در ابتدا، فاكتور نسبي er (k)، به صورت زير تعريف مي شود:
(11)
اصلاح و تنظيمات نرخ يادگيري و ضريب ممنتم به صورت زير انجام مي گيرد:
Case 1:  for     er (k) < 0
α (k+1) = α (k) [1+ue –er(k)] ;   uε  (0,1)             (12a)
δ (k+1) = δ (k) [1+ve –er(k)] ;   vε  (0,1)             (12b)

Case 2:  for     er (k) ≥ 0
α (k+1) = α (k) [1-ue –er(k)] ;   uε  (0,1)             (13a)
δ (k+1) = δ (k) [1-ve –er(k)] ;   vε  (0,1)             (13b)

_________________________________
1. Back- Propagation with Adaptive Learning rate and Momentum term
شكل زير، عملكرد شبكه را با قانون يادگيري BPALM، جهت جداسازي الگوهاي XOR، نشان مي دهد.

شكل(6). – منحني يادگيري الگوريتم BPALM در مسأله XOR
– تغييرات نرخ يادگيري
– تغييرات ضريب ممنتم
– تغييرات علامت1
بر اساس اين الگوريتم، اگر علامت مشتق شاخص اجرايي نسبت به پارامترهاي شبكه دردوتكرار متوالي تغيير نكند، نرخ يادگيري افزايش مي يابد و در غير اينصورت، نرخ يادگيري كاهش مي يابد. [6] و اين يعني:
(14 a)                      αji(k) = αji(k-1).u                      if
(14 b)                     αji(k) = αji(k-1).u                      if
آبگاه، اصلاح وزن بر اساس معادله زير، انجام مي گيرد:
(15)
معموماً مقادير 1.1-1.3 براي u و 0.7-0.9 براي d، به كار برده مي شود.
_________________________________
1. Sign Changes
بر اساس اين الگوريتم، اگر علامت مشتق شاخص اجرايي، نسبت به پارامترهاي شبكه در دوتكرارمتوالي تغيير نكند و نرخ يادگيري از مقدار حداكثري، كمتر باشد، آنگاه افزودن يك مقدار ثابت به نرخ يادگيري، نرخ يادگيري افزتيش مي يابد. اگر علامت مشتق شاخص اجرايي نسبت به پارامترهاي شبكه دردوتكرارمتوالي تغيير كند، نرخ يادگيري با ضرب شدن در مقدار كوچكتر، كاهش مي يلبد و در غير اينصورت تغييري در نرخ يادگيري نخواهيم داشت. [6] عبارت فوق را مي توان با روابط زير توصيف كرد:
(16 a)                  αji(k) = αji(k-1)+u                  if
(16 b)                  αji(k) = αji(k-1).d                   if
(16 c)                  αji(k) = αji(k-1)                      if
شكل زير، منحني يادگيري الگوريتم فوق را براي جداسازي الگوهاي XOR، نشان مي دهد.

شكل (7). منحني يادگيري الگوريتم Delta Bar Delta Rule در مسأله XOR
– الگوريتم يادگيري Super SAB
اين الگوريتم، مانند الگوريتم قبل مي باشد با اين تفاوت كه اگر علامت تغييرات مشتق شاخص اجرايي نسبت به پارامترهاي شبكه دردوتكرار متوالي تغيير نكند و نرخ يادگيري از مقدار حداكثري كمتر باشد، نرخ يادگيري با ضرب شدن در يك پارامتر ثابتي، افزايش  مي يابد [6].
(17 a)                  αji(k) = αji(k-1)+u                 if
(17 b)                  αji(k) = αji(k-1).d                  if
(17 c)                  αji(k) = αji(k-1)                     if
مقادير پيشنهادي بر u، 1.05 و d، 0.5 مي باشد. α max، عددي بين 1,0 است.
از الگوريتم مطرح شده، براي جداسازي الگوها در مسأله XOR، استفاده شده است. در شكل (8)، منحني يادگيري اين الگوريتم را نشان مي دهد.

شكل (8). منحني يادگيري الگوريتم Super SAB براي مسأله XOR

2- الگوريتم پس انتشار خطا با سه ترم
در اين الگوريتم، ترم جدیدی به نام ضریب تناسبی1 (PF)، به الگوریتم استاندارد پس انتشار خطا اضافه شده است. [3] افزایش سرعت یادگیری، همراه با حفظ سادگی اگوریتم BP، هدف اصی این مقاله است.
الگوریتم مطرح شده را می توان با معاله زیر توصیف کرد:
(18)
بطوری که C، ضریب تناسبی (PF) می باشد.
e(W(k))، اختلاف بین خروجی مطلوب و خروجی واقعی در تکرار k ام است.
الگوریتم فوق، دراای سه ترم است:
1- ترمی که متناسب با مشتق F(W(k)) است.
2- ترمی که متناسب با مقادیر قبلی تغییرات وزن هاست.
3- ترمی که متناسب با e(W(k)) است.
بنابراین، مشاهده می شود که  این سه ترم، همانند ضرایب کنترل کننده PID، که به طور متداول در کاربردهای کنترلی استفاده می شوند، عمل می کنند.
آنالیز همگرایی
در این قسمت، الگوریتم BP با سه ترم، آنالیزو تحلیل می شود و نشان داده می شود که نقاط مینیمم محلی تابع حداقل مربعات خطا، تنها نقاط پایدار  مجانبیمحلی الگوریتم هستند.
معادله (18) را می توان به صورت زیر، بازنویسی کرد:
(19)
فرض کنید x2(k) = W(k) -W(k-1) , x1(k) = W(k)، آنگاه یک تحقق متغیر حالت معادله (19)، چنین است:
(20a)
(20b)
لم (1):
m = (m1,m2)، یک نقطه تعادل از سیستم یا معادلات (20b) , (20a) است، اگر

_________________________________
1. Proproortional Factor
اثبات:
اگر m = (m1,m2)، یک نقطه تعادل است، آنگاه
x1(k) = m1 , x2(k) = m2
و
x1(k+1) – x1(k) = 0
x2(k+1) – x2(k) = 0
با جایگذاری در معادلات (20b) , (20a)، خواهیم داشت:
(21a)
(21b)
با کم کردن معادله (21b) از معادله (21a)، نتیجه می شود:                                        x2(k) = 0          m2 = 0
و با جایگذاری x2(k) = 0 در معادله (21a) و یا (21b)، عبارت زیر به دست می آید:
(22)
تذکر(1): از آنجاییکه m =(m1,m2)،س یک نقطه تعادل معادلات (20b), (20a) است و e(x1(k)) =0 ، آنگاه F(x1(k)) =0 .
ویژگی پایداری محلی، حول نقطه تعادل (m1,m2) می تواند با استفاده از آنالیزهای سیگنال کوچک، امتحان شود.
فرض کنید سیگنال های آشفته به صورت زیر تعریف شوند:

آنگاه  معادلات حالت به فرم زیر تبدیل می شوند:
(23a)
(23b)
با خطی سازی حول محور تعادل m، معادلات (23) , (23a) به صورت زیر خواهند بود:
(24a)
(24b)

بطوریکه Q، سایز بردار وزن است.
آنگاه :
(25)
معادله ماتریسی بالا، می تواند به صورت زیر نوشته شود:
(26)
واضح است که سیستم گسسته- زمان به فرم (26)، پایدار مجانبی است اگر θ دارای مقادیر ویژه مجزای (iΨ) باشد و هر مقدار ویژه (iΨ)  در شرط رو به رو صدق کند:                                              i| < 1Ψ|
لم (2):
اگر λ یک مقدار ویژه تابع E باشد، جایی که  . آنگاه  مقادیر ویژه متناظر با ماتریسθ، توسط جوابهای معادله درجه دوم زیر بدست می آیند:
(27)
اثبات:
ماتریس θ برای هر D, A  0, ≠ δ، معکوس پذیر است.فرض کنید Ψ، یک مقدار ویژهθ باشد و آن غیر صفر است (زیراθ ناویژه1 است).
فرض کنید که Z =(x,y)، بردار ویژه غیر صفر متناظر با مقدار ویژه Ψ است. آنگاه:
(28)  Ψz= θz
که منجر می شود به:    x – αAx + CDx + δy = Ψx                                                           (29)
و
-αAx + CDx + δy = Ψy                                                                 (30)
با کم کردن معادله (30) از معادله (29)، خواهیم داشت:
(31)
با جایگذاری معادله (31) در معادله (30)، خواهیم داشت:
(32)
با انتخاب  و جایگذاری در معادله (32)، رابطه زیر بدست می آید:
(33)
_________________________________
1. Non – singular
از آنجایی که  ، اسکالر و غیر صفر است، اگر بردارx در این معادله صدق کند، x یک بردار ویژه ماتریس E  است. آنگاه:            Ex = λx                                                                                             (34)
با مقایسه معادلات (33), (34)، معادله  زیر بدست خواهد آمد:
(35)
با مرتب کردن معادله (35)، خواهیم داشت:
) + δ =0                                                                     (36) – Ψ (1+δ-αλc 2 Ψ
الف. تست پایداری جوری:
تست جوری، برای آنالیز معادلات از هرمرتبه، به کار می رود. معادله (36)، یک معادله درجه دوم است و می توان آن را به صورت f(z)=a2 z2 + a1 z + a0 نوشت. شرایط لازم و کافی برای هرچند جمله ای ، بطوری که ریشه ای خارج و روی دایراه واحد نداشته باشد، آن است:
| a0 | < a2                                                                                               (37)
f (1) > 0                                                                                                (38)
(-1)2 f(-1) > 0                                                                                        (39)
با بکار بردن تست جوری در معادله (36)، نتیجه می شود:
| δ | < 1                                                                                                  (40)
(1+δ) > ((1+δ) – αλc)                                                                            (41)
(1+δ) > (-(1+δ) + αλc)                                                                          (42)
از آنجایی که، ضریب ممنتم مثبت است:
0 < δ < 1                                                                                                (43)
نامعادله (41)، منجر خواهد شد به:
αλc > 0                                                                                                   (44)
و نا معادله (42)، به فرم زیر تبدیل خواهد شد:
(45)
با استفاده از نامعادلات (43) و (45)، نتیجه می شود:
0 < αλc < 4                                                                                              (46)
مقادیر α و c، بایستی مثبت باشند تا سیستم یاد بگیرد. بنابراین آن شرط کافی است که همه مقادیر ویژه E، مثبت باشند تا نتیجه بگیریم که m، یک نقطه مینیمم محلی است.
بنابراین همه نقاط مینیمم محلی از F(0)، به طور مجانبی پایدار محلی1 هستند.
همچنین از آنجایی که F(0)، یک نقطه مینیمم محلی دارد، ماتریس هسیان2 A، ماتریسی مثبت معین3 است.
نشان داده شده است که اگر ضرایب الگوریتم BP دارای سه ترم، در شرایط (46), (44), (43) صدق کنند، پایداری سیستم تضمین           می شود و سیستم به یک نقطه مینیمم محلی، همگرا خواهد شد.
اگر مقادیر ویژه ماتریس E، نسبتاً بزرگ باشندف ممکن است شرط (46)، نقض شود ولی در اکثر موارد E محدود است، بنابراین اگر              α و c، به اندازه کافی کوچک باشند، تمامی نقاط، مینیمم محلی پایدار هستند.
ب. شرط پایداری برای ماتریس D
نامعادله (46)، مقادیر نرخ یادگیری α و ضریب تناسبی c و نیز مقادیر ویژه E را محدود می کنند.
هدف از این بخش آن است که بر روی شرایط کافی پایداری بحث کنیمس به طوری که، رابطه بین پارامترهای α وc را بدست آوریم.
بنابراین باید به بحث روی ماتریس D بپردازیم، به طوری که ماتریس E، مثبت معین باشد:
(47)
تئوری (1):
E، مثبت معین است، اگر و فقط اگر، ماتریس بالا مثلثی، حقیقی و ناویژه H، به گونه ای یافت شود که E = HTH.
دو حالت را در نظر می گیریم:
حالت اول:
می پذیریم که ماتریس سd، ماتریس منفی نیمه معین4 است، آن گاه ماتریس -D ، مثبت نیمه معین5 خواهد بود.
و مقادیر ویژه STBS، مثبت می باشند. بنابراین مقادیر ویژه معادله (50)، کمتر از   نیستند، یعنی:
(51)
_________________________________
1. Locally Asymptotically Stable
2. Hessian
3. Positive Definite Matrix
4. Negative Semidefinite Matrix
5. Positive Semidefinite Matrix
بنابراین STBS، مثبت معین است، از اینرو:
(52)        det (A) = det (S-TS-1) = (DET (S))-2
بنابراین:
(53)
معادله فوق را می توان به صورت زیر، مرتب کرد:
(54)
حالت دوم:
فرض می کنیم که D، ماتریسی مثبت نیمه معین است.
تئوری (3):
فرض کنید که ماتریس D، مثبت نیمه معین است و A، مثبت معین می باشدآنگاه ماتریس  ، مثبت معین است و  .
اثبات:
بر اساس اثبات قبلی،
(55)
برای آنکه E، مثبت معین باشد، بایستی طرف راست معادله (55)، مثبت باشد، از اینرو:
(56)
از الگوریتم مطرح شده برای جداسازی الگوها در مسأله XOR استفاده شده است. شبیه سازی، نشان می دهد که سرعت همگرایی این الگوریتم، از الگوریتم استانداردپس انتشار خطا بیشتر است.

3. از رابطه (5)، به خوبی مشخص است که بردارهای حساسیت رفتار شبکه (δjL(K))، شامل ترم مشتق تابع تحریک نرون می باشد با فرض آنکه تابع تحریک نورونها، در لایه های میانی از نوع تابع زیگموئیدی لگاریتمی می باشند این ترم، ajL(K)(1- ajL(K) است.
بردارهای حساسیت از لایه آخر به لایه های میانی و سپس به لایه ورودی، برگشت داده می شوند تا پارامترهای شبکه را تصحیح کنند.
زمانی که خروجی ajL(K) به مقادیر 1 و یا 0، میل می کند. مشتق تابع تحریک که دارای فاکتور ajL(K)(1- ajL(K) می باشد، سبب  می شود که بردار حساسیت δjL(K) ، بسیار کوچک شود، بنابراین تغییرات ناچیز در پارامتر متناظر با نرون j ام خواهیم داشت.
لذا، فرایند یادگیری و اصلاح پارامترها در الگوریتم BP، بسیار آرام خواهد بود و یا حتی متوقف خواهد شد، حتی اگر مقادیر پارامترهای شبکه، از مقادیر بهینه اشان، فاصله ای زیاد داشته باشند.
بنابراین اصلاح مشتق تابع تحریک f، ضروری است تا بدین ترتیب عملکرد الگوریتم BP را بهبود بخشیم.
در یکی از مقالات مورد بررسی [4]، ایده فوق در نظر گرفته شده است و جهت افزایش سیگنال حساسیت بر روی مشتقات جزئی یا شیب تابع تحریک، بهبودهایی صورت گرفته است.
بردار حساسیت در معادله (5)، به صورت زیر تغییر کرده است:
(57)
(58)
بطوریکه، s یک عدد حقیقی بزرگتر از یک است. (S ≥ 1)
زمانیکه S =1 است، الگوریتم همان الگوریتم استاندارد BP می باشد.
برای S >1، بردار حساسیت، زمانی که خروجی به مقدار اشاتباه میل می کند، زیاد خواهد شد. بنابراین نرخ همگرایی فرایند یادگیری             می تواند افزایش یابد.
با این وجود، مقدار S، نباید از حد خاصی بیشتر شود زیرا در غیر اینصورت ترم  به یک میل می کند و بردار حساسیت δjL(K)، ناپایدار خواهد شد.

– الگوریتم پس انتشار خطای بهبود پذیر1 (Rprop)
این الگوریتم، جهت اصلاح مشکل فوق ارائه شده است.
بر اساس این الگوریتم، تنها از علامت مشتق تابع تحریک، جهت اصلاح پارامترهای شبکه استفاده می شود. اندازه مشتق تابع تحریک، هیچ اثری بر تنظیم پارامترهای شبکه ندارد [6], [5].
میزان تغییرات در پارامترهای شبکه، توسط فاکتور delt-inc، افزوده می شود، زمانی که علامت مشتق شاخص اجرایی، نسبت به پارامترهای شبکه دردوتکرار متوالی، تغییر نکند. و زمانی که مشتق خاص اجرایی دردوتکرار متوالی هم علامت نباشند، تغییرات در پارامترهای شبکه توسط فاکتور delt-dec، کاهش می یابد.
الگوریتم Rprop، در زیر خلاصه می گردد.

Rprop Algorithm
1. Choose some small initial value for every update step size Δji(0).
2. Adapt the step size:
Δji(k) = Δji(k-1).(delt.inc)
Δji(k) = Δji(k-1).(delt.dec)
Δji(k) = Δmax,                                         Δji(k) ≥ Δmax
Δji(k) = Δmin,                                         Δji(k) ≤ Δminx
3. Update the connection.
ΔWji(k) = -Δji(k)
ΔWji(k) = Δji(k)
ΔWji(k) = 0                                               else

مقادیر پیشنهادی برای پارامترها عبارتند از:
Δmax = 50, Δmin = 0.000001, delt- inc = 1.2, delt-dec = 0.5 .

_________________________________
1. Resilient Back-Propagation Algorithm
نتیجه گیری
از قانون یادگیری پس انتشار خطا (BP) برای آموزش شبکه ها عصبی چند لایه پیش خور استفاده می شود. با وجود کاربردهای فراوان این الگوریتم یادگیری، هنوز مشکلاتی نیز وجود دارد:
سرعت همگرایی الگوریتم BP، پائین است و ممکن است شبکه به آسانی به نقاط مینیمم محلی همگرا شود. از طرفی، انتخاب نرخ یادگیری، تأثر بسزایی در سرعت همگرایی آموزش شبکه عصبی دارند.
در این گزارش، الگوریتم های جدیدی، جهت بهبود الگوریتم BP، ارائه شده است.
برخی از این روش ها بر مبنای نرخ یادگیری تطبیقی می باشند. بدین صورت که نرخ یادگیری به هنگام پروسه آموزش  تغییر می کند تا عملکرد در الگوریتم BP استاندارد بهبود بخشیده شود، نرخ یادگیری تطبیقی سعی می کند که نرخ یادگیری را تا آنجایی که ممکن است و سیستم ناپایدار نشده است، افزایش دهد.
الگوریتم دیگری که جهت بهبود سرعت همگرایی الگوریتم BP، ارائه شده است، الگوریتم BP با سه ترم است. در این الگوریتم، ترم جدیدی به نام ضریب تناسبی (PE)، علاوه بر دوترم نرخ یادگیری و ضریب ممنتم، به الگوریتم BP، اضافه شده است.
الگوریتم مطرح شده، همانند کنترل کننده PID، عمل می کند.
همچنین در این گزارش، به بررسی و آنالیز پایداری الگوریتم مطرح شده، پرداخته شده است.
آنالیز پایداری به دلیل آن است که، شرایطی را که باید پارامترهای یادگیری در آن صدق کنند، تا الگوریتم پایدار بماند، بدست آوریم.
در آخر نیز، الگوریتم هایی ارائه شده است، یکی از این الگوریتم ها، الگوریتم پس انتشار خطای بهبود پذیر ( Rprop) است. در این الگوریتم، تنها از علامت مشتق تابع تحریک نسب به پارامترهای شبکه، جهت تنظیم پارامترهای شبکه استفاده می شود و اندازه مشتق تابع تحریک، هیچ تأثیری بر تنظیم پارامترهای شبکه ندارد.
در الگوریتم دیگر، جهت افزایش سیگنال حساسیت، اصلاحاتی بر روی مشتق تابع تحریک نرونها، انجام گرفته است.
شبیه سازی انجام شده نشان می دهد، که سرعت همگرایی الگوریتم های مطرح شده نسبت به الگوریتم استاندارد BP، بیشتر است. از طرفی الگوریتم های مطرح شده، محاسبات پیچیده ای ندارد و از همان سادگی الگوریتم BP، برخوردار می باشند.

مراجع
[1] Wen Jin-Wei, Zhao Jia-Li, Luo Si-Wei and Han Zhen, ”The Improvements of BP Neural Network Learninig Algorithm”, IEEE, 2000.

[2] Chien-Cheng Yu, and Bin-Da Liu, ”A BACKPROPAGATION ALGORITHM WITH ADAPTIVE LEARNING RATE AND MOMENTOM COEFFI CIENT”, IEEE, 2000

[3] Yahya H.Zweiri, James F.Whidborne, Kaspar Althoefer and Lakmal D.Seneviratne, ”A New Three-Term Backpropagation Algorithm with Convergence Analysis”, Proceeding of the IEEE International Conference on Robotics 8Automation, 2002.

[4] S.C.Ng, S.H.Leung and A.Luk, ”A Generalized Back-Propagtion Algorithm for Faster Convergence”, IEEE, 1996.

[5] Riedmiller.M and H.Braun, ”A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm”, proceeding of the IEEE International Conference on Neural Networks, 1993.

[6] Z.Zainuddin, N. Mahat  and Y.Abu Hassan, ”Improving the Convergence of the Backpropagation Algorithm USING Local Adaptive Techniques”, Tnternational Journal of Computational Intelligence, Vol. 1, No. 3, 2004.

[7] Zaiyong Tang and Gary J.KOEHLER, ”A Convergent Neural Network Learning Algorithm”, IEEE, 1992.

[8] Neural Network Toolbox.

مرجع فارسی:
1- مبانی شبکه های عصبی (هوش محاسباتی)، دکتر محمد باقر منهاج، انتشارات دانشگاه صنعتی امیر کبیر، چاپ دومف پائیز 1381.

پاسخ دهید