{"id":70,"date":"2021-12-27T20:05:43","date_gmt":"2021-12-27T19:05:43","guid":{"rendered":"https:\/\/nit.it\/?p=70"},"modified":"2021-12-27T20:05:45","modified_gmt":"2021-12-27T19:05:45","slug":"loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni","status":"publish","type":"post","link":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/","title":{"rendered":"L&#8217;output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni."},"content":{"rendered":"\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" width=\"882\" height=\"327\" src=\"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png\" alt=\"\" class=\"wp-image-71\" srcset=\"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png 882w, https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning-300x111.png 300w, https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning-768x285.png 768w\" sizes=\"(max-width: 767px) 89vw, (max-width: 1000px) 54vw, (max-width: 1071px) 543px, 580px\" \/><\/figure>\n\n\n\n<p>In alcune applicazioni l&#8217;output \u00e8 rappresentato da una sequenza di azioni, in tal caso <strong>una singola azione non \u00e8 importante, ci\u00f2 che conta \u00e8 la policy <\/strong>ovvero la sequenza di azioni corrette per raggiungere l&#8217; obiettivo: \u00a0un&#8217;azione \u00e8 buona se fa parte di una buona politica.<\/p>\n\n\n\n<p>In tal caso, il programma di Machine Learning dovrebbe essere in grado di valutare la bont\u00e0 delle politiche e imparare dalle buone sequenze di azioni passate per essere in grado di generare una politica efficace.<\/p>\n\n\n\n<p><strong>Tali metodi di rinforzo dell&#8217;apprendimento sono chiamati algoritmi di apprendimento per rinforzo.<\/strong><\/p>\n\n\n\n<p>Un buon esempio \u00e8 il gioco in cui una singola mossa di per s\u00e9 non \u00e8 cos\u00ec importante; \u00e8 la sequenza di mosse giuste che \u00e8 buona.<\/p>\n\n\n\n<p>Una mossa \u00e8 buona se fa parte di una buona politica di gioco.<\/p>\n\n\n\n<p>Il gioco \u00e8 una ricerca importante sia nell&#8217;intelligenza artificiale che nell&#8217;apprendimento automatico.<\/p>\n\n\n\n<p>Questo perch\u00e9 i giochi sono facili da descrivere e, allo stesso tempo, sono piuttosto difficili da giocare bene.<\/p>\n\n\n\n<p>Un gioco come gli scacchi ha un numero limitato di regole ma \u00e8 molto complesso a causa del gran numero di mosse possibili in ogni stato e grande numero di mosse che un gioco contiene.<\/p>\n\n\n\n<p>Una volta che abbiamo buoni algoritmi che possono imparare a giocare bene, possiamo applicarli anche ad applicazioni con utilit\u00e0 economica pi\u00f9 evidente.<\/p>\n\n\n\n<p>Un robot che naviga in un ambiente alla ricerca di una posizione obiettivo \u00e8 un&#8217;altra area di applicazione dell&#8217;apprendimento per rinforzo.<\/p>\n\n\n\n<p>In qualsiasi momento, il robot pu\u00f2 muoversi in una delle numerose direzioni. Dopo una serie di prove, dovrebbe apprendere la corretta sequenza di azioni per raggiungere lo stato finale da uno stato iniziale, facendo questo il pi\u00f9 rapidamente possibile e senza colpire nessuno degli ostacoli.<\/p>\n\n\n\n<p>Un fattore che rende pi\u00f9 difficile l&#8217;apprendimento per rinforzo \u00e8 quando il sistema ha informazioni sensoriali inaffidabili e parziali. Ad esempio, un robot dotato di videocamera ha informazioni incomplete e quindi in qualsiasi momento si trova in uno stato parzialmente osservabile e dovrebbe decidere tenendo conto di questa incertezza ; ad esempio, potrebbe non conoscere la sua posizione esatta in una stanza, ma solo che c&#8217;\u00e8 un muro alla sua sinistra. Un&#8217;attivit\u00e0 pu\u00f2 anche richiedere un&#8217;operazione simultanea di pi\u00f9 agenti che dovrebbero interagire e cooperare per raggiungere un obiettivo comune.<\/p>\n\n\n\n<p>Un esempio \u00e8 una squadra di robot che giocano a calcio.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>In alcune applicazioni l&#8217;output \u00e8 rappresentato da una sequenza di azioni, in tal caso una singola azione non \u00e8 importante, ci\u00f2 che conta \u00e8 la policy ovvero la sequenza di azioni corrette per raggiungere l&#8217; obiettivo: \u00a0un&#8217;azione \u00e8 buona se fa parte di una buona politica. In tal caso, il programma di Machine Learning dovrebbe &hellip; <\/p>\n<p class=\"link-more\"><a href=\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/\" class=\"more-link\">Leggi tutto<span class=\"screen-reader-text\"> &#8220;L&#8217;output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni.&#8221;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v17.2 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>L&#039;output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni. - Esplorando il Futuro della Tecnologia e dello Sviluppo<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"L&#039;output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni. - Esplorando il Futuro della Tecnologia e dello Sviluppo\" \/>\n<meta property=\"og:description\" content=\"In alcune applicazioni l&#8217;output \u00e8 rappresentato da una sequenza di azioni, in tal caso una singola azione non \u00e8 importante, ci\u00f2 che conta \u00e8 la policy ovvero la sequenza di azioni corrette per raggiungere l&#8217; obiettivo: \u00a0un&#8217;azione \u00e8 buona se fa parte di una buona politica. In tal caso, il programma di Machine Learning dovrebbe &hellip; Leggi tutto &quot;L&#8217;output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni.&quot;\" \/>\n<meta property=\"og:url\" content=\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/\" \/>\n<meta property=\"og:site_name\" content=\"Esplorando il Futuro della Tecnologia e dello Sviluppo\" \/>\n<meta property=\"article:published_time\" content=\"2021-12-27T19:05:43+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-12-27T19:05:45+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Scritto da\" \/>\n\t<meta name=\"twitter:data1\" content=\"NitAdmin\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo di lettura stimato\" \/>\n\t<meta name=\"twitter:data2\" content=\"2 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebSite\",\"@id\":\"https:\/\/nit.it\/#website\",\"url\":\"https:\/\/nit.it\/\",\"name\":\"Esplorando il Futuro della Tecnologia e dello Sviluppo\",\"description\":\"Naviga l&#039;Innovazione, Trasforma il Futuro.\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/nit.it\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"it-IT\"},{\"@type\":\"ImageObject\",\"@id\":\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#primaryimage\",\"inLanguage\":\"it-IT\",\"url\":\"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png\",\"contentUrl\":\"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png\",\"width\":882,\"height\":327},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#webpage\",\"url\":\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/\",\"name\":\"L'output di un algoritmo di Reinforcement Learning \\u00e8 una sequenza di azioni. - Esplorando il Futuro della Tecnologia e dello Sviluppo\",\"isPartOf\":{\"@id\":\"https:\/\/nit.it\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#primaryimage\"},\"datePublished\":\"2021-12-27T19:05:43+00:00\",\"dateModified\":\"2021-12-27T19:05:45+00:00\",\"author\":{\"@id\":\"https:\/\/nit.it\/#\/schema\/person\/262eee585e8017580f8edd97c470d30e\"},\"breadcrumb\":{\"@id\":\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/nit.it\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"L&#8217;output di un algoritmo di Reinforcement Learning \\u00e8 una sequenza di azioni.\"}]},{\"@type\":\"Person\",\"@id\":\"https:\/\/nit.it\/#\/schema\/person\/262eee585e8017580f8edd97c470d30e\",\"name\":\"NitAdmin\",\"image\":{\"@type\":\"ImageObject\",\"@id\":\"https:\/\/nit.it\/#personlogo\",\"inLanguage\":\"it-IT\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5fc58541436e232960cfb8c19e71c2e2?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5fc58541436e232960cfb8c19e71c2e2?s=96&d=mm&r=g\",\"caption\":\"NitAdmin\"},\"url\":\"https:\/\/nit.it\/index.php\/author\/nitadmin\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"L'output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni. - Esplorando il Futuro della Tecnologia e dello Sviluppo","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/","og_locale":"it_IT","og_type":"article","og_title":"L'output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni. - Esplorando il Futuro della Tecnologia e dello Sviluppo","og_description":"In alcune applicazioni l&#8217;output \u00e8 rappresentato da una sequenza di azioni, in tal caso una singola azione non \u00e8 importante, ci\u00f2 che conta \u00e8 la policy ovvero la sequenza di azioni corrette per raggiungere l&#8217; obiettivo: \u00a0un&#8217;azione \u00e8 buona se fa parte di una buona politica. In tal caso, il programma di Machine Learning dovrebbe &hellip; Leggi tutto \"L&#8217;output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni.\"","og_url":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/","og_site_name":"Esplorando il Futuro della Tecnologia e dello Sviluppo","article_published_time":"2021-12-27T19:05:43+00:00","article_modified_time":"2021-12-27T19:05:45+00:00","og_image":[{"url":"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png"}],"twitter_card":"summary_large_image","twitter_misc":{"Scritto da":"NitAdmin","Tempo di lettura stimato":"2 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebSite","@id":"https:\/\/nit.it\/#website","url":"https:\/\/nit.it\/","name":"Esplorando il Futuro della Tecnologia e dello Sviluppo","description":"Naviga l&#039;Innovazione, Trasforma il Futuro.","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/nit.it\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"it-IT"},{"@type":"ImageObject","@id":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#primaryimage","inLanguage":"it-IT","url":"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png","contentUrl":"https:\/\/nit.it\/wp-content\/uploads\/2021\/12\/reinforcementlearning.png","width":882,"height":327},{"@type":"WebPage","@id":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#webpage","url":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/","name":"L'output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni. - Esplorando il Futuro della Tecnologia e dello Sviluppo","isPartOf":{"@id":"https:\/\/nit.it\/#website"},"primaryImageOfPage":{"@id":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#primaryimage"},"datePublished":"2021-12-27T19:05:43+00:00","dateModified":"2021-12-27T19:05:45+00:00","author":{"@id":"https:\/\/nit.it\/#\/schema\/person\/262eee585e8017580f8edd97c470d30e"},"breadcrumb":{"@id":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/nit.it\/index.php\/2021\/12\/27\/loutput-di-un-algoritmo-di-reinforcement-learning-e-una-sequenza-di-azioni\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/nit.it\/"},{"@type":"ListItem","position":2,"name":"L&#8217;output di un algoritmo di Reinforcement Learning \u00e8 una sequenza di azioni."}]},{"@type":"Person","@id":"https:\/\/nit.it\/#\/schema\/person\/262eee585e8017580f8edd97c470d30e","name":"NitAdmin","image":{"@type":"ImageObject","@id":"https:\/\/nit.it\/#personlogo","inLanguage":"it-IT","url":"https:\/\/secure.gravatar.com\/avatar\/5fc58541436e232960cfb8c19e71c2e2?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5fc58541436e232960cfb8c19e71c2e2?s=96&d=mm&r=g","caption":"NitAdmin"},"url":"https:\/\/nit.it\/index.php\/author\/nitadmin\/"}]}},"_links":{"self":[{"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/posts\/70"}],"collection":[{"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/comments?post=70"}],"version-history":[{"count":1,"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/posts\/70\/revisions"}],"predecessor-version":[{"id":72,"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/posts\/70\/revisions\/72"}],"wp:attachment":[{"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/media?parent=70"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/categories?post=70"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/nit.it\/index.php\/wp-json\/wp\/v2\/tags?post=70"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}