乐胖代购免代理版

{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,7,2]],"date-time":"2024-07-02T06:31:03Z","timestamp":1719901863170},"reference-count":18,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2004,7,1]],"date-time":"2004-07-01T00:00:00Z","timestamp":1088640000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw."],"published-print":{"date-parts":[[2004,7]]},"DOI":"10.1109\/tnn.2004.828760","type":"journal-article","created":{"date-parts":[[2004,7,13]],"date-time":"2004-07-13T13:27:59Z","timestamp":1089725279000},"page":"792-799","source":"Crossref","is-referenced-by-count":21,"title":["A New Criterion Using Information Gain for Action Selection Strategy in Reinforcement Learning"],"prefix":"10.1109","volume":"15","author":[{"given":"K.","family":"Iwata","sequence":"first","affiliation":[]},{"given":"K.","family":"Ikeda","sequence":"additional","affiliation":[]},{"given":"H.","family":"Sakai","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref13","first-page":"473","article-title":"Average-reward reinforcement learning for variance penalized Markov decision problems","author":"sato","year":"2001","journal-title":"Proc 18th Int Conf Machine Learning"},{"key":"ref12","first-page":"761","article-title":"Bayesian Q-learning","author":"dearden","year":"1998","journal-title":"Proc 15th Nat Conf Artificial Intelligence"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/0005-1098(78)90005-5"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.1974.1100705"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/4168.001.0001"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1023\/A:1007678930559"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1162\/089976699300016025"},{"key":"ref1","author":"sutton","year":"1998","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4899-2696-8"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1214\/aos\/1176346150"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1214\/aoms\/1177729586"},{"key":"ref8","volume":"203","author":"han","year":"2002","journal-title":"Mathematics of Information and Coding"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1214\/aos\/1176350051"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/BF00992698"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-44491-2_34"},{"key":"ref3","first-page":"1114","article-title":"A reinforcement learning approach to job-stop scheduling","author":"zhang","year":"1995","journal-title":"Proc 14th Int Joint Conf Artificial Intelligence"},{"key":"ref6","author":"billingsley","year":"1995","journal-title":"Probability and Measure"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1613\/jair.301"}],"container-title":["IEEE Transactions on Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx5\/72\/29089\/01310353.pdf?arnumber=1310353","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,3,22]],"date-time":"2023-03-22T16:13:58Z","timestamp":1679501638000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/1310353\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2004,7]]},"references-count":18,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2004,7]]}},"URL":"https:\/\/doi.org\/10.1109\/tnn.2004.828760","relation":{},"ISSN":["1045-9227"],"issn-type":[{"value":"1045-9227","type":"print"}],"subject":[],"published":{"date-parts":[[2004,7]]}}}