1つ挙げるならJAM!

初めてのお題チャレンジです。 お題「人生で一番ハマったもの」 約40年生きてきましたので、 ハマったものは大小いろいろありますが 1つだけ選べと言われれば、間違いなく 『JUDY AND MARY』 中学時代、高校時代、予備校時代、大学時代とずーーっとハマっ…

故障したApple Watch端末のモバイルSUICA再発行までの苦難

shirakonotempura.hatenablog.com 先日、故障したことをお伝えしたApple Watch(series3)ですが 下記の記事の方もほぼ同じ時期にぶっ壊れたようです。 なので、やっぱり寿命だったのかもしれませんね。 reishixxx.hateblo.jp 年末のこの時期に出費は痛いで…

Apple Watchが壊れました(泣)

2018年に購入したApple Watch Series 3が壊れてしまいました。 Series 3が販売されたのは2017年ですので、故障というか寿命なのかもしれません。 実際、最新のWatch OS 9のサポート対象からも外されていますし 時間の問題だったのかもしれません。今回は情報…

スイッチ付シャワー(LIXIL)をRefaのシャワーヘッドに交換

1.お風呂に高級シャワーヘッドを導入しました! 先月、とあるお祝いの席で Refa(リファ)の高級シャワーヘッドをいただきました。 最近、家電量販店や家具屋さんさんかでも取り扱われている リファ以外だとミラブルなんかがテレビCMなんかで有名かと思い…

眠ってたAmazon Fire 7がデジタル置時計として復活

タイトルの通りですが 部屋の片隅で、充電されることなく眠ってたAmazon Fire 7を デジタル置時計として使ったらかなりいい感じになりました。 キーボードと配線はもう少し頑張ります・・。 Amazon Fire とは Fire タブレットはAmazonのタブレット端末で お…

いろいろ迷った結果TechnicsのワイヤレスイヤホンEAH-AZ60を買った話

今日は私が使っているワイヤレスイヤホンについて書きたいと思います。 現在使っているワイヤレスイヤホンは『technics EAH-AZ60』。昨年12月頃に25,000円くらいで購入しました jp.technics.com 購入に至るまで コロナ禍になってからは当社でもテレワーク、…

Apple Watchで快適に在来線・新幹線を使う

本日は、Apple Watch で在来線・新幹線をスムーズに乗り継ぐ方法を調べる際に、参考にした記事を紹介します。 少し前まで海外版iPhone7 (fericaなし)を使っており、Apple Watchの連携にちょっとだけ悩んだこともあったのでそういった方にも参考になると思…

androdスマホからiPhoneへ電話帳(連絡先)を移行する方法

これまで、電話専用スマホ(android)とデータ専用スマホ(iPhone)の2台持ちをしていたのですが、さすがに2台持ちがしんどくなってきましたので、iPhoneに統合することにいたしました。 結果的に移行は無事できましたが、ほんの少しですが、トラブったので備…

強化学習:再・迷路問題2(Q学習、線形関数近似)

では、前回の記事に引き続き線形関数近似を使った迷路問題を扱っていきます. 今回はまとめきる予定です.コードは写経が多いので余り見せられるものではないのですが、公開する予定です. shirakonotempura.hatenablog.com !!これは私の勉強用ノートです…

強化学習:再・迷路問題1(Q学習、線形関数近似)

春休みなどもあり少し間が空きましたが、引き続き強化学習についていろいろ書いていきます. 先に書いておくと、今回の記事では迷路の内容まで至っていません. !!これは私の勉強用ノートです!! はじめに 今回の主な目的は、線形関数近似の実装です. と…

強化学習:Taxi-v2(Q-Learning, SARSA, Expected SARSA)

2019.2.25 追記:SARSAおよびExpected SARSAのコーディングに誤りがあります.修正したら記事も修正するか別の記事で修正版を出すようにします. はじめに 今回は、以前やった内容の復習が主になります. タイトルにあるとおり、TD学習の手法であるQ学習、SA…

強化学習:関数近似(パラメータの更新)

はじめに 前回は、近似式と目標値の差を表す誤差関数を最小化するパラメータの探索手法の1つである勾配法について整理しました. 強化学習:関数近似(勾配法とか) - 他力本願で生き抜く(本気) 今回は、強化学習におけるパラメータの更新について詳しく…

強化学習:関数近似(勾配法とか)

追記(謝罪):偏微分の式で分母にしか記号を付けていませんが、正しくは分子にも必要なようです.以後気を付けます. はじめに 前回に続き、関数近似について整理していきます.前回は途中で疲れ果ててしまいました・・. 強化学習:関数近似(その1:導入…

強化学習:関数近似(その1:導入)

はじめに 今回から、Sutton本9章の内容について勉強しながら、関数近似についてまとめていきたいと思います.Sutton本では、この章(9章)からは第2部となっており、これまでTabular(表形式)で扱っていた状態を関数近似によって拡張していく内容になります…

強化学習:プランニングと学習(その2)

はじめに 今回は、前回の記事(強化学習:プランニングと学習(その1))の続き、迷路問題での実装を行っていきます. 迷路問題に対するDyna-Qの導入 では、Sutton本に記載されている例題を使って、通常のQ学習と、Dyna-Qを比べてみます. 問題設定(6×9マ…

強化学習:プランニングと学習(その1)

はじめに 今回からの話はSutton本、第8章(Planning and Learning with Tabular Methods)の内容になります. 本当は前回の記事(SARSA・Q学習)に引き続き、Actor-Criticについて整理したかったのですが、諸事情で8章の内容の理解に努めたいと思います. 今…

強化学習:TD学習(SARSA、Q学習)

はじめに 前回は、TD(temporal-difference)学習の基本編として定式化とアルゴリズムの紹介を行いました. 強化学習:TD学習(基本編) - 他力本願で生き抜く(本気) 今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習(Q-learni…

強化学習:TD学習(基本編)

はじめに 前回までに、動的計画法(DP法)およびモンテカルロ法の概要を整理しました. 今回は、この2つの手法を組み合わせたTD法という学習手法について整理します(Sutton本:6章) これは私の学習ノートです.メモ、備忘録です. * 今回も、以下の記事を…

強化学習:モンテカルロ法(without ES)

はじめに 前回はモンテカルロ法を用いた行動価値関数の評価と方策改善について紹介しました. 強化学習:モンテカルロ法(行動価値評価) - 他力本願で生き抜く(本気) その際、開始点探査(ES、Exploring Starts)という仮定をおいていましたが、今回はそ…

強化学習:モンテカルロ法(行動価値評価)

はじめに 前回はモンテカルロ法を使って状態価値を評価するアルゴリズムを紹介しました. 今回は行動価値を評価するアルゴリズムについて紹介します. 強化学習:モンテカルロ法(状態価値評価) - 他力本願で生き抜く(本気) これは私の学習ノートです.詳…

強化学習:モンテカルロ法(状態価値評価)

今回の内容はSutton本5章のモンテカルロ法(Monte Carlo Method)についてです. これは私の学習ノートです.詳しく知りたい方は、以下の記事を呼んでください. qiita.com おさらい モンテカルロ法の説明のために、これまでまとめてきた方法について概要を…

強化学習:再帰処理と反復処理

前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました.おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします. ですが、実装してみると分かりますが、非常に計算時間が遅いです.誇…

強化学習:行動価値関数(Action Value Function)(実装・写経)

今回は、前2回で整理した状態価値関数と同じ価値関数である行動価値関数(Action Value Function)について整理していきます. 以下を参考にしています.以下の記事はかなり丁寧に書かれていますが、だいぶはしょっていきます. qiita.com 行動価値関数と状…

強化学習:状態価値関数とBellman方程式 (実装・写経)

前回、コチラの記事を参考のまま、状態価値関数の定式化を行いましたので、実際にプログラムに実装して状態価値関数の計算を行ってみます. 今回も前回と同様の記事を参考にしています. qiita.com この記事は私の学習用ノートです。上の記事をトレースして…

強化学習:状態価値関数とBellman方程式 (良記事のトレース)

いきなりですが、状態価値関数・Bellman方程式について調べたくてこの記事にたどり着いた方は、何も考えずに以下の記事に飛んでください.時間を無駄にしなくてすみます. qiita.com 今回から、上のQiitaに投稿された記事をトレースしながら状態価値関数から…

強化学習:Markov Decision Processes(マルコフ決定過程)

はじめに 今回は、強化学習における最も重要な考え方の1つであるマルコフ決定過程について整理していきます. 目標 マルコフ決定過程の概要を理解する マルコフ決定過程(Markov Decision Processes) 強化学習の枠組み(再掲) マルコフ決定過程の説明に先…

強化学習:Multi-armed Bandits(UCB)

今回の記事も、本テキストの主に2.6章、2.7章を整理したものになります.今回は、UCBアルゴリズムについて扱います. ε-greedy法と同じく行動選択のアルゴリズムになります. UCBアルゴリズム 早速ですがUCBアルゴリズムの説明をしていきます.UCBとはUpper …

強化学習:Multi-armed Bandits(非定常・楽観的初期値)

今回の記事は、本テキストの主に2.5章からを整理したものになります.今回は、Non-stationary Problem(非定常問題)およびOptimistic Initial Values(楽観的初期値)について扱います. Tracking a Non-stationary Problem 前回は、行動の真の価値が変化し…

強化学習:Multi-armed Bandits(多腕バンディット問題)

はじめに 今回は先日紹介した強化学習の本の2章に登場するMulti-armed Banditsをとりあげます. 2章で取り上げられているので問題としては非常に単純な問題なのですが、いまだに研究の題材としては度々扱われます.2018年12月に開かれた国際会議NeurIPS 20…

強化学習:Introduction

はじめに 今回は、唐突ですが強化学習について整理します. これまで(といってもたったの数回ですが)私が記事で扱ってきたのは、教師あり学習でした.前回クラスの勉強をしている際、ふと強化学習に興味を持ってしまいましたので、理解を深めるため記事に…