AI導入
目次
第10回
第9回
第8回
どのような学習法を選択するべきか答えなさい。
明日の株価を予測したいとき
- 教師あり学習 | パーセプトロン
機械に「操作」を教えたいとき
- 強化学習
明日の天気を予測したいとき
- 教師あり学習 | パーセプトロン
写真を自動的にグループ分けしたいとき
- 教師なし学習
写真に写る物体が何か分類したいとき
- 教師あり学習 | パーセプトロン
強化学習では、機械に環境を与え、機械が環境を認識し行動する。行動の評価を行い、その行動に対して報酬を与え、どうすれば報酬が増えるのかを学習させる。
ある環境下で、戦略にしたがって動く主体をエージェントと呼ぶ。
それは戦略をもとに行動を決定する。その決定により状態が遷移し、遷移する際に報酬を得る可能性がある。この流れを繰り返すことによって、機械は経験を獲得し、その経験をもとに適切な行動を学ぶことができる。
価値とは将来得ることのできる報酬の期待値であり、状態価値と行動価値の2つがある。どちらを利用するかは戦略次第である。次のような迷路があり、機械は上、右、下、左へ移動することができるとする。そのときの行動価値はQ(状態、行動)、状態価値は 𝑉(状態)で表される。
次の図の場合の価値を計算すると Q(S3, 下) は62.5となる。
また上において V(S3) は125となる。
マルコフ決定過程(Markov Decision Process)
エージェントの状態を確認する→エージェントが行動を決定→遷移関数(ある状態で行動を選択したときの状態と遷移確率を求める)→ 報酬関数→エージェントの状態を確認する→エージェントが行動を....(以下ループ)
第7回
相関とは、事象X、Y間において、Xが変化するに従って、Yが変化する関係のことである。例えば、「温度が上がれば、ビールの売上が上がる」関係である。2つのデータにおける直線的な関係の強さを示す値として、相関係数(r)がある。相関係数はー1から+1の間の値を取り、r=-1の場合、強い負の相関という。相関係数は、共分散を各標準偏差の積で割った値である。
共分散は、平均値からどれだけ離れたかを面積で計算し平均した値であり、2つの平均値からのばらつきを表している。この共分散がプラスになるとき、相関係数はプラスとなる。
相関係数は、相関関係がある場合でも相関がないとして計算されることもある。そのため散布図を描いて関係を確認する必要がある。強い相関があったからと言って因果関係があるかは別である。2つの事象に直接関係がないにも関わらず相関関係があるかのように推測されることがある。疑似相関の原因と考えられる事象を潜在変数という。
データやAIは、大きく社会に貢献する半面、悪用され社会に悪影響を与える恐れもある。このような技術が社会に与えうる影響についてどこまで責任を持つべきかの考え方としてELSIが提唱されている。ELSIは、倫理的、法的、社会的問題のことであり、社会の受容ラインを考えることは社会的問題に含まれる。AI利用者が気を付ける倫理は、データ倫理とAI倫理である。データ倫理ではデータを用いた技術を使う場合に、人として行って良いかを考える。AI倫理においては、AIが社会におけるサービスとして実際に利用される場合の責任の所在を考えることになる。
データの健全性において、捏造や改ざん、剽窃に注意する。データを恣意的に変えることを ‘’改ざん’’、存在しないデータを作ることを捏造という。
収集したデータにバイアス(偏り)があることがある。例えば、特定の地域でデータを集めると、その地域固有の偏りが発生する。偏りは様々な要因で発生し、意図せず偏りが発生することも珍しくない。AIではデータに偏りがある際には、その偏りを学習し反映することがあるので、データに偏りがないかを調査することや、AIの出力結果を慎重に確認する必要がある。日本においては、AIに与えるデータをWebから収集可能とするため著作権法が改正された。その収集したデータをもとに作成したAIモデルの著作権者は’’開発者’’となり、そのAIモデルが主体となって生成した情報の著作権者は存在しないとなる。
問題を起こした際の説明責任や責任を誰がどの程度取るのかを規定し、それを行うことをカウンタビリティという。しかし、現在のAIの多くはブラックボックスとなっているため、何故問題が起きたのかの説明が困難となり、責任がどこにあるかを究明することが難しい。そのため過去の類似例を示して、AIの動作の正当性を示し補償体制を構築していくことになる。
第6回
代表値は、どのような場合においても使える値ではない。例えば、二峰性でピークの値が近い場合、少しサンプル数を増加させると最頻値が大きく変化することがある。それぞれの性質を知り、どのような意味があるのか良く理解しておく必要がある。また、データの可視化により全体がどのようになっているかも調べるべきである。
データのばらつきとが大きいとは平均値から乖離するデータが多いことを意味する。
そのデータのばらつきを表す値として分散や標準偏差がある。分散の平方根を標準偏差と呼ぶ。
標準偏差が大きいほど、ばらつきが大きいことになる。
また、データが正規分布している場合、±1SD内にデータの約68.26%が存在することを意味する。自然現象や社会現象は、正規分布に従うものが多く存在するため、統計や検定手法では正規分布を仮定するものがある。
機械学習時に、特徴量のスケール(桁数)が異なるものを与えるとスケールが大きい方が結果に反映されやすくなり学習が進みにくくなるため良くない。例えば、年齢(40歳)と年収(400,0000円)である。そのため各データが与える影響を揃えるために、正規化や標準化を行う。正規化とは最小値と最大値を0と1になるよう調整する手法である。
また標準化は平均と標準偏差をそれぞれ0と1とするよう調整する手法である。
給与など最大値が決まっていないデータの場合は標準化を使うことが多い。使用するAIモデルによっては正規化をしなくてもよいこともある。
最大値や最小値が決まっていない場合正規化はできない
次のデータを正規化したときの①の値を求めなさい。
正規化の式 : X - min / max - min
0.28
次のデータを標準化したときの②の値を求めなさい。
標準化の式 : X - 平均 / SD
0.5
第5回
機械学習においては、特徴量を選択する必要がある。特徴量とは、目的を説明するための情報であり、この情報が良くないと正しく動作するAIを作成できない。特徴量を選択するために統計学やデータサイエンスを用いる方法があるが、データに合わせてその手法を変えていく必要がある。そのために、まずデータ自体を整理し、データを理解する必要がある。整理を行うための手法のひとつが可視化である。可視化を行うと、経験によって直感による理解を最大限に利用することができる。例えば、値の大小は、バーの高さ低さとして表すことができる。また、同じ属性は同じ形として表すとよい。
データを可視化するときにグラフを使うことが多い。2つの項目の関係を確認するときは折れ線グラフを用いる。
また、偏りなど分布を確認するときはヒストグラムを用いる。
データの可視化は、データそのものを理解する場面やなんらかの主張を第三者に納得させる場合に役に立つ。AIでデータの可視化が必要な場合はデータそのものを理解するときである。データの可視化は様々な場面で効力を発揮することができる技術であり、社会で生きていく上で必須技術であろう。
目視で確認した後、統計などを取り、データがどの様な性質があるのかを数値情報として確認する。外れ値の削除などは、グラフや数値を目で見て取り除くではなく、統計処理によって行うことが重要である。主観的な判断はデータの偏りを生み、また、誰からも納得を得られないからである。
データの代表値として、平均値、中央値、最頻値、最大値、最小値などがある。全データを合計しデータ数で割った値を平均値と呼ぶ。
また、最もよく出現する値を最頻値と呼び、
データを昇順に並び替えたときの真ん中の値を中央値と呼ぶ。
次のヒストグラムに対応する箱ひげ図として最も適切なものはA,B,CのうちBである。
箱ひげ図
分位数・パーセンタイル・percentile
- データを小さい順に並べたとき、初めから数えて全体の𝜶%番目に位置する値を𝜶パーセンタイルと言う.
- 例:25人の試験結果のデータについて
- 50パーセンタイルは最低点から13番目の人の点数(中央値) • 0パーセンタイルは最低点から1番目の人の点数(最低点)
- 100パーセンタイルは最低点から25番目の人の点数(最高点)
- 25%ごとに分けて「四分位数(しぶんいすう)」で表すことがある. • 第1四分位数:25パーセンタイル
- 第2四分位数:50パーセンタイル
- 第3四分位数:75パーセンタイル
可視化により、データを理解しやすくなる
- 適切な手法で、可視化すること
特に、AIでは下記が重要
- 仮説生成やモデル選択の前段階での 「データそのものを理解する」場面
- 視覚的にデータのいろいろな面を表示することで、「データに語らせる」
第4回
欠席
10進数 | 2進数 | 16進数 |
0 | 0 | 0 |
1 | 1 | 1 |
2 | 10 | 2 |
3 | 11 | 3 |
4 | 100 | 4 |
5 | 101 | 5 |
6 | 110 | 6 |
7 | 111 | 7 |
8 | 1000 | 8 |
9 | 1001 | 9 |
10 | 1010 | A |
11 | 1011 | B |
12 | 1100 | C |
13 | 1101 | D |
14 | 1110 | E |
15 | 1111 | F |
16 | 10000 | 10 |
17 | 10001 | 11 |
18 | 10010 | 12 |
19 | 10011 | 13 |
第3回
欠席
第2回
- AI研究の始まりの論文はShannonのコンピュータにチェスをさせるための論文であると言われている。
- その後にダートマス会議の申請にAIが使われ、一般に認知され盛んに研究がなされた。
- 第1次ブームで行われた主な研究は探索と推論に関する研究であった。
- また、第1次ブームでは、人間の脳細胞を計算モデル化したパーセプトロンが発明された。第1次ブームでは、研究のための問題を作り、解決していたことから、AIは本当に役に立つのかとの批判も受けた。
- 第3次ブームでは、第2次ブームの問題であったコンピュータの知識の獲得について進展があった。その技術の筆頭がディープラーニングである。また、AI研究が発展しやすい環境が出来ていたのも要因である。
- 第3次ブームでは、主に機械学習に関する研究がなされており、未だ限界がまだ見えず、様々な分野で実用的なAIが開発されている。
第1回
AIとは何か。
端的に表すと、人工的に作られた知能である。
ここでいう知能とは、あたまのはたらき、知識の蓄積や物事を判断する能力であり、知能検査で測られ、知能年齢または知能指数で表わされる精神水準である。
究極的な目的は、「知能を持った機械を作ること」 であり、学術的な人工知能の正確な定義は時代によって変わるため、説明できない。
社会的には、知能の有無に関わらず、コンピュータに人間の知的機能を代行させるソフトウェアを表すことが多い。
参考図書
- 教養としてのデータサイエンス (データサイエンス入門シリーズ)
- 人工知能の基礎