#author("2023-07-12T13:16:10+09:00","default:ryutarodayo1234","ryutarodayo1234")
*データ
RIGHT:データを扱うことについてのまとめ
#author("2024-05-16T19:35:42+09:00","default:ryutarodayo1234","ryutarodayo1234")

~
~

**コンピュータとデータ

***二進数と十六進数
二進数は0と1のみを用いて数を表現する方法で、コンピュータ内部で広く用いられています。一方、十六進数は0から9、そしてAからFまでの16の記号を用いて数を表現します。十六進数は二進数よりも情報をコンパクトに表現できるため、人間が読み書きする際に便利です。例えば、二進数''0b 1101 1100 1111''は十六進数で''0x DCF''と表現できます。
~
***アスキーコード
アスキーコードは、文字や制御コードを数値に対応させたものです。例えば、''41 53 43 49 49 43 6f 64 65''は十六進数でのアスキーコードで、これを文字に変換すると''ASCIICode''となります。
~
***データの種類
データは大きく分けて量的データと質的データの2つに分類されます。量的データは数値で表され、その数値に意味があるデータ(例:身長、体重など)です。一方、質的データは数値に意味がないデータ(例:血液型、性別など)です。
~
***コンピュータで扱われるデータ
コンピュータでは、データは主にバイナリ(二進数)形式で扱われます。テキストデータはエンコーディング形式(例:UTF-8)を用いてバイナリデータに変換されます。UTF-8は世界中のほぼすべての文字を表現できるエンコーディング形式です。
~
***ラベルエンコーディング
ラベルエンコーディングは、質的データを数値に変換する手法の一つです。各カテゴリに一意の数値を割り当てることで、コンピュータが理解できる形式に変換します。これにより、質的データを機械学習などのアルゴリズムで扱うことが可能になります。

~

**特徴量
特徴量の選択は機械学習の鍵となるステップの一つです。特徴量は、予測モデルが目的変数を予測するために使用する情報で、適切な特徴量が選択されなければ、予測モデルの性能は著しく低下します。

特徴量選択の過程では、まずデータを理解する必要があります。そのために、データ可視化は非常に重要なステップです。データ可視化は、データのパターン、異常、相関関係を探すのに役立ちます。具体的には、折れ線グラフは二つの変数の関係性を示し、ヒストグラムはデータの分布を示します。

データ可視化が提供する情報は、データ分析やAIモデル設計の初期段階で非常に価値があります。その後、さらに詳細な分析のために統計的手法を用いることができます。データの代表値や分散、偏りなどの情報は、特徴量選択の方向性を示す貴重な洞察を提供します。
また、四分位数やパーセンタイルといった統計的手法と組み合わせることで更に有用となります。箱ひげ図はその一例です。

データの理解と分析は、AIや機械学習モデルの設計と性能改善において重要なステップです。それらは、観察、統計分析、データ可視化といった手法を用いて進められます。これら全てのステップが互いに補完し合い、より良いAIモデル設計のために役立つことが期待されます。

~
**データの標準化
データのばらつきや分布は、そのデータの理解にとって非常に重要です。また、これらの情報は、データを適切に処理し、適切なモデルを選択するためにも必要です。

分散や標準偏差は、データのばらつきを定量化する方法としてよく用いられます。特に、標準偏差はデータのばらつきを直感的に理解するのに役立ちます。正規分布に従うデータについては、±1標準偏差の範囲にデータの約68.26%が存在するとされています。

また、機械学習では、特徴量のスケールの違いがモデルの性能に影響を及ぼすことがあります。そのため、正規化や標準化といった前処理がよく行われます。これらの手法は、特徴量の範囲を一定の範囲に制限することで、特徴量間のスケールの違いを調整します。

具体的な問題については、具体的なデータが必要となりますが、お示しいただいた画像やデータはテキストの中には含まれておりません。正規化や標準化の式を使って具体的な値を計算するためには、具体的なデータセットとそれに対する操作が必要です。しかし、以下のようにその公式を使用します。

***正規化の公式
 Xnew = (X - Xmin) / (Xmax - Xmin)

***標準化の公式
 Z = (X - μ) / σ

ここで、Xnewは正規化された新しい値、Xは元の値、XminとXmaxはデータセット内の最小値と最大値。
また、Zは標準化された値、μはデータセットの平均、σはデータセットの標準偏差を表します。

~
**相関・因果・疑似相関

***相関関係
相関とは、2つの変数間の関係性を表す統計的な概念です。相関係数はその関係性の度合いを示し、負の値は一方の変数が増加すると他方が減少する傾向があることを、正の値は一方が増加すると他方も増加する傾向があることを示します。

強い相関が見られるからといって、それが因果関係を意味するわけではありません。疑似相関とは、関連性があるように見えるものの、実際には関連性がないケースを指します。これは、相関関係を解釈する際に注意が必要な理由の一つです。
~
***因果関係
一つの事象(原因)が別の事象(結果)を直接引き起こす関係を指します。因果関係が存在する場合、通常は相関関係も存在しますが、その逆は必ずしも真ではありません。
~
***疑似相関、または偽相関
2つの変数間に見かけ上の相関が存在するが、実際には直接的な因果関係が存在しない状況を指します。これは通常、未観察の第三の変数(混乱因子)が両方の変数に影響を与える結果として発生します。




~
~