5月31日(金)1コマ目

今日、やったこと

  • [確認テスト]誤差
  • 文字コード

今日のホワイトボード

コンピュータで文字を扱うには

コンピュータ内のデータはすべてビット列。

数値はビット列に変換できる。

文字は一旦数値に置き換えればビット列になる。コンピュータで文字を扱うことができる。

文字の画像をビット列にすることも一案だけど、データサイズが大きくなってしまう。

一般的には各文字にユニークな数値を割り当てている。

図 コンピュータで文字を扱うには


文字コード

よく使われる単語だが、人によって、話の文脈によって何をさすかが変わる。

誤解を生みやすい単語なので、この授業では極力「文字コード」を使わないようにします。

「文字コード」の使われ方例

  • 文字集合(文字のあつまり)を文字コードと呼んでみたり
  • 文字符号化方式(文字を数値に変換するためのルール)を文字コードと呼んでみたり
  • 文字符号化方式に従って符号化されたデータを文字コードと呼んでみたり


文字集合と文字符号化方式

文字集合は文字のあつまり。

文字符号化方式は文字を符号(数値)に置き換えるためのルール。

図 文字集合、文字符号化方式

この2つ(文字集合、文字符号化方式)は別モノです。


規格を決める団体

文字集合も文字符号化方式も個人が勝手にやるわけにはいかない(みんな同じ文字集合、文字符号化方式を使うため)。

そこで規格を決める団体が文字集合や文字符号化方式を決める。

図 規格を決める団体
JISは日本だけの規格。ISOはグローバルな規格。
日本国内だけしか流通しない商品やサービスならJISを満たせばOK。
グローバルに展開するならISOを満たす必要あり。

文字符号化集合

符号化された文字のあつまり。文字集合+文字符号化方式のイメージ。
図 文字符号化集合

ASCII

コンピュータ初期のころに生まれた。
文字集合+文字符号化方式。
初期のころなので分けて考える必要性を感じていなかった。
アルファベット+数字+記号+制御文字の約100文字。
1文字7ビット。(7ビットなら128パターン)
図 ASCII

ASCIIで符号化

ASCIIの表に従って各文字を符号化。
図 ASCIIで符号化

JIS X 0201

日本語版ASCII。
ASCIIに半角カナを追加。
半角カナを追加すると128文字(7ビットの上限)を超えるため、1文字8ビット。(8ビットなら256パターン)
これも文字集合+文字符号化方式。
図 JIS X 0201で符号化

次回は

文字コードのつづきです。
テストはしません。






 

このブログの人気の投稿

6月7日(金)1コマ目

6月14日(金)1コマ目