コンピュータは文字コードという数値で文字を処理しています.日本語を扱う上でいつもついてまわる問題が文字コードの処理方法です.
もともとコンピュータはアルファベットを使う国,アメリカで作られたので,日本語のようにひらがな,カタカナ,そしてたくさんの漢字を使うようには出来ていませんでした.アルファベットと数字なら1バイトあれば事足りますから.
でも日本人にとって,アルファベットと数字しか使えないコンピュータなんて不便でしょうがありません.日本語のように文字の種類が多いと一文字を表すのに2バイト以上が必要になります.それにはいろいろと困難が伴うのですが,さまざまな工夫で日本人はつぎの方法を編み出しました.
詳しいことは置いておいて,現在パソコンなどで使われているものは
がメインです.シフトJISコードはWindowsやMac OSの標準コードとして,7ビットJISコードはメールなどに,EUCコードはLinux系OSで多く使われています.
改行を表すのに用いられるコードが改行コードです.違うOSでつくったテキストファイルをエディタで開くと,改行がなくて読みずらかったりします.これは日本語の問題ではなく, OSによって採用している改行コードが異なるために起こります.
日本語文字コードと改行コードは OS によって少し異なっており,つぎのようになっています.
OS | (主な)日本語文字コード | 改行コード | 改行コード(16進) | 改行コード(10進) |
Linux | EUC-JP | LF | 0A | 10 |
Wondows | Shift_JIS | CR+LF | 0D 0A | 13 10 |
Macintosh | Shift_JIS | CR | 0D | 13 |
例えば Linux で作ったファイルを Windows で使う場合は,文字コードを EUC-JP から Shift-JIS に,改行コードを LF から CR+LF にすればいいことがわかります.