Refsort on Excel は,Refsort/Ruby (直前の記事をご覧ください)を Microsoft Excel 上で使うためのインターフェースを提供するマクロ埋め込みワークシートです.
今日,さまざまなデータを整理分析するのに表計算ソフトウェアは欠かせないものになっていますが,そのワークシート上に書かれたリストに対して,簡便で直感的なインターフェースで Refsort/Ruby の並べ替え機能を提供します.
元来 Excel の内部では UTF-16 という Unicode の符号化が用いられており,多言語の文字を混在して同時に扱うことができます.しかしこれまでは私の知識不足,能力不足から,扱えるエンコーディングを Windows-31J (Shift_JIS) に限定して Refsort on Excel を提供してきました.
今回の改訂ではこの制約を転換し,UTF-8 という Unicode の符号化スキームに切り替えました.これにより Excel 内部の UTF-16 と整合性が取れて,世界中のさまざまな言語の文字を混在させたリストに対して辞書を参照した並べ替えが可能となりました.
例えば IOC List にはアクセント付きの文字や,ウムラウト,トレマなどを含む文字が多用されています.それらが命名者表記や生息域の地名などに出てくるのは当然ですが,標準英名に含まれている場合もあります.標準英名は並べ替えのキーとして使う場合も多いので特に注意が必要です.例えば Seicercus soror Alström's Warbler が代表的です.従来は US-ASCII や Windows-31J でエンコードされた辞書ファイルではウムラウトを直接扱えないため,ウムラウトのない小文字の o で代用していました.しかしこれはある種の近似を行っていることになり,並べ替え結果を再利用する際に支障が出てくる可能性があります.今回の改訂でそのような近似は必要なくなりました.
当然ながら,そのためには UTF-8 でエンコードされた辞書を使う必要があり,従来とは使う辞書の種類が異なることに注意する必要があります.これまで私が作成して提供している辞書は,日本鳥類目録,IOC List,日本種子植物リストの3種類ですが,いずれも UTF-8 でエンコードしたものも提供してきました.エンコーディングはこれらのファイル名の末尾に付けた接尾辞で区別できます.接尾辞が "u" のものが UTF-8 で,"w" のものが Windows-31J でエンコードされたものです.
あらためて UTF-8 でエンコードされた辞書のリストを示すと,
ファイル名 |
内容 |
jpblist_v70p5u.ref |
日本鳥類目録改訂第7版 |
ioclist_v132u.ref |
IOC List v1.32 オリジナル版 |
ioclist_v132ju.ref |
IOC List v1.32 和名追加版 |
jplant056u.ref |
日本の種子植物リスト 新エングラー順 |
となります.いずれも BOM なし,改行コードが LF のテキストファイルです.
今後,Refsort on Excel v2.50U 以降を使う場合には,辞書ファイルにこれら UTF-8 でエンコードされたものを指定するようにしてください.また利用する Refsort は最新の v3.77 以降が望ましいので,こちらもご注意ください.
使用例のスクリーンショットを示します.IOC List から標準英名にウムラウトが使われているものを集めて,標準英名をキーにして並べ替えを行ってみました.辞書ファイルのキーは第 1 フィールド,入力のキーも第 1 フィールドです.正しく並べ替えられていることがわかります.

今回の改訂でようやく UTF-8 を使えるようになったので,多様な言語で書かれたリストに対して Refsort を Excel 上で使えるようになったはずです.詳しい説明は,Refsort/Ruby v3.77 と同時にリリースしたユーザーズガイドの付録をご覧ください.
最近のコメント