IT関連情報

2024/10/13

日本鳥類目録第8版に準拠したRefsort/Ruby用辞書ファイル

日本鳥学会による権威あるチェックリストで,日本で確認された野鳥を体系的に網羅した「日本鳥類目録」の改訂第 8 版がようやく出版されました.前回の改訂が 2012 年のことだったので,実に 12 年ぶりの改訂です.本来は 2022 年の出版をめざしていたようですが,COVID-19 にぶち当たって作業が停滞してしまったようです.また今回は事前に広くパブリックコメントを募集し,その内容を反映させることも行ったので,余計に時間がかかったのだと思います.

ところが出版されたのは何と印刷製本された紙の本だけ.一体 Excel のワークシートや XML 版のデータベースはどうしたのでしょう?世界のチェックリストはとうの昔に電子データのみの提供に移っているのに.これでは使い勝手が悪くて実用に供されないのではと心配になります.ひょっとすると,まず印刷製本されたものを売って費用を回収してから電子データを提供するつもりかもしれません.

ただし印刷版を見て驚きました.常識的な組版規則が守られていないからです.項目がページ最下行から始まっている箇所が多数.これを出版関係者が見たらかなり首をかしげるはずです.しかし関係者が費やした時間と苦労は大変なものだったものと想像されるので,苦言はここまで.

日本鳥類目録が新しくなったので,Refsort/Ruby用の辞書も新しくしなければなりません.というわけで,昨年リリースされたドラフト版の電子データを使って試作品は作ってあったのですが,今回の正式版リリース後に修正作業を始め,ようやく完成したところです.

今回のチェックリストには,25 の目,91 の科,299 の属,681 の種,439 の亜種が収録されています.これらを忠実に反映させ,さらに目録に記載されている通し番号と,目録中のページ番号もデータフィールドに加えました.またIOC List との大きな差異がある場合はコメントを追記しました.

ちょっと気になったのは命名者表記です.命名者に同姓の人物がいる場合はイニシャルを追加して区別できるようにするのが普通なのですが,イニシャルが付いている命名者は皆無でした.従って,Charadrius placidus イカルチドリの命名者は IOC List だと Gray, JE & Gray, GR, 1863 なのですが,日本鳥類目録では Gray & Gray, 1863 とだけ書かれています.JE Gray とは John Edward Gray というイギリスの動物学者.GR Gray はその弟の鳥類学者 George Robert Gray です.博物学者には兄弟や親子の例が多いので区別は必要なはず. ご多分に漏れず彼らの父親 Samuel Frederick Gray は植物学者でした.


辞書ファイルのエンコーディングは UTF-8 と Windows-31J (SJIS) で,前者が正版,後者は簡略版です.理由は後者では命名者表記に含まれるウムラウトやアクセントを最も近い文字に簡略化しているからです.またこの改訂に合わせてユーザーズガイドも改訂しました.これらのファイルは Microsoft One Drive 上に設けた専用フォルダからダウンロードできます.それには,このブログ右側のコラムの最上段の Archive の中の Japan Bird List Archive をクリックしてください.そうすると One Drive のフォルダに入ることができますので,あとは適当に選んでダウンロードしてください.

| | | コメント (2)

2024/10/05

Windows11 24H2 にアップデート

10 月 1 日から一般向けにも配布が始まった Windows11 24H2 が私のマシンにはなかなかやって来ません.まあこれは当たり前で,普通は 1, 2 週間ほど待っているうちに勝手にダウンロードされていて,ある日突然「再起動してアップデートしろ」と表示が出てから気が付くのですが,今回はちょっと試してみたいことがあって早めにアップデートしたかったのです.

しかたがないのでアップデートのサイトに出向いて手動でアップデートをかけます.マシン環境の中に新しいバージョンと不整合なものがあると自動的に検出されてアップデートされないと聞いていたので,安全ベルトはかかっているはず.まずはダメ元でやってみました.

結果的には 1 時間ほどでダウンロードとインストールが終わり,何事も無かったかのように元のままの画面が現れました.しかしアップデートされたツール類はもちろん新しくなっています.またいくつかの古いツールは削除されたはず.期待していた機能はどうも私の環境では使えなさそうだったことがわかって落胆.

Win11_24h2_sys

また Windows Subsystem for Linux としてインストールしてあった Ubuntu 24.04.1 のファイルシステムが Explorer に現れないというトラブルが発生.WSL kernel の最新版をインストールしてみたら復活して一件落着.

ピカピカの新品になったはずなので,これで次の半年間はなんとか生活できそうです.

| | | コメント (0)

2024/08/27

IOC List v14.2 Released

IOC World Bird List v14.2 が予定よりもだいぶ遅れてリリースされました.これは 2024 年 2 回目のリリースです.

前回 2023 年 12 月末(公称 2024 年第 1 回)のリリースから 8 か月もかかっていますので,6 か月周期でのリリースが原則のはずの IOC List にとっては非常に変則的です.編集長やスタッフの予定がうまく取れなかったのでしょうか.何しろ全員ボランティアですから.ただし正式なリリース日が判然としないのは前回と同様です.これ困るんですけど.私としては 8 月 27 日をリリースの日と見なしたいと思います.

今回収録されたのはが 44,が 254,が 2,392,が 11,276(うち絶滅種が 163),亜種が 19,756 です.

今回は属レベルの異動が大変多く,Refsort の辞書ファイルの編集には大変時間がかかりました.しかも過去の分類に戻すような修正も目立ちました.例によって日本のバーダー向けに重要と思われる変更点を書いておきます.

  1. Ixobrychus ヨシゴイ属が廃止され Botaurus サンカノゴイ属に併合されました.その結果従来ヨシゴイ属だったすべての種の属名が変更されました.これは非常に大きな変更です.変更内容をそのまま引用すると,mtDNA and UCE genetic studies reveal that Ixobrychus is not monophyletc but is rather paraphyletic relative to Botaurus (Päckert et al. 2014; Hruska et al. 2023). Merge Ixobrychus into Botaurus (Chesser et al. 2024). 日本のバーダーにとって影響がありそうなのは,B. flavicollis タカサゴクロサギ,B. f. flavicollis 亜種タカサゴクロサギ,B. cinnamomeus リュウキュウヨシゴイ,B. sinensis ヨシゴイだと思われます.
  2. Bubulcus アマサギ属が廃止され,Bubulcus ibis Western Cattle Egret ニシアマサギと Bubulcus coromandus Eastern Cattle Egret アマサギは Ardea アオサギ属に異動し,A. ibisA. coromanda となりました.後者の種小名の語尾が性によって変化していることに注意.これも大きな変更です.コメントを引用すると,Phylogenetic analysis based on UCE elements reveals that Bubulcus is embedded in Ardea (Hruska et al. 2023).
  3. タカ類でも大きな変更が行われました.そのまま引用すると,Tachyspiza Kaup 1844 is resurrected as a genus to resolve the non-monophyly in the genus Accipiter demonstrated in phylogenetic analyzes (Lerner & Mindell 2005; Mindell et al. 2018) following Catanach et al. (2024). つまり Accipiter ハイタカ属の中の単系統群でないと考えられるものを Tachyspiza に移したということのようです.日本のバーダーに関係しそうなものは T. badia タカサゴダカ,T. soloensis アカハラダカ,T. gularis ツミ,T. g. gularis 亜種ツミ,T. g. iwasakii 亜種リュウキュウツミくらいでしょうか.
  4. さらに同じ理由で Astur Lacépède, 1799 is resurrected as a genus to resolve the non-monophyly in the genus Accipiter demonstrated in phylogenetic analyzes (Lerner & Mindell 2005; Mindell et al. 2018) following Sangster et al. (2012); Catanach et al. (2024), ということで,Accipiter ハイタカ属から Astur 属に異動した種のうち,日本に関係するのは A. gentilis オオタカと A. gentilis fujiyamae 亜種オオタカです.
  5. Upupa epops ヤツガシラの亜種 U. e. saturata が基亜種から分離されました.,日本で見られるヤツガシラはおそらくこれなのですが,日本鳥類目録には基亜種 U. e. epops が亜種ヤツガシラとして掲載されていますので,近い将来に調整が必要と思われます.
  6. Nucifraga caryocatactes Spotted Nutcracker ホシガラスが分割されて N. hemispila Southern Nutcracker という種が作られた関係で,ホシガラスの英名が Northern Nutcracker に変更されました.
  7. シジュウカラ類の分類が変更されました.従来は Parus cinereus (Cinereous Tit) と Parus minor (Japanese Tit) が Parus major から切り出されて独立種として扱われてきたのですが,最近の研究で Parus major という複合群は,東アジアの P. cinereus (cinereus + minor) と,旧北区の残りの地域の P. major (major + bokharensis) の 2 種から成るよう解釈すべきとされたようです.この結果日本で見られるシジュウカラは種としては P. cinereus,亜種としては P. c. minor ということになります.これに伴い,亜種アマミシジュウカラ,亜種オキナワシジュウカラ,亜種イシガキシジュウカラもそれぞれ P. c. amamiensisP. c. okinawaeP. c. nigriloris となります.さらに従来 P. cinereus に(私が勝手に)与えていた和名のハイイロシジュウカラは削除することになります.
  8. Cecropis daurica Red-rumped Swallow コシアカツバメが分割されて C. rufula European Red-rumped Swallow という種が作られた関係で,コシアカツバメの英名が Eastern Red-rumped Swallow に変更されました.
  9. 従来タヒバリは Anthus rubescens Buff-bellied Pipit として扱われてきましたが,今回種が分割されて,従来A. r. japonicus 亜種タヒバリとされきたものが種に昇格して A. japonicus Siberian Pipit となりました.つまりこれが日本で見られるタヒバリです.分割された残りの A. rubescens の英名は American Pipit に変更されました.
  10. Chloris sinica カワラヒワ の英名が Grey-capped Greenfinch から Oriental Greenfinch に変更されました.
  11. これまで Acanthis flammea Redpoll ベニヒワの分類は十分に確立されたものではなかったのですが,今回は従来独立種としていた A. cabaretA. hornemanniflammea の亜種に格下げしました.その結果 flammea には 5 亜種がぶら下がることになりました.
  12. (参考)日本のバーダーには関係ありませんが特筆すべきイベントなので書いておきます.これまで Turdus poliocephalus Island Thrush と一括りに扱われていた種複合群が今回 17 種に分割されました.しかもこの分割はまだ保守的なレベルであって,今後さらに細分化されていくだろうとのことです.それらのうち Turdus mindorensis Mindoro Island Thrush が最も基盤となる種だそうです.

2024 年 9 月に日本鳥学会の日本鳥類目録改訂第 8 版のリリースが予定されていますが,今回の IOC List の変更を取り込むのは無理だと思われるので,しばらくは属名のくい違いで悩む人が出て来そうです.


IOC 本家の Master List (学名と英名を収録した Excel ファイル)を編集して,Refsort/Ruby 用の辞書ファイル(拡張子が .ref のテキストファイル)を作りましたので, Microsoft One Drive 上に設けた “IOC List Archive” にアップロードしました.エンコーディングは UTF-8US-ASCII の 2 種類です.正版は UTF-8 版で US-ASCII 版は簡易版ですが,詳細についてはユーザーズガイドをご覧ください.


このオリジナル版の辞書ファイルと併せて,全ての掲載種に和名を付与した辞書ファイル 2 種と, IOC Master List の和名追加版( Excel ファイル)も同時にリリースしました.これら和名追加辞書についても,UTF-8 でエンコードしてあるものが正版ですが,Windows などでの使い勝手を考慮して Windows-31J でエンコードしたものも同時にアップしてあります.詳細についてはユーザーズガイドをご覧ください.

単に種名を調べるためだけであれば,和名追加版の Master List( Excel ファイル)が最も便利です.ただし長大なワークシートなので,目的の名前をスクロールして探すのは非効率です.検索メニューからジャンプするのが良いでしょう.


これらのファイルは前述のとおり,Microsoft One Drive 上に設けた IOC List 専用のフォルダからダウンロードできます.それには,このブログ右側のコラムの最上段の Archive の中の IOC List Archive をクリックしてください.そうすると One Drive のフォルダに入ることができますので,あとは適当に選んでダウンロードしてください.


I am pleased to announce that I have posted reference files for Refsort/Ruby compiled directly from the latest IOC World Bird List v14.2. It contains 44 Orders, 254 Families, 2,392 Genera, 11,276 species including 163 extinct ones, and 19,756 subspecies, respectively. Please try it out, and enjoy its capability and speed.

Note that the reference file "ioclist_v142u.ref" is encoded in UTF-8 in order to retain all European accents and umlauts with complete fidelity as they are in the IOC Master List.

For those who want to use Refsort/Ruby in universal ASCII environments, I have posted another reference file "ioclist_v142a.ref" encoded in pure US-ASCII. Note that characters with accents and umlauts have been simplified to their nearest neighbors. So please be careful in particular when you refer to authorities of species.

I have also posted two different reference files "ioclist_v142ju.ref" and "ioclist_v142jw.ref" (encoded in UTF-8 and Windows-31J, respectively) which include Japanese names for all species. If you want to know Japanese names, please refer to those files.

In order to sort a list properly using these reference files, you need to align the encoding of the input file to that of the reference file, and you should add a magic comment specifying the encoding in the first line of these files, such as

#!E -*- coding: UTF-8 -*-

or, add an option "-E UTF-8" into your commandline.

You can skip this process if your iput file is encoded in the default encoding of your platform, e.g., US-ASCII or Windows-31J for Windows, UTF-8 for macOS or Linux.

A master list in Excel format containing a column of Japanese names has been posted as well. This would be most convenient for quick reference.

You can download appropriate files from my area of Microsoft One Drive by clicking “IOC List Archive”. Enjoy, and bon appétit.

| | | コメント (1)

2024/07/25

Ruby を自力ビルドしてみた

もう一週間ほども続く熱波で,仕事に出かける日以外は家の中に閉じこもっています.本当はこれを引きこもりと言うのだと思いますが,どこにも出かける気がしないので,写真が撮れず,ブログの更新もままなりません.

いきおい PC の前に座り込んで一日中何かしていることになるのですが,このところちょっと気になっていることがあり,それに対処してみました.それはRuby というプログラミング言語の更新についてです. Ruby はもう 10 年以上親しんでいる言語で,楽しくプログラミングができるので重宝してきました.Linux でも Windows でも使えるのですが,本家開発チームが Ruby 本体を更新するたびに,Windows であれば有志の開発者が速やかに Windows 版をアップロードする体制が整っています.

Linux 版はやや複雑で,リポジトリが更新されるか否かはディストリビューションごとにバラバラです.私が愛用している Ubuntu では最新版への追随性は良くなく, Ruby の最新版が 3.3.4 であるのに対して, 3.2 が最新版として登録されています.Linux には Snap というリポジトリもあり,こちらは今年前半までは良く追随してくれていたのですが,現在更新は 3.3.2 で止まっています.

さらに気になるのは Ruby の公式の Web サイトです.英語サイトには常に最新情報がアップされ,セキュリティリスクに対する警告などもタイムリーに掲載されるのです,日本語サイトは現在更新が止まっており,Ruby本体の更新が行われたことすら掲載されていません.

Linux 上ではソースから自力でビルドすることも可能で,これが一つの標準的な方法でもあるので,今回は Windows11 の WSL2 上でビルドしてみました.これは本質的には Ubuntu そのものなのですが,カーネルには Microsoft の手が入っており,つい最近 3 年ぶりにようやく 5.5 系列から 6.6 系列に更新されたばかりです.ちなみに Ubuntu 本家のカーネルは 6.8 系列です.

Built_rubysnapshot

ビルドそのものは大変順調で,コンパイル速度も生の Ubuntu と変わりません.ビルド後にテストスイートも走らせましたが,エラー無く終了.安心してインストールしました.いくつか自作のスクリプトを走らせてみましたが,全く問題ありません.

これまで Linux では Snap 版の Ruby を使ってきたのですが,今後も更新が期待できないのであれば自力ビルドに切り替えようと思います.

| | | コメント (0)

2024/07/15

Excel上でPythonが使える

1 年弱ほど前に Microsoft からアナウンスされテストが続けられてきた Excel 上で Python が使えるようになる機能ですが,ようやく一般ユーザーにもプレビューが降りてきました.私の環境では先週あたりからメニューのツールバーに Python のロゴが現れ,それをクリックすると Python のスクリプトをセルに代入できるようになりました.

まずは NumpyPandas の機能を試してみたのですが,何ら違和感なく Excel のセルのデータを使えます.特に Pandas に慣れている人には, Excel のセルは Pandas のオブジェクトそのものとして扱われるので非常に親和性が高いと思われます.

試しにちょっと違うパッケージを使ってみようと思って scikit-learn の PCA クラスを使ってみました.測定データの主成分分析をやってみます.PCA クラスのインスタンスを作り, Excel のセルを ndarray に変換して渡せばそれで終わり.簡単に回帰直線の傾きなどを知ることができます.また matplotlib のグラフをワークシートに張り付けることもできます.

Python_on_excel

これまでわざわざ JupyterLab を立ち上げてスクリプトを書いていたような仕事は Excel 上で完結できるものが多くなるでしょう.それでも,機械学習のように膨大なデータを読み込んでニューラルネットワークの計算を行うような仕事は,ワークシート上に長大なデータを置いておく手間が煩わしいでしょうから,あまりメリットはないかもしれません.

それにしても,これは世の中を変えるポテンシャルがあると実感できます.

| | | コメント (0)

2024/06/19

WSL2 をインストールして使っています

これまでの私のパソコンの環境は WIndows と LInux (Ubunbu) の2本立てで,もう20年以上も別々のマシンにそれぞれのシステムをイントールして使っています.Linux はおもに TeX での組版と,各種のプログラミングのプラットフォームとして使ってきました.古くなった WIndows マシンを更新するときに古いハードウェアを LInux 用に使い回すというやり方です.

ところがここ数年の間に,Microsoft が Linux に異常接近して,なんと Windows 上で Linux のシステムがそのまま動くような仕組みを取り入れてきました.最初の試み WSL (Windows Subsystem for Linux) はシステムコール変換方式で速度に難点があったのですが,最近の WSL2 はネイティブの Linux がそのまま動く,洗練されたものになっています.これは Hyper-V という仮想マシンの仕組みが Windows に導入されていたからで,本物の Linux カーネルが仮想マシン上ではあるもののそのまま動いているからです.

であれば,たとえば TeX の組版はすべて WSL2 上でやってしまえるのでは?ということで WSL2 をインストールして使い始めました.ディストロは使い慣れた Ubuntu です.標準のターミナルは Windows の最新のアプリ Windows Terminal です.これも面白いです.

TeX の実行環境である TeXLive をインストールする手順は Ubuntu と全く同じ.ということはリポジトリから延々と四千数百個のパッケージをダウンロードするので,やはり2時間弱かかってしまいましたが,これは Ubuntu でも同じです.

使用中の Linux マシンよりもハードウェアが数世代新しいこともあって,TeX のソースのコンパイルはだいぶ速くなりました.はやりネイティブのコンパイルは速い.Windows 版の TeXLive よりはだいぶ速い感じです.難点はファイルの受け渡しで,Windows 上のエディタで編集したファイルを,同じマシンながら Ubuntu 上の異なるファイルシステム (Ext4) のフォルダーにコピーし,そこでコンパイル作業を行う必要があるからです.

Tex_compilation

出来上がった PDF はそのまま Ubuntu 標準の viewer である Evince を立ち上げて見ることができます.これが何とも不思議.Evince は X11 を代替した Wayland 上で動いているはずなのですが,Windows のデスクトップでそのまま見ることができるからです.これはどういう仕組みなのかな?

これでだいぶ作業効率が上がって生産性が高まった気がします.TeX の組版以外にも使い道があると思うのですが,最近は Python の開発もほとんど Windows 上でできるようになったので,CAD や CAE に手を出さない限りは今の環境の程度で済ませたいと思います.

| | | コメント (0)

2024/04/13

Windows 再インストール時に VMD でハマる

自宅のメインマシンの中身を増強するためにメモリーを増やし,HDD を SSD に換装し,さらに電源も高信頼性のものに変更しました.Windows もクリーン・インストールしてすっきりさせようと思い,USB スティックから Windows のインストーラーを起動したのですが,途中で「インストールできるドライブがありません」というエラー.え?ブートデバイスの SSD は換装せずにこれまでと同じものを使っているのになぜ?

さあ大変.何度もケースを開けては配線を確認し,UEFI BIOS の CMOS をクリアしたりしたのですが症状は変わらず.しかしかすかに思い当たる節が.そう,このマシンには Intel RST のドライバーをインストールしていたのでした.その結果ドライブが仮想化されて裸のドライブが見えなくなっているのでは?と思い至りました.ここにたどり着くまで早や 2 時間.

しかしクリーン・インストールするのだからそんなことは関係あるのか?ネットで調べて答えが出ました.関係あるのです.Intel RST をインストールすると,実は UEFI BIOS の中の VMD という項目がいつの間にか ENABLE に変更されるのでした.RST を無効に戻して Windows を再インストールするには BIOS の VMD を DISABLE しろというのが答えです.

やってみるとビンゴ!ようやくインストーラーが先に進むようになりました.そうなってしまえば Windows 11 自体のインストールは 15 分程度で終わります.しかし大変なのはここから.様々なアプリケーションやユーティリティなどもインストールし直し,さらに設定を復旧させなければなりません.設定ファイルのバックアップを取ってはいるものの,一つずつの手作業.

VMD でつまづいたせいで時間が足りず,作業は翌日に持ち越しです.そしてようやく今日の午後になって元通りのシステムが動くようになりました.やれやれ.こんなに苦労してブラッシュアップしたマシンなのですが使用感は全く変わらず.まあそのうち重たいPython のスクリプトを動かすときになったら違いが判るかもしれません.

| | | コメント (0)

2023/12/30

IOC List v14.1 Released

IOC World Bird List v14.1 が予定よりも早くリリースされた模様です.これは 2024 年 1 回目のリリースのはずのものです.前回 2023 年 7 月のリリースから 5 か月ちょっとでのアップデートとなりました.ただし正式なリリース日は判然とせず,IOC の Web site では「v14.1 への移行はほぼ完了したのだが,休暇の季節に入ったため正式な完了は2024年3月だ」とアナウンスされています.このアナウンスがされたのが 12 月 29 日なので,私としてはこの日をリリース日と見なそうと思います.

今回収録されたのはが 44 ,が 253,が 2,381 ,が 11,194 (うち絶滅種が 162 ),亜種が 19,802 です.

前回 v13.2 と比較すると,亜種から種への昇格や新種の登録はまあまあ平均的な数量でしたが,英名の変更が比較的多く,また属の異動(属名の変更)も多かったという印象です.厄介なことに科内のシーケンスの変更が非常に多かったのが今回の特徴です.しばらくは並べ替えで混乱があるかもしれません.

例によって日本のバーダー向けに重要と思われる変更点を書いておきます.

  1. Charadrius leschenaultia オオメダイチドリ,C. mongolus メダイチドリ,C. alexandrinus シロチドリなどが Charadrius 属から Anarhynchus 属へ異動されました.
  2. Charadrius チドリ属内のシーケンスが変更されました.
  3. Chroicocephalus saundersi ズグロカモメが単型属の Saundersilarus に異動されました.
  4. 以下の科内のシーケンスが変更されました.
    Jacanidae レンカク科,Scolopacidae シギ科,
    Turnicidae ミフウズラ科,Laridae カモメ科,
    Stercorariidae トウゾクカモメ科,Alcidae ウミスズメ科科,
    Diomedeidae アホウドリ科,Fregatidae グンカンドリ科,
    Sulidae カツオドリ科,Ardeidae サギ科,
    Cacatuidae オウム科,Hirundinidae ツバメ科
  5. Aldea Intermedia チュウサギの英名が Intermediate Egret から Medium Egret に変更されました.
  6. (参考)Diomedea exulans ワタリアホウドリの英名が Wandering Albatross から Snowy Albatross に変更されました.

2024年 9 月に日本鳥学会の日本鳥類目録改訂第 8 版のリリースが予定されています.すでにドラフト版が公開されており,分類体系やシーケンスは IOC List v13.2 に準拠すると表明されていますので,これでようやく世界の標準に近づくものと期待しています.このドラフト版に基づいた辞書ファイルを鋭意作成中なので,完成次第公開したいと思います.


IOC 本家の Master List(学名と英名を収録した Excel ファイル)を編集して,Refsort/Ruby 用の辞書ファイル(拡張子が .ref のテキストファイル)を作りましたので,Microsoft One Drive 上に設けた “IOC List Archive” にアップロードしました.エンコーディングは UTF-8US-ASCII の2種類です.正版は UTF-8 版で US-ASCII 版は簡易版ですが,詳細についてはユーザーズガイドをご覧ください.


このオリジナル版の辞書ファイルと併せて,全ての掲載種に和名を付与した辞書ファイル 2 種と,IOC Master List の和名追加版(Excel ファイル)も同時にリリースしました.これら和名追加辞書についても,UTF-8 でエンコードしてあるものが正版ですが,Windows などでの使い勝手を考慮して Windows-31J でエンコードしたものも同時にアップしてあります.詳細についてはユーザーズガイドをご覧ください.

単に種名を調べるためだけであれば,和名追加版の Master List(Excel ファイル)が最も便利です.ただし長大なワークシートなので,目的の名前をスクロールして探すのは非効率です.検索メニューからジャンプするのが良いでしょう.


これらのファイルは前述のとおり,Microsoft One Drive 上に設けた IOC List 専用のフォルダからダウンロードできます.それには,このブログ右側のコラムの最上段の Archive の中の IOC List Archive をクリックしてください.そうすると One Drive のフォルダに入ることができますので,あとは適当に選んでダウンロードしてください.


I am pleased to announce that I have posted reference files for Refsort/Ruby compiled directly from the latest IOC World Bird List v14.1. It contains 44 Orders, 253 Families, 2,381 Genera, 11,194 species including 162 extinct ones, and 19,802 subspecies, respectively. Please try it out, and enjoy its capability and speed.

Note that the reference file "ioclist_v141u.ref" is encoded in UTF-8 in order to retain all European accents and umlauts with complete fidelity as they are in the IOC Master List.

For those who want to use Refsort/Ruby in universal ASCII environments, I have posted another reference file "ioclist_v141a.ref" encoded in pure US-ASCII. Note that characters with accents and umlauts have been simplified to their nearest neighbors. So please be careful in particular when you refer to authorities of species.

I have also posted two different reference files "ioclist_v141ju.ref" and "ioclist_v141jw.ref" (encoded in UTF-8 and Windows-31J, respectively) which include Japanese names for all species. If you want to know Japanese names, please refer to those files.

In order to sort a list properly using these reference files, you need to align the encoding of the input file to that of the reference file, and you should add a magic comment specifying the encoding in the first line of these files, such as

#!E -*- coding: UTF-8 -*-

or, add an option "-E UTF-8" into your commandline.

You can skip this process if your iput file is encoded in the default encoding of your platform, e.g., US-ASCII or Windows-31J for Windows, UTF-8 for macOS or Linux.

A master list in Excel format containing a column of Japanese names has been posted as well. This would be most convenient for quick reference.

You can download appropriate files from my area of Microsoft One Drive by clicking “IOC List Archive”. Enjoy, and bon appétit.

| | | コメント (0)

2023/09/09

Refsort on Excel v2.50U released

Refsort on Excel は,Refsort/Ruby (直前の記事をご覧ください)を Microsoft Excel 上で使うためのインターフェースを提供するマクロ埋め込みワークシートです.

今日,さまざまなデータを整理分析するのに表計算ソフトウェアは欠かせないものになっていますが,そのワークシート上に書かれたリストに対して,簡便で直感的なインターフェースで Refsort/Ruby の並べ替え機能を提供します.

元来 Excel の内部では UTF-16 という Unicode の符号化が用いられており,多言語の文字を混在して同時に扱うことができます.しかしこれまでは私の知識不足,能力不足から,扱えるエンコーディングを Windows-31J (Shift_JIS) に限定して Refsort on Excel を提供してきました.

今回の改訂ではこの制約を転換し,UTF-8 という Unicode の符号化スキームに切り替えました.これにより Excel 内部の UTF-16 と整合性が取れて,世界中のさまざまな言語の文字を混在させたリストに対して辞書を参照した並べ替えが可能となりました.

例えば IOC List にはアクセント付きの文字や,ウムラウト,トレマなどを含む文字が多用されています.それらが命名者表記や生息域の地名などに出てくるのは当然ですが,標準英名に含まれている場合もあります.標準英名は並べ替えのキーとして使う場合も多いので特に注意が必要です.例えば Seicercus soror Alström's Warbler が代表的です.従来は US-ASCII や Windows-31J でエンコードされた辞書ファイルではウムラウトを直接扱えないため,ウムラウトのない小文字の o で代用していました.しかしこれはある種の近似を行っていることになり,並べ替え結果を再利用する際に支障が出てくる可能性があります.今回の改訂でそのような近似は必要なくなりました.

当然ながら,そのためには UTF-8 でエンコードされた辞書を使う必要があり,従来とは使う辞書の種類が異なることに注意する必要があります.これまで私が作成して提供している辞書は,日本鳥類目録,IOC List,日本種子植物リストの3種類ですが,いずれも UTF-8 でエンコードしたものも提供してきました.エンコーディングはこれらのファイル名の末尾に付けた接尾辞で区別できます.接尾辞が "u" のものが UTF-8 で,"w" のものが Windows-31J でエンコードされたものです.

あらためて UTF-8 でエンコードされた辞書のリストを示すと,

ファイル名 内容
jpblist_v70p5u.ref 日本鳥類目録改訂第7版
ioclist_v132u.ref IOC List v1.32 オリジナル版
ioclist_v132ju.ref IOC List v1.32 和名追加版
jplant056u.ref 日本の種子植物リスト 新エングラー順

となります.いずれも BOM なし,改行コードが LF のテキストファイルです.

今後,Refsort on Excel v2.50U 以降を使う場合には,辞書ファイルにこれら UTF-8 でエンコードされたものを指定するようにしてください.また利用する Refsort は最新の v3.77 以降が望ましいので,こちらもご注意ください.

使用例のスクリーンショットを示します.IOC List から標準英名にウムラウトが使われているものを集めて,標準英名をキーにして並べ替えを行ってみました.辞書ファイルのキーは第 1 フィールド,入力のキーも第 1 フィールドです.正しく並べ替えられていることがわかります.

Refsort_on_excel_v250u

今回の改訂でようやく UTF-8 を使えるようになったので,多様な言語で書かれたリストに対して Refsort を Excel 上で使えるようになったはずです.詳しい説明は,Refsort/Ruby v3.77 と同時にリリースしたユーザーズガイドの付録をご覧ください.

| | | コメント (1)

Refsort/Ruby v3.77 released

辞書参照型ソーティング・フィルタ Refsort/Ruby (新しいほうから *1 *2 *3 *4 *5)の改訂版 v3.77 をリリースしました.今回の改訂内容は軽微なバグ修正と仕様の改善です.ただし同時に Refsort on Excel も改訂し,こちらは仕様を大きく変更しました.詳しくは次の記事をご覧ください.

今回の修正内容は以下の通りです.

  1. 辞書ファイルに埋め込みラベルが書かれていないときに,コマンドラインオプションでラベル出力を指定した場合の例外処理が不備でしたので,警告文を出力するとともにラベル出力をキャンセルするようにしました.
  2. コマンドラインオプションで -x (Excel mode) または -T(出力のフィールド区切り記号をタブにする)を指定すると同時に,ラベルのコメントも出力するよう,例えば M 1c と指定している場合は,ラベル本体とラベルのコメントをタブで区切るよう変更しました.これは Refsort on Excel での使い勝手を考慮したためです.

このスクリプトは最新の Ruby 3.22 で動作することを確認しています.

Refsort_v377_console

Refsort/Ruby とそれに関連するコンテンツのアーカイブを Microsoft One Drive に置いています.画面右側コラムの Archive の中の Refsort/Ruby Archive をクリックしていただくと,私の OneDrive 上に設けたライブラリが開きますので,そこから過去分も含めてファイルをダウンロードすることができます. Refsort 本体の refsort.rb は refsort_v377.rb というファイル名でアップロードされていますので,ダウンロード後に refsort.rb に変更するとよいでしょう.改行コードも CR/LF になっていますので,適宜変更してお使いください.エンコーディングは純粋な US-ASCII ですので,そのままでよいでしょう.

| | | コメント (0)

より以前の記事一覧