IT関連情報

2021/09/06

Refsort/Ruby v3.62 released

辞書参照型ソーティング・フィルタ Refsort/Ruby (新しいほうから *1 *2 *3 *4 *5)の改訂版 v3.62 をリリースしました.今回の改訂の目玉は,v3.60 で新設したオプション "-y, --didyoumean" の拡張版 "-Y, --fullsearch" を追加導入したことです.

入力のキーに指定した文字列が辞書ファイルに見つからないとき,よく似た候補を探して提示するのが "-y, --didyoumean" の機能ですが,これには大量の文字列の比較照合が必要となるため,どうしても実行速度が低下してしまうのが欠点です.そのため "-y, --didyoumean" では,最初の 1 文字が一致する候補だけを探索するという制限を設けることで,実行速度の低下を最小限に抑えています.これでも実用になるのは,どんなにタイプミスや思い違いをしたとしても,最初の 1 文字くらいは正しく入力されているだろうと期待できる場合が多いからです.

しかしこの方法では最初の 1 文字が異なる候補は探索範囲から外れてしまうので,探索は完全ではありません.そこで,実行速度は遅くなってもよいから,辞書ファイルのすべてのレコードを探索して類似度の高い候補をすべてピックアップするというオプション "-Y, --fullsearch" を新設しました.

さらに,文字列の類似度の指標である Damerau-Levenshtein 距離を計算するアルゴリズムを改良して,v3.60 よりも 2--3 倍程度高速に探索できるようになりました.そのおかげで,"-y, --didyoumean" はもちろんのこと "-Y, --fullsearch" を用いた場合でも,待たされてイライラすることは少なくなったと思います.さらにこの改訂版ではスクリプトの冗長な部分を徹底的に取り除き,スクリプトのサイズを v3.61 と比較して 13% 程度縮小することに成功しました.肥大化の傾向にある程度歯止めをかけることができたと思っています.

"-Y, --fullsearch" の使い方は "-y, --didyoumean" と全く同じです.当然この二つを同時に指定することはできません.どちらか片方のみ指定することができます.

以下にスクリーンショットを示しました.Refsort/Ruby v3.61 を用いた最初の実行では,「オオサギ」という誤った入力に対して何も正解候補が提示されませんが,v3.62 とオプション "-Y" を用いた2回目の実行では「アオサギ」という正解候補が提示されています.

Refsort_v362_demo

また,新しいオプションの追加に対応して Refsort on Excel も v2.40 にアップデートしました.改訂内容は,新オプションに対応したチェックボックスの新設のみです.下にスクリーンショットを示します.Sorting options という枠の中の "full search" と書かれたチェックボックスがそれです.このチェックボックスは "did you mean?" にチェックを入れると有効化されるので,そこでさらにチェックを入れて使うようになっています.

Refsort/Ruby とそれに関するコンテンツのアーカイブを Microsoft One Drive に置いています.画面右側コラムの “Archive” の中の “Refsort/Ruby Archive” をクリックしていただくと,私の OneDrive 上に設けたライブラリが開きますので,そこから過去分も含めてファイルをダウンロードすることができます.Refsort 本体の “refsort.rb” は “refsort_v362.rb” というファイル名でアップロードされていますので,ダウンロード後に適宜 “refsort.rb” に変更するとよいでしょう.改行コードも CR/LF になっていますので,適宜変更してお使いください.

Refsort on Excel v2.40 や日本鳥類目録 v7 に準拠した辞書ファイル,IOC List v11.2 に準拠した辞書ファイル,最新版に準拠したユーザーズガイドやプレゼンテーション用のスライドもこのアーカイブに収録されていますので,どうかご利用ください.


このソフトウェアは,一つの完結したアプリケーションというよりは,grep や sort のような「縁の下の力持ち」的なツールとして使われることを想定しています.しかし,各用途に特化した辞書ファイルという補助役が必要で,それらを含めた全体が一つの生態系として発展していくことが望ましいソフトウェアでもあります.新しい応用先を探索中ですので,何かアイデアがあればぜひお聞かせください.

| | | コメント (0)

2021/08/30

鳥影の自動計数(続き)

昨日ポストした記事の自己コメントに書きましたが,どうも昨日の方法では誤差が大きすぎる,もっと良い処理手続きはないものかと試行錯誤を楽しんでいます.

まず,テスト画像として百羽程度の鳥影を含む小さな領域を切り出しました.そして Photoshop のカウントツールを使って,鳥影の一つ一つに手動で番号をつけていきます.このとき 2 羽のシルエットが重なっていても,人間はそれを 2 羽と認識できるので,異なる番号を振っておきます.結果,合計 87 羽が写っていることがわかりました.

次からがいろいろな試行錯誤です.正解はわかっているので誤差がすぐに分かるところがミソです.

まず鳥影は黒いので,Photoshop のレベル補正とトーンカーブを使って,できるだけ鳥影と背景のコントラストが明確になるように調整します.

次に,自動選択ツールで鳥影を選択します.このときの許容値は試行錯誤で調整します.前処理でコントラストがうまく調整できていれば,許容値を小さくすることで背景ノイズの影響を受けにくくできる可能性が高くなります.またたくさんの鳥影を一度に自動選択したいので,隣接ピクセルのオプションは外します.一方,アンチエイリアスはかけておきます.

そうしてできた選択範囲を目視でチェックすると,この画像の場合は, 2 羽が重なっているシルエットが一つの選択範囲になっている箇所が一つ.逆に,1 羽のシルエットが 2 つに分裂して 2 個の選択範囲が作られている箇所が一つあることがわかりました.これらは互いに逆方向の誤差となります.

Bird_counting_20210830_1

この状態で Photoshop にカウントさせると,上記の誤差がちょうど相殺して 87 羽という数が得られたので,まずまず合格です.

テスト画像でうまくいったので,もっと大きな画像で試行中です.昨日の記事で 2,485 羽,その後のコメントで 1,411 羽と報告した画像は,現在のところ 1,530 羽という値が得られています.ただし,選択範囲を子細にチェックすると,上に述べたように 2 羽のシルエットを 1 羽と数えているものが相当数あるので,実際にはこれの 10% 増しくらいが妥当ではないかと思います.

ノイズなどの影響は最小限に抑えられたので,重なり合うシルエットによる過小評価分をどう補正するかという問題になったと思います.しかしこれは画像ごとに異なるので,なかなか一筋縄にはいかないでしょう.

| | | コメント (0)

2021/08/29

ムクドリの数を自動的に数える

昨日の記事でムクドリのねぐら入りの写真を紹介しましたが,一体この写真には何羽のムクドリが写っているのでしょう?生物の数を数えるのは野外調査の重要な一分野ですが,この程度の大きさの群れだと,カウンターを片手に数えていくのは現実的ではありません.

ベテランの調査員だと鳥影を見た瞬間にこの範囲で百羽だと瞬時にわかるそうです.そして群れ全体を百羽のブロックに分けて考え,そのブロックがいくつあるのかで全体の数を推測しているそうです.それで何千羽,何万羽と推測できるそうですから大したものです.

そのようなスキルがない私にも,写真があれば何とかなるのではないかと考えました.しかしパソコンの画面で写真を拡大して一羽ずつ数え始めてみたものの,たちどころに断念.100 羽程度だったらなんとかなるのですが,1,000 羽を超えるような数を数えるのは無理です.

さらに考えて,ひょっとして画像計測ツールを使えばよいのではないか?と思いつきました.Adobe Photoshop には選択範囲の個数や面積を計測するツールがあるのです.これを使えばよいのではないか?顕微鏡写真の画像処理ではよく使われる手法です.

やってみると,選択範囲の作り方が一筋縄ではいきません.鳥影は黒いので黒い部分を自動選択してみたのですが,パラメータの調整が難しく,背景のノイズも選択されてしまいます.試行錯誤するうちにたどり着いたのは,まず明るい背景を選択すること.この場合もパラメータを細かく調整する必要があります.そして選択範囲を反転させると「ほぼ」鳥影だけが選択できます.「ほぼ」と書いたのは,やはり雲の一部や背景の暗いノイズも選択されることがあるので,そういう部分は手で消していきます.

Bird_counting_20210828

次に画面全体をくまなくチェックします.上の画像で白い破線で囲まれているのが一つ一つの選択範囲です.2 羽の鳥影が重なって一つの選択範囲として選ばれる場合があるのですが,これは全体から見ると数が少ないので無視することにします.1 羽の鳥影が 2 つ以上の選択範囲に分割されることはほとんどないように,最初に戻ってパラメータの調整をやり直します.これを繰り返して選択範囲が満足できるようになったら,ついに計測です.これは簡単で解析のメニューからカウントを選ぶだけです.

こうして昨日アップした 2 枚目に写っているムクドリの数を数えてみると,2,485 羽でした.私が感覚的に想像していた数よりもずっと多い.しかも上に書いたようにこれは正確な数の下限値で,実際にはもう数パーセントは多いはずです.

すると,昨日ねぐら入りを果たしたムクドリの総数は 1 万羽を超えていた可能性があります.ふーむ,なかなか面白いですね.

| | | コメント (1)

2021/07/27

良いフォントが見つかってコマンドコンソールが快適に

私は日常の文章作成のほとんどにエディタを使っています.ワードプロセッサには滅多にお世話になりません.そしてエディタの使い勝手を決める重要な要素の一つがフォントです.Windows 標準のフォントは字体も大きさもエディタ向きのものは少ないので,サードパーティ製のものを探して使っています.

これまで,プログラミング用には定評ある「Ricty Diminished」が最も使いやすいと感じるとともに,ブログの HTML ファイルの編集には Windows 標準の「游ゴシックmedium」を使ってきました.エディタに関してはこれらで何とか用が足りているのですが,しかし,コマンドコンソール用のフォントにはなかなか良いものがなくて長年困っていました.Windows 標準のフォントには満足できるものはほとんどありません.

定期的にフォント漁りをやる中で,ついにこれは良い!というものを見つけました.「白源フォント」ファミリーの一部の「HackGenNerdConsole」というものです.コンソール用を謳っているだけに,コマンドコンソールでの視認性,文字間や行間のスペース,半角全角の比率などがよく最適化されています.これでコンソール上の作業が非常にやりやすくなったと感じています.当分はコンソール用フォントはこれで決まりでしょう.下にスクリーンショットそ示します.

Hackgennerd_demo

白源フォント」とは,その名前から想像がつくように,Adobe の「源ノ角ゴシック」の派生フォント「源柔フォント」を利用して作られたフォントの一つ.源ノ角は実にたくさんの子供を作りました.それが「源ノ角」の最大の功績ではないかと思います.

| | | コメント (0)

2021/07/25

Refsort/Ruby v3.61 released

辞書参照型ソーティング・フィルタ Refsort/Ruby (新しいほうから *1 *2 *3 *4 *5)の改訂版 v3.61 をリリースしました.今回の改訂では新オプションの導入はありませんが,Locale と異なる辞書ファイルと入力ファイルを用いた場合の警告メッセージを,できる限り Locale のエンコーディングに変換して表示するようにしたことが最大の変化です.これによって変則的な使用法における使い勝手が改善されるはずです.

これまでは,例えば Windows 日本語版のコマンドコンソールで,UTF-8 でエンコードされた辞書ファイルと入力ファイルを使って並べ替えを行ったとき,辞書ファイルと照合できない入力レコードがあると,それを UTF-8 のエンコーディングのままコンソールに表示して警告していました.しかしこれは文字化けしてしまい,どういう問題があったのか把握できません.

今回の改訂では,警告文のエンコーディングを Locale に従って Winodws-31J に変換して表示するので,警告内容が把握しやすくなります.ただしこの変換は完璧ではなく,UTF-8 から Windows-31J に変換できない文字,例えばウムラウトやアクセントが付いた欧文文字は ? と表示されます.

以下にスクリーンショットを示しました.Refsort/Ruby v3.60 を用いた最初の実行では,警告文が文字化けしてしまっています.しかし v3.61 を用いた2回目の実行では,警告文が正しく変換されて表示されていることがわかると思います.

Refsort_v361_demo

なお,並べ替え結果はいずれの場合も可読な形で表示されていますが,これが Windows のコンソールの機能なのか,Ruby の標準出力の機能なのかは調査不足です.Linux のターミナルでは Locale が異なれば並べ替え結果も文字化けします.

この改訂以外では,いつの間にか混入していたマイナーなバグを取り除いています.

Refsort/Ruby とそれに関するコンテンツのアーカイブを Microsoft One Drive に置いています.画面右側コラムの “Archive” の中の “Refsort/Ruby Archive” をクリックしていただくと,私の OneDrive 上に設けたライブラリが開きますので,そこから過去分も含めてファイルをダウンロードすることができます.Refsort 本体の “refsort.rb” は “refsort_v361.rb” というファイル名でアップロードされていますので,ダウンロード後に適宜 “refsort.rb” に変更するとよいでしょう.改行コードも CR/LF になっていますので,適宜変更してお使いください.

Refsort on Excel v2.30 や日本鳥類目録 v7 に準拠した辞書ファイル,IOC List v11.2 に準拠した辞書ファイル,最新版に準拠したユーザーズガイドやプレゼンテーション用のスライドもこのアーカイブに収録されていますので,どうかご利用ください.


このソフトウェアは,一つの完結したアプリケーションというよりは,grep や sort のような「縁の下の力持ち」的なツールとして使われることを想定しています.しかし,各用途に特化した辞書ファイルという補助役が必要で,それらを含めた全体が一つの生態系として発展していくことが望ましいソフトウェアでもあります.新しい応用先を探索中ですので,何かアイデアがあればぜひお聞かせください.

| | | コメント (0)

2021/07/21

IOC List v11.2 released

IOC World Bird List v11.2 が2021年7月10日(ドラフト版解除は7月20日)にリリースされました.これは2021年2回目のリリースです.前回 v11.1 のリリースが2021年1月19日だったので,ちょうど6か月の更新間隔,新たな編集長 Pamela Rasmussen に代わってから3回目のリリースということになります.

今回収録されたのはが 44,が 252,が 2,372,が 11,072(うち絶滅種が 160),亜種が 19,889 です.

すでに先日の速報で大きな変化はお知らせ済みなのですが,とにかく今回は変化の量が大きく,種の分割による亜種の昇格だけでも 100 を越えているので,それらの確認と和名の追加に時間がかかりました.

速報の内容と重複しますが,最大のニュースは目が4つも新設されたことです.いずれも非常に小さな目であり,これら目の位置づけは流動的だと思われ,今後さらにアマツバメ・ヨタカ類の目や科の再編が行われるのではないかと思います.それにしても,意外と気軽に目を追加するのですね.誰がどう影響を受けるかよく考えた末なのかなぁ?

また今回は英名の変更が多かったのも特徴です.例えば英名に地名が含まれている場合,地名の形容詞形に残る多様性をつぶすのが IOC の思想です.今回は過去に使われていた Madagascan がすべて Madagascar に統一されています.ちなみに Malayan と Malaysian はいまだに混在しているので,近い将来どちらかに統一されるかもしれません.

一方,今回は種小名のラテン語の性による語尾変化の訂正はごくわずかでした.


速報の内容で日本のバーダーに関係する部分を少し詳しく補足します.

  1. シラコバトの一亜種であった Streptopelia decaocto xanthocycla, , "(Newman, TH, 1906)" が種に昇格して基亜種のみが残ったため,Streptopelia decaocto decaocto, , 亜種シラコバト, "(Frivaldszky, 1838)" が抹消されました.
  2. 速報に記載したように Treron permagnus, リュウキュウアオバトが種に昇格して種小名が変更され,同時に亜種 Treron formosae medioximus, , 亜種チュウダイズアカアオバト, "(Bangs, 1901)" も種小名が permagnus に変更されました.そのため和名を亜種チュウダイリュウキュウアオバトと変更するよう提案します.
  3. オオカラモズの一亜種 Lanius sphenocercus giganteus, , , "Przewalski, 1887" が種に昇格して基亜種のみが残ったため,Lanius sphenocercus sphenocercus, , 亜種オオカラモズ, "Cabanis, 1873" が抹消されました.
  4. 速報に記載したように Larvivora komadori namiyei, , 亜種ホントウアカヒゲ, "(Stejneger, 1887)" が種に昇格して基亜種のみが残ったため,Larvivora komadori komadori, , 亜種アカヒゲ, "(Temminck, 1835)" は抹消されました.
  5. 速報に記載したように Ficedula narcissina owstoni, , 亜種リュウキュウキビタキ, "(Bangs, 1901)" が種に昇格して基亜種のみが残ったため,Ficedula narcissina narcissina, , 亜種キビタキ, "(Temminck, 1836)" が抹消されました.

IOC 本家の Master List(学名と英名を収録した Excel ファイル)を編集して,Refsort/Ruby 用の辞書ファイル(拡張子が .ref のテキストファイル)を作りましたので,Microsoft One Drive 上に設けた “IOC List Archive„ にアップロードしました.

エンコーディングは UTF-8US-ASCII の2種類です.正版は UTF-8 版で US-ASCII 版は簡易版ですが,詳細についてはユーザーズガイドをご覧ください.


このオリジナル版の辞書ファイルと併せて,全ての掲載種に和名をつけた辞書ファイル 2 種と,IOC Master List の和名追加版(Excel ファイル)も同時にリリースしました.和名追加辞書についても,UTF-8 でエンコードしてあるものが正版ですが,Windows などでの使い勝手を考慮して Windows-31J でエンコードしたものも同時にアップしてあります.詳細についてはユーザーズガイドをご覧ください.

単に種名を調べるためだけであれば,和名追加版の Master List(Excel ファイル)が最も便利です.ただし長大なワークシートなので,目的の名前をスクロールして探すのは非効率です.検索メニューからジャンプするのが良いでしょう.


これらのファイルは前述のとおり,Microsoft One Drive 上に設けた IOC List 専用のフォルダからダウンロードできます.それには,このブログ右側のコラムの最上段の Archive の中の IOC List Archive をクリックしてください.そうすると One Drive のフォルダに入ることができますので,あとは適当に選んでダウンロードしてください.


I am pleased to announce that I have posted reference files for Refsort/Ruby compiled directly from the latest IOC World Bird List v11.2. It contains 44 orders, 252 families, 2372 genera, 11,072 species including 160 extinct ones, and 19,889 subspecies, respectively. Please try it out, and enjoy its capability and speed.

Note that the reference file "ioclist_v112u.ref" is encoded in UTF-8 in order to retain all European accents and umlauts with complete fidelity as they are in the IOC Master List. Therefore, your input file should be encoded in UTF-8 as well, and should contain a magic comment on the top of the file such as;

#!E -*- coding: UTF-8 -*-

For those who want to use Refsort/Ruby in universal ASCII environments, I have posted another reference file "ioclist_v112a.ref" encoded in pure US-ASCII. Note that characters with accents and umlauts have been simplified to their nearest neighbors. So please be careful in particular when you refer to authorities of species.

I have also posted two different reference files "ioclist_v112ju.ref" and "ioclist_v112jw.ref" (encoded in UTF-8 and Windows-31J, respectively) which include Japanese names for all species. If you want to have Japanese names, please refer to those files.

In order to sort a list properly using these reference files, you need to align the encoding of the input file to that of the reference file, and you should add a magic comment specifying the encoding in the first line of these files, such as UTF-8, US-ASCII or Windows-31J. You can skip this process if your iput file is encoded in the default encoding of your platform, e.g., US-ASCII or Windows-31J for Windows, UTF-8 for macOS or Linux.

A master list in Excel format containing a column for Japanese names has been posted as well. This would be most convenient for quick reference.

You can download an appropriate file from my area of Microsoft One Drive by clicking "IOC List Archive". Enjoy, and bon appétit.

| | | コメント (0)

2021/06/12

RoE はこんな感じ

一昨日の記事で Refsort/Ruby の新作を出したことを紹介しましたが, Refsort on Excel についてはほとんど言及しなかったので補足です. Refsort/Ruby v3.60 の改訂に合わせて, RoE (Refsort on Excel) も改訂版の v2.30 をリリースしました.

下の画像がコントロールパネルを出したところ.上部 Sorting options の右下端に,新設のオプション "did you mean?" のチェックボックスを追加しました.これをチェックしておくと,入力のキーフィールドが辞書ファイル中に見つからなかった場合,よく似た単語を辞書ファイルの中から探し出して「ひょっとしてこれかな?」と提示してくれるようになります.ただし実行速度はそれなりに遅くなります.

Just_after_sorting_v230_640x720

また,この版からミニコンソールのフォントを等幅フォントに変更し,出力がそれなりに整って見えるようにしました.しかしフォントのポイント数は小さいため,ノート PC では非常に見にくいかもしれません.

ともあれ,日常のちょっとしたリストの整理にはこの RoE が便利ですので,ぜひ使ってみてください.

| | | コメント (0)

2021/06/10

エディタをアップグレード

Windows 95 の時代から使ってきた WZ Editor を最新の v10 にアップグレードしました. WZ Editor は,もともとは MS-DOS 時代に人気を博した VZ Editor の使い勝手を Windows でも再現するために,ネーミングを含めて後継のソフトウェアとして開発されたものです.しかし,その後は低迷状態が続き,いまではユーザーの数もすっかり少なくなってしまったと思います.私はバージョン番号は飛び飛びながらも使い続けており,とうとう v10 まで来てしまったというわけです.

私がこのエディタを使い続けるのはブログの原稿を書くためです.ブログの原稿は HTML で書くのが基本なのですが,文字装飾やリンク,さらには定型の HTML タグを埋め込む必要があり,それをキーボードから手を放さずに次々に操作できる,という使い勝手の良さでは, WZ の右に出るものはおそらくないだろうと思います.例えば URL のリンクを埋め込むには,リンクされる単語の左端で "href" とタイプすると,私があらかじめ設定しておいたスニペットの文字列

<a href="" target="_blank" rel="noopener">

が即座に挿入され,カーソルが href="" の 2 重引用符の中に移動します.そこでクリップボードにコピーしておいた URL をペーストします.それからリンクされる単語の右端にカーソルを移動して Ctrl-return とタイプすると,そこに自動的に</a>が挿入されるのです.この利便性は何物にも代えがたいのでいまだにこのエディターを手放せずにいます.

しかし,インストールした直後の初期設定はかなり凶悪で,私のようにブログの原稿を書くものにとっては全く相容れません.何しろ HTML タグを書くなり非表示にしてしまうのです.設定のダイアログの体系もかなり独特で,手作り感があるのはいいのですが,洗練されているとは言い難いです.

さらに, Windows 10 の新しい IME との相性が悪く,上記のスニペットの挿入が動作しません.仕方がないので, Windows の設定で従来の IME を使用するようにしています.これは WZ v9 から続いている不具合ですが,改善の兆しがありません.

ま,それでも上記の利便性のためにこのエディターを使い続けています.ブログをいつまで書き続けるのかわかりませんが,少なくともあと数年は続けようと思っています.このエディターとともに.

| | | コメント (1)

Refsort/Ruby v3.60 released

辞書参照型ソーティング・フィルタ Refsort/Ruby (新しいほうから *1 *2 *3 *4 *5)の改訂版 v3.60 をリリースしました.今回の改訂の目玉は,新オプション "didyoumean" を実装したことです.入力の実質名が辞書ファイル中に見つからなかった場合,従来はただ

"入力実質名" not found in 辞書ファイル名

と警告メッセージを表示していただけだったのですが,このオプション --didyoumean または -y を指定すると,上の警告文に引き続いて,

Did you mean? "辞書ファイル中の類似名"

と辞書ファイルの中から入力の実質名と類似度の高いエントリーを探して表示するものです.ただし辞書ファイルの中をくまなく探索するので実行速度が低下します.

この文字列の間の類似度は,編集距離の一種 Levenshtein 距離の発展形である Damerau-Levenshtein 距離を用いて評価しています.この距離を求めるアルゴリズムはあまり効率が良くないため,比較する文字列が長ければ長いほど,そして辞書ファイルのレコード数が多ければ多いほど加速度的に時間がかかるようになります.日本鳥類目録程度だとほとんど気になりませんが,IOC List の辞書ファイルでは体感できるほど実行速度が落ちます.そのために少なくとも先頭の 1 文字が一致するものに限定して探索するようにしました.これは,どんなにタイプミスや思い違いをしたとしても,最初の 1 文字くらいは正しく入力できているだろうと期待するからです.

Refsort_v360_demo

実行速度は落ちるもののこの探索の威力は大きく,ちょっとしたタイプミスや思い違い程度の誤りに対しては,ほとんど漏らさずに正解候補を提示できます.上のコンソール画面の例を見ると,たくさんの誤った入力に対して,ひょっとしてこれのことかな?と正解候補を提示できていることがわかります.ただし最初の 1 文字が一致しないものは探索候補としませんので,ミヤマセキレイなどに対する正解候補はないということになります.

「ノリス」に対して「ノスリ」を提示できているのは我ながらエライ.こういう文字の入れ替え間違いは日本語でも欧文でもありがちなので,わざわざ Damerau-Levenshtein 距離を持ってきたのです.しかし類似度の閾値を緩くしすぎると多くの無意味な候補が引っかかるので閾値のとり方は難しく,現状はまだ暫定値だと思ってください.

このオプションの新設以外にも,潜在的なバグの芽を摘み取り,スクリプトをより簡潔なものに最適化しています.

この改訂に伴い,Excel とのインターフェースである Refsort on Excelについても新しい v2.30 をリリースしました.新設のオプション "didyoumean" を指定するためのチェックボックスをコントロールパネルに設けました.

Refsort/Ruby とそれに関するコンテンツのアーカイブを Microsoft One Drive に置いています.画面右側コラムの “Archive” の中の “Refsort/Ruby Archive” をクリックしていただくと,私の OneDrive 上に設けたライブラリが開きますので,そこから過去分も含めてファイルをダウンロードすることができます.Refsort 本体の “refsort.rb” は “refsort_v360.rb” というファイル名でアップロードされていますので,ダウンロード後に適宜 “refsort.rb” に変更するとよいでしょう.改行コードも CR/LF になっていますので,適宜変更してお使いください.

Refsort on Excel v2.30 や 日本鳥類目録 v7 に準拠した辞書ファイル,IOC List v11.1 に準拠した辞書ファイル,最新版に準拠したユーザーズガイドやプレゼンテーション用のスライドもこのアーカイブに収録されていますので,どうかご利用ください.

| | | コメント (0)

2021/05/22

Windows 10 をアップグレード

一昨日あたりから Windows 10 バージョン 21H1 へのアップグレードが始まったようです.それならば Windows Update に通知が来ているのでは?と思ってチェックするのですが,私のパソコンにはまだ届いていません.

今回の更新は非常に小幅なもので主要な機能はすでにインストール済みであり,あとは内部のスイッチで機能をオンにするだけと聞いていたので,Winodws Update の通知を待たずに,マイクロソフトのサイトから更新アシスタントを拾ってきてアップデートしてみました.

小幅な更新だという触れ込みの割にはインストールに15分ほどもかかりましたが,立ち上がってみればこれまでと何も変わりなく,OS のビルド番号が 19042.985 から 19043.985 に変わっただけでした.

更新後に何点か検証して気が付いたのですが,愛用の WZ Editor の単語補完機能は相変わらず新しい IME で動作しません.今後も古い IME を使う必要があります.これについては,WZ Editor 側で対策できないものかとも思います.

| | | コメント (0)

より以前の記事一覧