誰がログ

誰がログ

歯切れが悪いのは仕様です。

ブックマークサービスRaindrop.ioのタグサジェストが賢い

はじめに

以前Raindrop.io(以下Raindrop)に、はてなブックマークとEvernoteのブックマーク、webクリップを移したことを書きました。

はてなブックマーク(とEvernote)からRaindrop.ioへの切り替え - 誰がログ

私の観測範囲ではあまり使っている人自体見ませんし、有料プランにしている人はさらに少なそうなので、また少し情報提供を。

上の記事を書いた後も有料プランで快適に使っていて、特にスマホ使用中に見かけたものをとりあえず放り込んでおくのに重宝しています。もちろんとりあえず放り込んでおくだけならいろんなツール・サービスでできるわけですが、Raindropは保存時にタグ付けなどして整理しておくのが簡単ですし、後で情報を探すのも楽です。アプリ自体がブラウザにもなるので、後で読むだけならこのアプリで完結します。プランと機能のまとめについては下記の通りです。

Pricing — Raindrop.io

AIによるタグなどのサジェスト機能

さて、以前紹介したときにはなかった(たぶん)機能としてAIを利用したサジェスト機能があり、保存時にコレクション(フォルダーに相当)やタグの候補を挙げてくれます。上のページの機能リストでは "AI Suggestions" と書かれているものです。

このサジェスト機能、開始当初はあまり精度が良くなくてぜんぜん使っていなかったのですが、気付いたらすごく賢くなっていました(機能自体が良くなったのか学習が進んだのかは分かりません)。私はコレクションはあまり細かい分類をしていないせいか賢さがあまり実感できないので、タグのサジェストについて書きます。

さいきんはサジェストが優秀なので、ブックマークするときはまずサジェストされたものの中から選んでタグを付け、必要なら自分で入力するというやり方に変わりました。自分で入力する場合も既存のタグについては補完してくれるので手間はありません。

どう賢いかというと、一般的なものだけでなく、オリジナルのタグや専門用語も使っているとちゃんとwebページに合わせてサジェストしてくれます。たとえば、私は "hate speech" や "hate crime" などをまとめる "Hate_" というタグを使っているのですが、さいきん下記のページをブックマークする際にこれを一番に出してくれました。

ヘイトスピーチ裁判判決確定のお知らせ==私たちは「強く」なければならないのか - Dialogue for People(ダイアローグフォーピープル/D4P)

あとオリジナルのやつだとガジェットとか文房具とか気になるアイテムに付ける ".Mono" というタグも精度良くすすめてくれるようになってきました(頭のピリオドはタグ内での並びをほかのより先にするためのもの)。

ほかにも、 "CMC" のような頭字語の専門用語("Computer-Mediated Communication"の頭字語)なんかもけっこう的確にすすめてきます。

Raindropのサイトからはよく分かりませんでしたが、たぶんタイトルだけでなくページの内容も見てるんじゃないかなあ。そう思わせるサジェストが時々あります。有料プランの機能に全文検索もありますしね。実はブックマークしたものを後で探すには全文検索で済むことも多いんですが、やっぱりタグはあると便利です。固有名でもほかと紛れやすくて検索に向かないものとかありますしね(典型例は "X")。

おわりに:そのほかの機能

さいきん、webの情報だけでなくローカルからファイルをアップロードして管理できることに気付きました。たとえば論文のpdfファイルをアップして簡易的な文献管理に使うなんてこともできるかもしれません。文献管理はZoteroが有能なので私の環境では出番がありませんが…あと、どうもpdfファイル内の日本語は全文検索でうまく探せていないようです(英文ならpdfファイル内もちゃんと検索してくれます)。

個人的にはサジェスト機能が出る前の機能だけでも年額5,000円弱というのはお得に感じていました。はてなブックマークから全移行したこともあって総ブックマーク数は3万を超えているのですが、動作も検索も今のところ快適です。今後もできるだけ継続してほしいサービスの一つです。

大学での授業や論文指導に関する生成AI雑感(2024年度版)

はじめに

2024年度に大学で担当している授業や学位論文の指導で、生成AI関連で気になることがいくつかあったので記録も兼ねて簡単に書いておきます。以下どうしてもネガティブなことが多くなっていますが、ちゃんと付き合う/使うためにはこういうことも考えておく必要がありそうだということで。

私自身はあまり技術的に詳しい方ではありませんが、ふだんの業務や研究では生成AIをいろいろ試しています。ChatGPT Proにはまだ手が出せていないものの、有料プランで使っているものもあります。また、生成AI絡みの研究にもちょっとだけ関わっていたりもします。

なお、以下に書くことはあくまで同様の問題に困っている、あるいは心配している人の参考になればということで例を示したものです。一口に「大学」「研究」と言っても、組織や分野、授業・研究の目的などさまざまな条件が関わることで簡単にまとめるのはおそらく難しいので、皆さんの置かれている環境ではどうなのか、ということを具体的に考えるのをおすすめします。

授業

2024年度後期の担当科目の期末課題レポートで、生成AIのアウトプットをそのまま提出したらしいものが明らかに増えました。

実はこれまでも「これはもしかしたら使ってるな…」というものはあって、ただ私の授業では生成AIの使用自体は禁止していないので、そうでないレポートと同じように評価していました。

ちなみに私の授業のレポートではけっこう細かく条件を指定しているので、生成AI丸投げのレポートをそのまま提出しちゃうと自然と評価が低くなっちゃうんですよね。ただ気になるのはおそらく生成AIの仕組みがよく分かっていなかったり(レポートの条件を指定して文章生成できるということやそのやり方を知らない)、最終的な体裁を取り繕う方法を知らない、あるいはやる気がない受講生も使い出しているんだなというところが気になっていて、2025年度からは今までと同じやり方ではダメそうだという実感がありました(実際にどう変えるかは後述)。

もちろん私が見破れていないものがあった可能性はあります。さいきんは生成AIによるアウトプットを判別するチェックツールもありますが、いくつか試してみたもののまだ成績評価の判断の根拠として使えるほどの精度は出ないかなというのが正直なところです。一種のフィルターとして使用して、引っかかったものについては受講生本人に話を聞かないと難しいでしょうね。

個人的には、生成AIのアウトプットかどうかを判別することに必要以上のリソースを奪われることがむしろ心配というか実害が大きそうだという気がしていて、「生成AIに丸投げしたら単位は取れるかもしれないけど自分の能力や経験は増えないので結局自分が損をする、それを踏まえて判断は学生の自由」が基本方針として良いのではないかと考えています。もちろん生成AIとの付き合い方とかどういう使い方が問題なのかとかはきちんと説明するというのが前提で。ただここで問題になってくるのがGPA辺りの制度で、こういう数値によって奨学金とか進路とかに影響する可能性があるとやはりそれなりの精度での対応が必要そうです。教育機関としても「使って損をするのは自業自得」というのはちょっと極論な気もしますしね。程度問題なのでかける労力と判別精度のバランスにどこかで線引きをすることになるわけですが、労力の方が厳しくなりそうな予感がします。技術がある人は違うのでしょうか。

ライティングの授業でWordの使い方とかの話を(ほとんど)しなくて良くなる、というような方向で生成AIのサポートが進むととても嬉しいんですけどね。Microsoft Copilotにほんのり期待しておくことにします。

私自身は生成AIは「活用」する方向で授業に導入したいのですが、どうしても心配なのがサービス・ツールによる性能差、特に有料プランの強さです。たとえば生成AIを使って良いとして、ChatGPT Proを使える環境にある学生はとても有利ですよね。大学が全員に最上級プランの契約を提供してくれたら嬉しいんですけど、さいきんの大学のお金のなさを考えると厳しそうです。

「じゃあ(レポートじゃなくて)テストにすれば良いじゃん」というのはその通りなんですが、私はテストが持つ「ごく短時間にパフォーマンスを発揮できる人が有利」という特徴がどうにも一面的である気がするのですよね(もちろんそれが適切な評価法な場合もあります)。(短時間で課される)テストによる評価ばかりという状況からようやくある程度解放されるのが大学・大学院の良さではないかというのがあって。というわけで、2025年度からは最終成果物としてのレポートの評価における割合を減らして、その途中段階の課題やプロセスの評価割合を増やす方向でやってみる予定です。

ちなみに、今年度からすでに架空の引用や文献の捏造の対策として、すべての参照文献に確認のためのurlを付けるという条件を課しました(やや緊急措置的ではあります)。文献の存在が確認できれば良いので、書籍なら出版社のサイトにあるその書籍のページ、論文なら論文個別のページのほかCiNiiのページなどでも良いとしました。もちろん生成AIは「urlを付けて」とお願いするとurl自体でっち上げてきたりしますから、urlの先が存在しているかどうかは人力で確認しました(TAが付いている科目はTAに依頼)。幸い不正はありませんでしたが(url情報の付け忘れは少しあり)、これに予防効果があったのか、元々そのような捏造は少ないのかは比較対象がなくて良くわかりません。

研究(学位論文指導、特に卒論)

少し前も増田か何かで話題になっていたと思いますが、学位論文、特に卒論の指導で心配が増えそうです。

個人的に心配している問題は「データの捏造」です。剽窃はもうiThenticateなどのチェックツールもありますしね。

少し前に発表した下記の研究で、生成AIを使ったテキストデータの収集を試してみたのですが、思ったより厄介だなと感じました。

言語学フェス2025の発表ポスター公開(「言語学er」みたいな表現の研究) - 誰がログ

複数の生成AIにweb検索と組み合わせた「特定の条件を満たす言語表現」の収集をお願いしたら、webに存在しない例を生成し、確認のために付けてくれとお願いしたurlもやっぱりでっち上げてきたんですよね。問い詰めたらあっさり「今回は実際の例ではなく作りました」と認めたのですが、「じゃあもう一度探してきて」とお願いしたら快く引き受けていただけたもののその後音沙汰はありませんでした(しばらくして「ところであれどうなった?」と聞いたら「なんだか途中で止まっちゃった」という返答が…)。今後Deep ResearchとかOperatorなどのツールが発達すればなんとかなっていくのかもしれません。

ただこれには、データをX(旧Twitter)から取りたい、でもAPIの料金は高すぎ、スクレイピングも禁止されている、というようなやや特殊な事情があり、そのほかの場から取るのであれば無理に生成AIに直接データを探させる必要はありません。私自身も平行してBlueskyやInstagramからのデータ収集を試しています。

一方学生の研究については、今後「それなりにがんばって調べたらしきデータ」を生成AIがかなりそれらしく作っちゃうっていうケースが出てくるんじゃないかなあというのが心配としてあります。場合によってはたとえばインタビューそのものやアンケート結果だってそれらしいものが「生成」されちゃうなんてこともありますかね。幸い私のところでは個々の用例も検討しますのでそこで架空の例に気付く可能性はありますが、数が多い場合などは大変です。

ほかにも、元々のデータは捏造ではないけれどもデータの整理の段階で意図しない改変が入っちゃうとかもありそうですかね。

所属している組織でどういう扱いになるかはまだ分かりませんが、自分が指導を担当する学生には、もうすでに一部の学術論文では採用されているように、卒論本体に「生成AIをどのように使ったか」を明記してもらうという方法を考えています(使っていない場合はそのことを明記)。

生成AIをうまく使うことでこれまでの人数・時間では無理だった研究ができるようになる可能性もありそうですし、使用禁止とはしたくないのですが、今後、頭を悩ませる問題はいろいろ出てくるのだろうと思います。

おわりに

今後も生成AIについては、技術的にどのようにすれば良いのかとか、ポリシーやガイドラインをどうするのかという問題に追われ続けることになるでしょう。コロナ禍本格化以降に進んだ「オンライン化」のときと同じように、一部の人たちの人生や健康が犠牲になる(そしてそれらがすでに忘れられ始めている)のではないかということが心配で、自分で関われるところくらいでは何とかしたいものです。

しかしさいきんなんだか「〜が心配」というようなことを考えたり書いたりしていることが多く、これも年を取ったということなのかもしれません。

言語学フェス2025の発表ポスター公開(「言語学er」みたいな表現の研究)

昨日言語学フェス2025というイベントで研究発表をしました。

言語学フェスについては公式サイトや立ち上げたメンバーの1人である松浦さんの記事などをご参照ください。この分野のものにしてはかなり大きなイベントだと思います。私も昨年から実行委員として関わっています。

今回は2年ぶりに発表もしました。「現代日本語における接尾辞-erの形と意味」というタイトルで、「言語学er」のように日本語の中に現れる「er」、特に音(どう読むか)がよく分からないものを取り上げています。

下記のサイトにポスターのpdfをアップしましたので興味のある方はどうぞ。1枚のポスターなのでダウンロードした方が見やすいかと思います。発表では生成AIを使った用例採取の感触とかBluskyのカスタムフィードとAPIとかについてももう少し話したのですがまだまだ試行錯誤中なのでもう少し手応えが出てきたらまたどこかでまとめます。