banner
conanxin

conanxin

SUPARS:賢い図書館員

1970 年の晴れた秋の日、数百人のシラキュース大学の学生と教員が、ニューヨーク州のキャンパスにある IBM 360 メインフレームに接続されたプリンター端末(電動タイプライターに似たもの)の前に交代で座っていました。ほとんどの人がコンピュータを使ったことがなく、ましてやコンピュータベースの情報検索システムを使ったことはありませんでした。彼らはキーボードに触れると手が震えていました;後に何人かは、入力中にシステム全体を壊してしまうのではないかと恐れていたと報告しました。

参加者たちは初めてのオンライン検索を行い、新しいデータベース内で関連する心理学の要約を見つけるために慎重に選ばれた単語を入力しました。彼らは各行に 1 つのキーワードまたはコマンドを入力しました。例えば、1 行目は「動機」、2 行目は「尊重」、3 行目は「L1 と L2」といった具合に、これらの用語を含む論文を検索しました。クエリを実行すると、端末は各検索条件に合致する文書の数を示す出力結果を生成しました;ユーザーは検索範囲を絞ったり広げたりし、文献引用リストを生成することができました。多くの参加者は、遠隔コンピュータが結果を返すのを見て笑っていました。

事後の電話調査の一環として、参加者はこの体験を説明するために 2、3 の言葉を提供するよう求められました。提供された 78 語の中で、21 語が同じ形容詞「苛立たしい」でした。参加者はシステムにログインする際に困難に直面し、予測不可能な失敗や「無関係な出力」を経験し、最も重要なことに「検索に使用する単語がわからない」と感じていました。しかし、彼らはこのシステムが面白く、刺激的であることも発見しました(「楽しい」、「コンピュータが好き」)。94% の人が、SUPARS(シラキュース大学心理文摘検索サービス)が再び利用可能になった場合、再度使用する意向を示しました。何人かは実験を続けることを提案し、彼らの部門にこのプロジェクトに資金を提供するよう求めました。

この学術的な実験の参加者の大半は教育学、心理学、図書館学の大学院生であり、シラキュース大学図書館学部が行った過激なオンライン検索実験の一環でした。SUPARS は、1960 年代末から 1970 年代中頃にかけてアメリカの大学キャンパスで行われた数多くの野心的な情報検索研究の一つです。この研究の急増には多くの要因がありました。コンピュータの処理速度とストレージ能力の向上により、学術データベースやカタログがデジタル化され、オンラインプラットフォームに移行できるようになりました。コンピュータ端末は新しいモジュール型デバイスで、キャンパスの各所に分散配置され、メインフレームへの分散アクセスを可能にしました。また、軍事および産業界からのコンピュータベースの研究への資金提供がかつてないほど豊富になりました。この機会を得た学術図書館員は、この高価な新技術を利用して探求を行いました。大学は、企業技術会社や軍事組織との協力のための非機密環境を提供しました;SUPARS はアメリカ空軍実験室ローマ航空開発センターによって支援されました。

1970 年代の図書館員が検索の課題を革新しようとした理由は明らかです。学術界の仕事の規模は急速に拡大しており、すべての作業を支えるための人間の図書館員が不足することが明らかでした。しかし、研究者が必要な情報を得るためには、時間がかかり、労力を要し、図書館員の介入が必要なプロセスに直面しなければなりませんでした。学術研究者は自分の分野の新しいジャーナルを閲覧できますが、以前のすべての内容を検索するためには、依然として参考図書館員に相談し、複数巻のハンドブックで正しい国立図書館の主題見出しを探さなければなりませんでした。主題見出しのセットがあれば、研究者は図書館のカタログで本を検索し、ジャーナル記事の引用索引を検索し、科学引用索引のような購読データベースや、彼らの大学の専門図書館員が手動で作成した書誌を含めることができます。最終的に、彼らは正しい本や製本されたジャーナルを見つけ出し、関連する資料が含まれていると思われるものを探し出します — もしそれらの本が図書館の書架にあればの話ですが。

SUPARS の参加者がこのシステムを注目すべきものと見なしたのも不思議ではありませんが、それには限界がありました。大学の図書館員が検索の課題に精通していることを考えると、彼らが設計したシステムが主題見出しや引用索引を回避するのは理にかなっています。さらに驚くべきことに、この時期に行われたすべてのオンライン検索実験の中で(ロッキードの Dialog のような商業検索システムを含む)、SUPARS は当代のウェブ検索を最も模倣しており、50 年以上後に私たちが依存するウェブ検索プロトコルのいくつかの主要な特徴を予示していました。

SUPARS や他のほとんど忘れ去られたシステムは、今日私たちが持っている現代の検索エンジンの先駆者です。インターネットの普及の歴史はシリコンバレーのプログラマーを称賛しますが — 時にはアメリカの元副大統領アル・ゴアも — 検索の多くの初期の概念は、文書の時間と空間における可アクセス性に焦点を当てた図書館科学者から生まれました。軍事および産業界の研究開発資金の下で、彼らの進歩は現在のオンライン情報分野の至る所に見られます — 全文文書の取得とインデックス作成の一般的な方法から、自由テキスト検索や以前に保存された他者の検索を利用した複雑なアルゴリズム、現代のクエリ拡張や自動補完の基礎構築ブロックに至るまで。実際、これらの方法やキャンパスの先駆者によって開発された多くの他の方法は、今でも数十億ドルのネット検索や商業図書館データベース(Google から WorldCat まで)で使用されています。

ダウンロード

ポーリーン・アザーソン・コクレーン(中央)と、シラキュース大学図書館で SUPARS を研究している同僚たち。

SUPARS は、ポーリーン・アザーソンという名の図書館員によって設計されました(彼女の現在の名前はポーリーン・アザーソン・コクレーンです)。1960 年、30 歳の彼女は図書館のキャリアを始めたばかりで、その年の『世界図書百科事典』(World Book Encyclopedia)の改訂版のクロスリファレンス編集者を務め、異なる項目間のクロスリンクが完全かつ正確であることを確認しました。1966 年までに、彼女はシラキュース大学の図書館と図書館学院で働き、1968 年にはオンライン十進分類ファイルを使用して検索を支援する初めてのデモを行いました。同年、彼女は図書館学校(LEEP)に初のコンピュータベースの教育実験室を設立し、オンライン検索を通常の授業に統合しました。(インターネットが登場する前の世界では、「オンライン」とは、大型コンピュータや他のいくつかの遠隔デバイス [端末など] の間にネットワーク化されたリアルタイム接続を確立することを意味しました。)

翌年、1969 年、アザーソンは彼女の共同研究者でシラキュース大学の別の図書館学教授であるジェフリー・カツァーと共に SUPARS を設計しました。SUPARS プロジェクトの主な目標は、大規模なオンライン検索を提供し、できるだけ多くのユーザーがオンライン検索をどのように行い、オンライン検索に対してどのように感じ、より良い検索を行うために何が必要かを理解することでした。そのために、チームはキャンパス全体で使用できる検索可能な学術コンテンツのコーパスを構築しました;アメリカ心理学会の『心理学文摘』(Psychological Abstracts)からの 35,000 以上の記事が含まれています。これは SUPARS システム内でインデックス作成および検索に使用され、非分類環境でオンライン提供された最初の大規模データベースでした。当時のユーザー層と検索可能なコンテンツは非常に広範囲でしたが、規模と範囲は今日のウェブ検索には及びませんでした。

アザーソンと彼女のチームが下した 2 つの決定が SUPARS を本当に革新的なものにしました。まず、彼らは『心理学文摘』の項目からすべての主題見出しを取り除き、「and」のような接続詞や「a」や「the」のような冠詞を除いて、すべての単語を直接検索可能にしました。これにより、SUPARS はオンラインで大量の自由テキストを検索し出力できる最初のシステムとなりました。(彼らの最終報告書のタイトルは「自由テキスト検索評価」[Free Text Retrieval Evaluation] でした。)次に、彼らは各 SUPARS 検索を要約自体と一緒にクエリできる並行データベースに保存し、SUPARS を以前の検索を利用して代替用語や方法を見つけることを許可する最初の実験にしました。

これらの機能はそれぞれ新しいものでしたが、この組み合わせが当時どれほど先進的であったかを理解するためには、今日のウェブ検索サービスがどのように機能しているかを見る必要があります。Google や Bing などの検索エンジンは、ウェブページをインデックスするために 2 つの主要なコンポーネントを使用します:クローラーが新しいページを検索し、定期的に既に見つけたページを再取得します;パーサーがページの内容を分析し、結果情報(すべての自由テキストを含む)を内部データベースに保存します。ユーザーが検索クエリを入力すると、Google はクエリ内の単語やフレーズをデータベース内のページと照合し、最も関連性の高い結果をユーザーに提供しようとします。

現代のウェブ検索アルゴリズムは、検索者自身が入力した単語に加えて、検索クエリ内の単語と密接に関連する他の単語も考慮します。同義語(例えば「bike」を検索すると、「bicycle」や「cycle」が返される)や他の直接関連する単語が含まれます。

ほとんどの検索エンジンは、他の人が実行した類似のクエリの一部の単語も含め、これらの単語は内部同義語集の一部となり、ユーザーのクエリに検索語を追加します。この関連単語を含むプロセスは、クエリ拡張(query expansion)と呼ばれ、返される記録の関連性を大幅に向上させることができます。同様に、Google や他の検索エンジンは、自動補完機能を通じてユーザーに追加の検索語を提案し、以前の検索に基づいて予測を作成し、ユーザーがクエリを迅速に完了できるようにします。

したがって、文書内で自由テキストを直接検索する能力をユーザーに与え、検索者が以前の検索戦略を借りることを許可することで、SUPARS はウェブ検索の到来を予示しました。同時に、SUPARS はそのトランザクションログを分析して、これらの個々の検索の有用性を特定しました。最初の試験プロジェクトの後、1970 年 10 月から 12 月(SUPARS I)および 1971 年 11 月から 12 月(SUPARS II)の間に 2 回の SUPARS テストが行われました。アザーソンの研究チームは、自由テキスト検索が検索結果の関連性(科学者の言葉で言えば「リコール」)を向上させる効果的な方法であり、人間の図書館員が主導する検索と同じくらい効果的である可能性があると結論づけました。さらに重要なのは、進化し続ける語彙システムが人間の入力や行動に適応し続ける一方で、固定された「一度限り」の制御された検索システムの語彙表に基づくシステムがアップグレードされたことです。SUPARS チームは、人工知能のネット検索アルゴリズムが数十年後にこの正確な作業を完成させることになるとは予想していませんでしたが、彼らは明らかに、これは検索結果を継続的に更新する新しく効果的な方法になるだろうという感覚を持っていました。

1972 年に『アメリカ情報科学学会誌』(Journal of the American Society for Information Science)の編集者に宛てた手紙の中で、カツァーはすべての以前の検索クエリを提供するデータベースの背後にある理由を説明しました:

この検索データベースの目的は、ユーザーが文書データベース(心理学文摘)内でクエリを作成するのを助けることです。SUPARS が現在使用しているのは制限のない語彙表であるため、検索データベースの出力は、文書データベース内でそのテーマに対する他のアプローチを発見するのを助けることができます:それは他の主題専門家が使用するキーワードや、彼らの思考過程の表現を提供します…… 私たちは、ユーザーの知恵を利用して機械の知恵を強化するすべての努力が、まだ十分に探求されていない領域の始まりであると考えています。

アザーソンのチームをユートピア的な未来主義者として描くのは簡単ですが、SUPARS 実験のデザインはオープンネットワークのような指導的なビジョンを持っていませんでした。それは、将来的に研究者を直接支援する図書館員がますます少なくなる状況に備えて設計されました。他者の集合知を拡張することは、理想主義的な解決策ではなく、実用的な解決策です。

アザーソンのグループは、シラキュース大学の新しいコンピュータ端末の位置が「参考図書館員やユーザーが興味を持つ分野の他の人間の専門家から遠く離れている」ため、彼らは「システムのすべての他のユーザーの人間の知恵」の中に追加の助けの源を見つける必要があることを観察しました。彼らは、他の研究者の総合的な決定が図書館専門家の代替品であると書きました:

理想的には、ユーザーは自分の興味のある分野に精通した人と話し、さまざまな語彙や他のヒントを得ることができるでしょう。そうすれば、ユーザーはシステムの検索クエリを開発または策定し、必要な情報を最大限に取得するための具体性や詳細を持たせることができます。

彼らがキャンパスでモジュール型端末を使用しているとき、SUPARS チームは、分散型のネットワークコンピューティングの世界が失うものを見越していました:ますます多くの研究者が図書館の外で独立して作業し、図書館員が提供できない支援を必要とすることです。アザーソンのチームは、専門の図書館員が不要な世界を予測していたわけではありません;彼らは、研究が多くの異なる場所で行われ、参考相談デスクから遠く離れた場所で行われる世界に備えていました。

SUPARS の実験者たちは、他者の検索語を利用することが主題ベースの検索の有望な代替手段である一方で、限界があることも結論づけました。SUPARS の最後の提言の一つは、制御された語彙表の開発を続けることであり、「インタラクティブな自由テキスト検索には、ユーザーの語彙表や同義語の制御の必要性が依然として存在する」と説明しました。彼らは、SUPARS の参加者が検索語彙の問題に頻繁に直面しているのを見てこの結論に至りました。例えば、彼らの一例では「人」を検索したが「人間」では結果が返ってこなかったというものでした。参加者自身も主題見出しの包括性を無視していました。実際、SUPARS 調査の一環として、彼らは自由テキストシステムとより制御された語彙のシステムのどちらを好むか尋ねられました:42% が自由テキストシステムを好み、36% が制御された語彙を好み、12% が両方を望みました。

このように、SUPARS の意義は、時代を先取りしたデザインであると同時に、インターネットとワールドワイドウェブの確立された技術ユートピアの歴史の反例でもあります。この歴史の中で、先見の明があると称賛される人々は、ほぼ常に技術が人間のコミュニケーション、知性、効率を絶対的に改善する世界を想像していました。

例えば、この歴史の中で最も有名な人物の一人である J. C. R. リックライダーは、彼の一般的なネットワークのアイデアが ARPANET の発明に直接影響を与えたと主張されており、このネットワークは一般的に「最初のインターネット」と呼ばれています。(リックライダーは、1960 年代と 70 年代のキャンパスオンライン検索実験にも深く関与しており、彼は MIT 図書館のいくつかの研究に資金を提供し、SUPARS と同時期に行われた研究に助言を行いました。)

1968 年、SUPARS が設計される前年に、リックライダーの論文『通信装置としてのコンピュータ』(The Computer as a Communication Device)は、「数年後、人々は機械を通じて対面よりも効果的にコミュニケーションを行うことができるようになる」と宣言し、人間とコンピュータの相互作用を媒介とした有益で幸福な社会を描写しました。リックライダーは、「オンラインでの個人の生活はより幸福になるだろう」、「コミュニケーションはより効果的で生産的になり、したがってより楽しいものになるだろう」と予言しました。リックライダーの文章は、情報技術の潜在能力に関する未来主義的な流派にとって、典型的な予測的かつ美しい文章です。

文化界は、リックライダーのような人々の積極的なビジョンを称賛します。しかし同様に、アザーソンと SUPARS 研究チームも称賛されるべきです。彼らは未来に失われる可能性のあるものを見越し、それに備えて設計しました。私たちのインターネットの夢想家のグループをアザーソンのような人々に広げることで、私たちは異なるタイプの研究者が未来の世界をどのように想像しているかのより複雑な像を見ることができます。リックライダーは、私たちが世界中の誰とでもオンラインでコミュニケーションを取れることから得られるものを見ましたが、アザーソンのグループは専門的な仲介者を失うことを見ました;彼らはそのコストのために設計されたのです。

2022 年と 2023 年、最初の生成的人工知能検索エンジン(Elicit や Consensus などの学術検索エンジンを含む)が一般ユーザーに紹介され、興奮と疑念を呼び起こす中、分析研究者がこれらのツールに依存することで失うものを考えることも同様に有用です。例えば、研究問題を入力するだけで即座に文献レビューを作成できる場合、これは単なる大きな前進ではありません。この新技術は、驚くべき新発見を達成したとしても、基礎や背景の欠如を引き起こすでしょう —— この損失はアザーソンが見たものとは異なりますが、同様に無形で深遠な結果をもたらします。これらの結果を予測することは、ルダイト(Luddites)のようにそれを嘆くのではなく、研究者がそれを克服するのを助ける方法を積極的に考えることが、私たちが SUPARS チームから学べる教訓です。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。