banner
conanxin

conanxin

SUPARS:聰明的圖書管理員

1970 年一個陽光明媚的秋天,數百名雪城大學(Syracuse University)的學生和教師輪流坐在一台打印機終端前(類似於電動打字機),該終端連接到紐約州校園內的 IBM 360 主機。幾乎沒有人使用過計算機,更不用說基於計算機的信息檢索系統了。他們觸摸鍵盤時手顫抖著;後來有幾個人報告說他們害怕自己會在輸入時破壞整個系統。

參與者正在進行第一次在線搜索,輸入精心選擇的單詞以在全新數據庫中找到相關心理學摘要。他們每行只輸入一個關鍵詞或指令,例如第 1 行是 “動力”,第 2 行是 “尊重”,第 3 行是 “L1 和 L2”,以便搜索包含這些術語的論文。運行查詢後,終端將生成一份輸出結果表明有多少篇文檔符合每個搜索條件;用戶可以縮小或擴大搜索範圍,並生成文章引用列表。許多參與者看到遠程計算機返回結果時都笑了。

作為事後電話調查的一部分,參與者被要求提供兩三個詞來描述這次體驗。在提供的總共 78 個單詞中,有 21 個是相同的形容詞:“令人沮喪”。參與者在登錄系統時遇到了困難,並經歷了不可預測的失敗、“不相關的輸出”,最重要的是,不知道 “在搜索中使用什麼詞”。然而他們也發現這個系統很有趣和令人興奮(“好玩”,“我喜歡計算機”),94% 的人表示如果 SUPARS(the Syracuse University Psychological Abstracts Retrieval Service,雪城大學心理文摘檢索服務)再次可用,他們會再次使用它。有幾個人提出繼續進行實驗,請求他們的部門為該項目提供資金。

這群學術實驗對象大多是教育學、心理學和圖書館學領域的研究生,他們是雪城大學圖書館學院開展的激進在線搜索實驗的一部分。SUPARS 是 20 世紀 60 年代末至 70 年代中期在美國大學校園進行的眾多雄心勃勃的信息檢索研究之一。許多因素導致了這項研究的激增。計算機處理速度和存儲能力的發展使得學術數據庫和目錄可以數字化並移動到在線平台上。計算機終端是新型模塊化設備,可以分布在校園各處,以便去中心化地訪問主機。而且,軍事和工業領域對基於計算機的研究的資金支持比以往任何時候都更加充裕。在有了這個機會後,學術圖書館員利用這種昂貴的新技術進行探索。反過來,大學提供了與企業技術公司和軍事組織合作的非保密環境;SUPARS 是由美國空軍實驗室羅馬航空發展中心(Rome Air Development Center)贊助的。

很容易理解為什麼 20 世紀 70 年代的圖書館員著手革新搜索。學術界的工作規模不斷擴大,很快就會沒有足夠的人類圖書館員來支持所有工作。然而,為了獲取所需的信息,研究人員需要面對耗時、費力與並需要圖書管理員介入的過程。雖然學術研究人員可以瀏覽其領域的新期刊,但如果要進行全面搜索以查找之前所有內容,則仍需諮詢參考圖書管理員,在多卷手冊中查找正確的國會圖書館主題標題。有了一組主題標題,研究人員就可以在圖書館目錄中搜索書籍,在期刊文章的引文索引中搜索,包括訂閱數據庫,如科學引文索引,以及由他們大學的學科圖書管理員手工創建的書目。最後,他們會親自找到正確的書籍和裝訂期刊,其中包括他們認為可能相關的資料 —— 如果這些書恰好在圖書館的書架上的話。

難怪 SUPARS 參與者發現該系統引人注目,儘管它有局限性。考慮到大學圖書館員對搜索挑戰的熟悉程度,他們設計的系統繞過主題標題和引文索引是有道理的。更令人驚訝的是,在這一時期發生的所有在線搜索實驗中(包括像洛克希德的 Dialog 這樣的商業搜索系統,該系統後來成為企業產品), SUPARS 比任何其他搜索都更接近地模仿當代網絡搜索,預示了 50 多年後我們所依賴的網絡搜索協議的幾個主要特徵。

SUPARS 和其他幾乎被遺忘的系統是我們今天所擁有的當代搜索引擎的先驅。雖然互聯網的流行歷史推崇矽谷的程序員 —— 有時也推崇美國前副總統阿爾・戈爾(Al Gore)—— 但搜索的許多最初概念來自圖書館科學家,他們關注的是文件在時間和空間上的可訪問性。在軍方和工業界的研發資助下,他們的進步在當前的在線信息領域隨處可見 —— 從獲取和索引全文文檔的通用方法,到自由文本搜索和利用以前保存的其他人搜索的複雜算法,當代查詢擴展和自動完成的基礎構建塊。事實上,這些方法和許多其他由校園先驅開發的方法,至今仍被數十億美元的網絡搜索和商業圖書館數據庫(從 Google 到 WorldCat)所使用。

下載

Pauline Atherton Cochrane(中)與在雪城大學圖書館研究 SUPARS 的同事。

SUPARS 是由一位名叫 Pauline Atherton 的圖書管理員設計的(她現在的名字是 Pauline Atherton Cochrane)。1960 年,30 歲的她剛開始圖書館生涯,就擔任當年《世界圖書百科全書》(World Book Encyclopedia)修訂版的交叉參考編輯,確保不同條目之間的交叉鏈接全面準確。到 1966 年,她在雪城大學(Syracuse University)圖書館和圖書館學院工作,1968 年,她演示了第一次使用在線十進制分類文件來幫助搜索。同年,她在圖書館學校(LEEP)建立了第一個基於計算機的教學實驗室,將在線搜索整合到常規課堂教學中。(在互聯網出現之前的世界,“在線” 意味著在大型計算機和其他一些遠程設備 [如終端] 之間建立網絡化的實時連接。)

第二年,也就是 1969 年,Atherton 與她的合作研究者、雪城大學的另一位圖書館學教授杰弗里・卡澤爾(Jeffrey Katzer)設計了 SUPARS。SUPARS 項目的主要目標是提供大規模的在線搜索,以便盡可能多地了解用戶如何在線搜索,他們對在線搜索的感受,以及他們需要什麼來更好地搜索。為此,該團隊建立了一個可搜索的學術內容語料庫,供整個校園使用;來自美國心理協會《心理學文摘》(Psychological Abstracts)的 35000 多篇文章。用於在 SUPARS 系統中進行索引和檢索,這是第一個在非分類環境中在線提供的大型數據庫。當時的用戶群和可搜索的內容都非常龐大,雖然規模和範圍遠不及今天的網絡搜索。

Atherton 和她的團隊做出的兩個決定讓 SUPARS 變得真正新穎。首先,他們從《心理學文摘》條目中去掉所有的主題標題,使所有的單詞都可以直接搜索,除了 “and” 這樣的連接詞和 “a” 或 “the” 這樣的冠詞。這使得 SUPARS 成為第一個可以在線搜索和輸出大量自由文本的系統。(他們的最終報告標題為 “自由文本檢索評估”[Free Text Retrieval Evaluation]。)其次,他們將每個 SUPARS 搜索保存在一個可以與摘要本身一起查詢的並行數據庫中,使 SUPARS 成為第一個允許用戶訪問和使用以前的搜索來找到替代術語或方法的實驗。

這些功能中的每個單獨來說都是新穎的,但是,為了了解這種組合在當時是多麼超前,有必要看看今天的網絡搜索服務是如何運作的。Google、Bing 等搜索引擎索引網頁使用兩個主要組件:爬蟲搜索新頁面,並定期重新抓取已經找到的頁面;解析器分析頁面內容,將結果信息(包括所有自由文本)存儲在內部數據庫中。當用戶輸入搜索查詢時,Google 會嘗試將查詢中的單詞和短語與其數據庫中的頁面進行匹配,並為用戶提供最相關的結果。

除了搜索者自己輸入的詞外,當代網絡搜索算法還會考慮與搜索查詢中那些詞密切相關的其他詞,包括同義詞(比如搜索 “bike”,返回的結果是 “bicycle” 和 “cycle”)和其他直接相關的詞。

大多數搜索引擎還會包括其他人執行的類似查詢的一部分的單詞,這些單詞成為內部同義詞庫的一部分,用於向用戶的查詢添加搜索詞。這個包含相關單詞的過程,稱為查詢擴展(query expansion),可以顯著提高返回記錄的相關性。類似地,Google 和其他搜索引擎也通過自動補全功能向用戶推薦額外的搜索詞,根據之前的搜索創建預測,幫助用戶快速完成查詢。

因此,通過賦予用戶直接在文檔中搜索自由文本的能力,以及允許搜索者借鑒前人使用過的搜索策略,SUPARS 預示著網絡搜索的到來。同時,SUPARS 通過分析其事務日誌來確定所有這些單個搜索的效用。在最初的試驗項目之後,在 1970 年 10 月至 12 月(SUPARS I)和 1971 年 11 月至 12 月(SUPARS II)之間進行了兩次 SUPARS 測試。Atherton 的研究小組得出結論,自由文本搜索是提高搜索結果相關性(用科學家的話說就是 “recall”)的一種有效方式,而且可能與由人類圖書館員領導的搜索一樣有效。更重要的是,一個不斷進化的詞彙系統不斷適應人類的輸入和行為,相對於一個基於固定的、“一次性” 控制的搜索系統詞彙表的系統進行了升級。SUPARS 團隊不知道人工智能網絡搜索算法會在幾十年後完成這項精確的工作,但他們顯然有一種感覺,這將是一種持續更新搜索結果的新且有效的方式。

在 1972 年寫給《美國信息科學學會雜誌》(Journal of the American Society for Information Science)編輯的一封信中,Katzer 描述了提供所有先前搜索查詢的數據庫背後的原因:

這個搜索數據庫的目的是幫助用戶在文檔數據庫中制定查詢(心理學文摘)。由於 SUPARS 目前使用的是不受限制的詞彙表,因此搜索數據庫的輸出可以幫助用戶發現在文檔數據庫中攻擊其主題的其他方法:它將提供其他主題專家的關鍵字,以及他們的思維過程的表示…… 我們認為,這是一個尚未得到充分探索的領域的開端:使用用戶智能來增強機器智能的所有努力。

人們很容易把 Atherton 的團隊描繪成烏托邦式的未來主義者,但 SUPARS 實驗的設計並沒有像開放網絡那樣具有指導性的願景。它是專門為未來能親自幫助研究人員的圖書館員越來越少的情況而設立的。擴展他人的集體智慧是一個實用的解決方案,而不是一個理想主義的解決方案。

Atherton 的小組觀察到,由於雪城大學的新計算機終端位置 “遠離參考圖書管理員或用戶感興趣領域的任何其他人類專家”,他們將需要額外的幫助來源,這可以在 “系統所有其他用戶的人類智慧” 中找到。他們寫道,其他研究人員的綜合決定只是圖書館專家的替代品:

理想情況下,用戶能夠與熟悉其興趣領域的人交談,並得到各種詞彙和其他提示。然後,用戶可以開發或制定對系統的搜索查詢,該查詢具有最大化檢索所需的具體性或詳盡性。

當他們在校園裡使用模塊化終端時,SUPARS 團隊看到了即將到來的未來,以及一個基於分佈式、網絡化計算的世界將失去什麼:越來越多的研究人員將在圖書館之外獨立工作,他們需要圖書管理員無法提供的支持。Atherton 的團隊並沒有預測到一個不需要專業圖書管理員的世界;他們正在為這樣一個世界做準備:研究將在許多不同的地點進行,距離參考諮詢台太遠,他們無法提供幫助。

SUPARS 實驗人員還得出結論,雖然利用他人的搜索詞是基於主題的搜索的一個有希望的替代方案,但它確實有局限性。SUPARS 的最後建議之一是繼續開發受控詞彙表,並解釋說 “交互式自由文本搜索對某種形式的用戶詞彙表或同義詞控制的需求仍然存在”。他們是在看到 SUPARS 的參與者經常遇到搜索詞彙問題後得出這個結論的,比如在他們的一個例子中,搜索 “人” 而不是 “人類”,卻沒有返回任何結果。參與者自己也忽視了主題標題的全面性。事實上,作為 SUPARS 調查的一部分,他們被問及是否更喜歡自由文本系統或詞彙受到更多控制的系統: 42% 的人喜歡自由文本系統,36% 的人喜歡受控詞彙,12% 的人希望兩者兼得。

這樣一來,SUPARS 的意義就在於它既是個遠遠領先於時代的設計,又是互聯網和萬維網的既定技術烏托邦歷史的反例。在這段歷史中,被譽為有遠見的人幾乎總是想象著這樣一個世界:技術將絕對改善人類的交流、智力和效率。

例如,這段歷史中最著名的人物之一是 J. C. R. Licklider,他的通用網絡想法直接啟發了阿帕網 (ARPANET) 的發明,該網絡通常被稱為 “第一個互聯網”。(Licklider 也深入參與了類似的 60 年代和 70 年代的校園在線搜索實驗;他既資助了麻省理工學院圖書館的幾項研究,也為其提供了建議,這些研究與 SUPARS 在同一時期進行)。

1968 年,即 SUPARS 設計的前一年,Licklider 的論文《作為通信設備的計算機》(The Computer as a Communication Device)宣稱:“幾年後,人們將能夠通過機器進行比面對面更有效的交流”,並描述了一個以人類計算機互動為媒介的有益的、幸福的社會。Licklider 預言,“在線個人的生活將更加幸福”,“交流將更加有效和富有成效,因此也更加令人愉快”。Licklider 的文章對於這種關於信息技術潛力的未來主義流派來說,是典型的既預測又美好的文章。

文化界讚揚像 Licklider 這樣的人具有積極的願景。但是,同樣地,Atherton 和 SUPARS 研究團隊也應該被讚美,因為他們看到了未來可能失去的東西,然後為之設計。將我們的互聯網夢想家群體擴大到像 Atherton 這樣的人,我們看到了不同類型的研究人員如何設想未來世界的更複雜的畫像。Licklider 看到了我們將從能夠與世界上任何一個人在線交流中獲得什麼,而 Atherton 的小組看到我們將失去專家中介;他們是為了這個成本而設計的。

2022 年和 2023 年,隨著第一批生成性人工智能搜索引擎(包括 Elicit 和 Consensus 等學術搜索引擎)被介紹給廣大用戶,既讓人興奮又讓人懷疑,分析研究人員依賴這些工具會失去什麼也同樣有用。例如,當我們可以簡單地輸入研究問題來創建即時的文獻綜述時,這將不僅僅是一個巨大的積極飛躍。這種新技術將造成基礎和背景的缺失,即使是在取得令人難以置信的新發現時也是如此 —— 這種損失與 Atherton 所看到的不同,但同樣是無形的和深遠的後果。能夠提前預測這些後果,不是像勒德分子(Luddites)那樣哀悼它們,而是積極考慮如何幫助研究人員克服它們,這是我們可以從 SUPARS 團隊那裡學到的一課。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。