大數據與文學:人類如何借助科技進步?

2018-09-11

文學與科技看似風馬牛不相及,但早前已談過以現時的人工智能技術,已足以勝任簡單文字工作,甚至連寫詩、寫書也能做到,更有望在日後能以人工智能寫成《紐約時報》暢銷書。然而,這是否代表人類真的比不上人工智能,要向科技屈服?

其實不然,科技只要用得其所,絕對有助人類進步;在文學界,運用大數據有助提高文體學研究的效率、幫助學者解決文學界「千古難題」,甚至更可能找出名作家寫成暢銷書的秘訣,幫助寫作者提升寫作技巧。

▍文體學:數據分析文本

每人寫作都有其獨有風格,從用字習慣、語氣、故事氛圍等方向入手,都有機會研究出作家寫作技巧,甚至找出寫作者成疑的作品實際上由誰寫成。這種關於文學體裁和寫作技巧的研究,一直被稱為文體學(Stylistics,又名風格學)。不少學者在仍未有科技協助前,就不斷以人力來考證、翻查文本。

例如,英國文學學者Lucius Adelno Sherman就曾於十九世紀末出版《文學分析:英文散文及詩歌的客觀研究手冊》(Analytics of Literature: A Manual for the Objective Study of English Prose and Poetry),由中世紀詩人開始分析,討論近代的莎士比亞、愛默生等等的寫作習慣,例如句子長短程度、一句當中使用多少詞語、使用甚麼類型的詞語等等。這類文學分析為日後的文體學研究定下基礎,但一直只能靠人力來研究,難度既高工作量亦繁多,並非最佳做法。

此時,便是大數據登場的最理想機會。畢竟借助大數據的話,便能於短時間內分析、對比大量文學資訊,從而補足人類的缺陷——這些重複性高的工作,是不需要人類來做的。

▍莎士比亞不是一個人?以大數據找出代筆者

莎士比亞的作品貴為文學經典,古今中外人人皆知,即使未必一一讀完他的作品,但總必聽過他的大名。但文學界一直有人對莎士比亞存疑,認為他的作品當中有不少皆是與其他人合作寫成,甚至有人更極端地相信莎士比亞「不是一個人」,而只是一個集體創作的代號。

2016年是莎士比亞逝世400週年,牛津大學出版社趁機推出「新牛津莎士比亞」(New Oxford Shakespeare)作品集,其中最突破在於有數部作品加入了其他作家為共同創作者,強調並非只有莎士比亞一人參與寫作。

「新牛津莎士比亞」研究小組由23位學者組成,他們透過大數據分析莎士比亞作品與其他同時代作家的作品之異同,從風格、用詞等方向出發,指出莎士比亞的44部作品當中,有17部是與人合作寫成。其中《亨利六世》(Henry VI)竟然是由一向被視為莎士比亞宿敵的馬羅(Christopher Marlowe)協助書寫。

很多人都認同莎士比亞作品有與人合著,但準確數字、合作作家的身份則一向沒有定論,上述研究結果改變了很多人的想法,亦為這個文學界長久以來的難題提出了解答。

▍用大數據查證《紅樓夢》是否未完?

張愛玲曾於其著作《紅樓夢魘》中,提到人生有三大恨:「一恨鰣魚多刺,二恨海棠無香,三恨《紅樓夢》未完」。《紅樓夢》這部經典一向有無數爭議,例如後四十回由誰人所著便是眾說紛紜,甚至令後世產生了專門研究《紅樓夢》和作者曹雪芹本人的「紅學」,張愛玲、白先勇等人,也是紅學的代表人物。

張愛玲的《紅樓夢魘》,就是一部分析《紅樓夢》不同版本用字習慣的紅學研究。張愛玲相信,作品的後四十回由高鶚續作,但遠遠不及前半部,甚至是將《紅樓夢》庸俗化。然而,亦有其他學者認為高鶚、程偉元等人只是「修改」了曹雪芹的作品,並未作太大改動。甚至有人相信,《紅樓夢》由此至終都是由曹雪芹一人寫成。

同樣道理,既然莎士比亞的疑團可以應用大數據解答,關於《紅樓夢》的問題亦有望借助科技找出真相。中國內地就有研究者以大數據分析《紅樓夢》前部和後部的用詞,比如統計使用「故、道、說、只要、忽然、可不是」等等連接詞的習慣,從而發現前八十回和後四十回的用字習慣有明顯分別,推斷後部作者並非曹雪芹。除了以大數據探討《紅樓夢》,亦有學者以研究曹雪芹本人身世為目標,例如台灣清華大學歷史學者黃一農的作品《二重奏:紅學與清史的對話》,就透過《紅樓夢》和同代文字紀錄,考證曹氏一族的血緣、姻親等背景,以及這些元素如何影響《紅樓夢》。

▍從大數據看暢銷書成功之道

除了分析昔日經典文學著作的創作背景,亦有學者希望從中找出寫成暢銷書的「秘訣」。美國史丹福大學文學實驗室的兩位學者茱蒂亞契(Jodie Archer)和馬修賈克斯(Matthew L. Jockers),曾著有《暢銷書密碼:人工智慧帶我們重新理解小說創作》(The Bestseller Code: Anatomy of the Blockbuster Novel)一書,他們花了五年時間訓練電腦閱讀多達兩萬部小說,從而令電腦得出分析能力,並開始研究《紐約時報》暢銷書的「成功模式」,例如說成功作家筆下的故事情節、題材、寫作風格、角色設定,甚至微細至標點符號運用的異同之處。最有趣的是,電腦還能計算出「暢銷書指數」:單憑書稿本身就能預測書本會否暢銷。作者聲稱,其準確度高達八成。

另外,統計學家、記者布萊特(Ben Blatt)的作品《文學大數據:如何找出暢銷書指紋?解構1500本經典與名作家的寫作祕密》(Nabokov’s Favorite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing),亦採取了類似的研究進路,他分析超過1500本書,探討名作家的成功之道。雖然布萊特不至於大膽到聲稱存在「暢銷書指數」,但他著書的中心思想,亦是深信暢銷書有其寫作公式及可預測性。

▍人人都說寫得出暢銷書——為什麼不自己寫?

大數據既可以研究文學作品寫作背景,亦有助分析暢銷書成功之道,但始終只是工具,最重要的,還是背後利用工具的人類。

無論是莎士比亞抑或《紅樓夢》的研究,甫一公開便有無數人出面反駁。新牛津莎士比亞作品集推出不久,其可信性隨即受到質疑。有莎士比亞劇作的資深演員批評,指馬羅不可能協助宿敵莎士比亞寫書,即使數據顯示客觀事實如此他也不會相信,因為這樣既不合情亦不合理。關於《紅樓夢》的分析,亦被認為研究者分析方法粗梳,難以用來討論一部如此複雜難懂的作品,所以不足以為信。

根據研究者目標、其採用的運算、取樣方式,即使面對同樣資料也可以應用大數據技術得出不同答案,而其解答亦必然有人反對——所以,科技只是為文學研究者提供了繼續深入研究的新道具。

以大數據分析暢銷書的書愈來愈多,這些分析書本身成為了暢銷書,卻不見得買下這些書的讀者真的能寫出暢銷書。正如人工智能是人類的工具一樣,大數據分析其實只是人類的工具之一,無疑這些分析的確有助寫作,但講到底工具還是被人所用,最重要的還是使用者。

人人都說寫得出暢銷書,難道人人都寫得成暢銷書嗎?面對科技,採取恐懼的態度當然不可取,但對科技趨之若鶩又並非好事,最理想的狀況,就是盡量消除成見,接受新技術的同時不斷精進自己,才能借助科技的幫助再進一步。

原載於明報月刊 2018年8月號