莊羽提議郭敬明成立反剽竊基金,AI:反剽竊,不行;剽竊,行!
2021年01月01日18:51

原標題:莊羽提議郭敬明成立反剽竊基金,AI:反剽竊,不行;剽竊,行!

原創 文摘菌 大數據文摘

大數據文摘出品

作者:王燁

郭敬明終於道歉了。

2020年12月31日零時,郭敬明就當年小說《夢裡花落知多少》抄襲莊羽的作品《圈里圈外》一事在微博上道歉。

同時郭敬明還表示,將把《夢裡花落知多少》的版權收入全部賠償給莊羽女士,“如果莊羽女士不願意接受,我會把這筆錢捐給公益慈善機構”。

郭敬明道歉後,莊羽也很快進行了回應:時隔十五年,收到郭敬明的道歉,如郭敬明先生所說,這的確是一份遲來的歉意,我接受郭敬明先生的道歉。
除了接受郭敬明的道歉,莊羽還提議將《圈里圈外》這本小說出版後獲得的線上線下所有版稅以及全部收益同《夢裡花落知多少》的收益合併在一起成立一個反剽竊基金,用以幫助原創作者維權。

至於具體的維權方式,儘管莊羽沒有表示,但可以想見只可能是用於支援原創作者在發現別人抄襲自己後,維護自身權益的各種舉措。

而以目前的網絡文學數量來看,原創作者最需要的——也是最難的一點——是及時發現自己被剽竊了。

如果只是靠人力,多大規模的反剽竊基金都很難做到及時發現剽竊現象。

那這事兒,能不能靠AI?

AI 反剽竊,並不容易

一提到反抄襲、反剽竊,我們的第一反應一般都是論文的自動查重系統。無數學子都曾在“降重”(降低重複率)的路上被論文查重系統按在地上反複摩擦。

傳統的論文查重系統並不能稱為現在意義上的AI,比如我們熟知的知網論文查詢,就是以連續十三個字符重複為原理,通常是以句子為單位,就是說一句話當中如果有連續十三個以上含十三個字符重複的,則該句被判定為重複率的概率就比較高。

但是這一呆板系統有著明顯的缺陷,簡單的更換同義詞、更換語序就能很大程度上避開這種查重。

這就涉及到了NLP領域一個非常有意思的領域——文本語義相似度計算。

舉個例子,智能客服如何理解人類針對同一個問題的同一個提法?

“花唄如何還款”&“花唄怎麼還款”

“花唄如何還款”& “我怎麼還我的花被呢”

“花唄分期後逾期了如何還款”&“花唄分期後逾期了哪裡還款”

對AI來說,理解這些相似的問題並不容易。從傳統的特徵工程方法,到現在的深度學習方法,這一問題都沒有得到很好的解決。

Kaggle針對這一問題也有一些比賽,主要是針對搜索引擎和QA系統,這也側面說明了目前AI連單個句子的相似性分析都很難準確判斷,更別談對整個文章甚至書籍相似度的剽竊判斷了。

更何況,即使往後AI解決了文本語義相似度的問題,抄襲者如果在文學作品中只抄襲故事架構和情節,AI想要判斷就難上加難了,這個難度甚至超越了AI對於語義的理解,上升到了AI對人類複雜社會和情感關係的理解。

當然了,如果是直白的抄襲,改寫都懶得改寫,那麼最簡單的查重系統都可以查出來,比如下面這個。

反剽竊不行,AI剽竊卻很在行

AI是把雙刃劍,這句話用在剽竊和反剽竊上太合適不過了。

儘管剛才說了目前AI剽竊可能還不能做的很好,但是剽竊這事兒,AI現在卻很在行。

在百度上隨便搜一下,都能搜到一些可以用AI洗稿的工具,號稱可以通過AI識別他人的原創文章,然後通過改寫生成一篇“偽原創”的文章。

就針對上面那句話,文摘菌找了一個有線上版本的AI智能改寫工具試了一下。順便看了看工具的介紹,上面列舉了幾個耳熟能詳的NLP技術:情感分析、信息分類、實體識別。
這麼一看,效果貌似還行,但還是很容易就看出來是改寫的,比如第三句只是將“號稱”改成了“聲稱”。

也許這種改寫工具很難對付嚴格的學術審查,但是對付像微信公眾號原創校驗這樣的反抄襲機製呢?

我們不妨來試試。

首先選擇一篇文摘的原創文章,然後進行改寫。

之後我們再將改寫後的文章複製到後台發送,看能不能通過原創校驗。
點擊發送之後,微信公眾號後台並沒有彈出原創校驗不通過的選項,而是可以直接發送。

很顯然,至少這個工具可以成功剽竊微信公眾號文章而不被原創校驗機製發現。

這麼看來,難道AI真的有點不厚道,反剽竊不行,剽竊卻很在行?

小夥伴們,你們怎麼看?

原標題:《莊羽提議郭敬明成立反剽竊基金,AI:反剽竊,不行;剽竊,行!》

關注我們Facebook專頁
    相關新聞
      更多瀏覽