原標題:莊羽提議郭敬明成立反剽竊基金,AI:反剽竊,不行;剽竊,行!
原創 文摘菌 大數據文摘

作者:王燁
郭敬明終於道歉了。
2020年12月31日零時,郭敬明就當年小說《夢裡花落知多少》抄襲莊羽的作品《圈里圈外》一事在微博上道歉。
同時郭敬明還表示,將把《夢裡花落知多少》的版權收入全部賠償給莊羽女士,“如果莊羽女士不願意接受,我會把這筆錢捐給公益慈善機構”。


至於具體的維權方式,儘管莊羽沒有表示,但可以想見只可能是用於支援原創作者在發現別人抄襲自己後,維護自身權益的各種舉措。
而以目前的網絡文學數量來看,原創作者最需要的——也是最難的一點——是及時發現自己被剽竊了。
如果只是靠人力,多大規模的反剽竊基金都很難做到及時發現剽竊現象。
那這事兒,能不能靠AI?
AI 反剽竊,並不容易
一提到反抄襲、反剽竊,我們的第一反應一般都是論文的自動查重系統。無數學子都曾在“降重”(降低重複率)的路上被論文查重系統按在地上反複摩擦。
傳統的論文查重系統並不能稱為現在意義上的AI,比如我們熟知的知網論文查詢,就是以連續十三個字符重複為原理,通常是以句子為單位,就是說一句話當中如果有連續十三個以上含十三個字符重複的,則該句被判定為重複率的概率就比較高。
但是這一呆板系統有著明顯的缺陷,簡單的更換同義詞、更換語序就能很大程度上避開這種查重。
這就涉及到了NLP領域一個非常有意思的領域——文本語義相似度計算。
舉個例子,智能客服如何理解人類針對同一個問題的同一個提法?
“花唄如何還款”&“花唄怎麼還款”
“花唄如何還款”& “我怎麼還我的花被呢”
“花唄分期後逾期了如何還款”&“花唄分期後逾期了哪裡還款”
對AI來說,理解這些相似的問題並不容易。從傳統的特徵工程方法,到現在的深度學習方法,這一問題都沒有得到很好的解決。
Kaggle針對這一問題也有一些比賽,主要是針對搜索引擎和QA系統,這也側面說明了目前AI連單個句子的相似性分析都很難準確判斷,更別談對整個文章甚至書籍相似度的剽竊判斷了。
更何況,即使往後AI解決了文本語義相似度的問題,抄襲者如果在文學作品中只抄襲故事架構和情節,AI想要判斷就難上加難了,這個難度甚至超越了AI對於語義的理解,上升到了AI對人類複雜社會和情感關係的理解。
當然了,如果是直白的抄襲,改寫都懶得改寫,那麼最簡單的查重系統都可以查出來,比如下面這個。

反剽竊不行,AI剽竊卻很在行
AI是把雙刃劍,這句話用在剽竊和反剽竊上太合適不過了。
儘管剛才說了目前AI剽竊可能還不能做的很好,但是剽竊這事兒,AI現在卻很在行。
在百度上隨便搜一下,都能搜到一些可以用AI洗稿的工具,號稱可以通過AI識別他人的原創文章,然後通過改寫生成一篇“偽原創”的文章。


也許這種改寫工具很難對付嚴格的學術審查,但是對付像微信公眾號原創校驗這樣的反抄襲機製呢?
我們不妨來試試。
首先選擇一篇文摘的原創文章,然後進行改寫。


很顯然,至少這個工具可以成功剽竊微信公眾號文章而不被原創校驗機製發現。
這麼看來,難道AI真的有點不厚道,反剽竊不行,剽竊卻很在行?
小夥伴們,你們怎麼看?
原標題:《莊羽提議郭敬明成立反剽竊基金,AI:反剽竊,不行;剽竊,行!》
- 關鍵字
- 微博