李鬆介紹道:“鬆江府能夠直接從新聞網站抓取跟魔都有關的資訊,經過整理後加入自己的數據庫。因此,它是一個開放的體係,能不斷更新自己的知識,確保對魔都的認知是最新最全的。”
“這麼說,若論起對魔都的了解,即便是一個老魔都人,也比不上‘鬆江府’?”
“從理論上說,是這樣的。”
“AI真是厲害啊。”陳岩發了一個“歎氣”的表情:“不過,你也別高興得太早,看我馬上揪出你的漏洞。”
這下李鬆有點緊張了,不知道陳岩又看出什麼問題。
隻見陳岩在聊天群裏問道:“@鬆江府,阿拉想出去轉轉,儂知道哪裏堵車伐?”
鬆江府回答:“今天的交通熱點集中在外灘、世博園、迪士尼……等地,請注意避開。”
李鬆感到欣慰:經過一番機器學習,鬆江府對魔都方言已經有一定的識別能力;鬆江府還定時從魔都交通網站上獲取實時交通狀況。因此陳岩用方言問堵點之類的問題,是難不倒鬆江府的。
陳岩繼續說道:“餘元商城附近應該不堵車吧?我想給我父親買個手掌。”
這下李鬆愣住了:沒聽說魔都有個什麼“餘元商城”啊?還有,買個“手掌”是啥意思?聽著好嚇人啊。
果真,鬆江府沒有吭聲,聊天群裏一片寂靜。
李鬆私下裏問陳岩:“你到底在說什麼?我都聽不懂。”
陳岩解釋道:“我真正的意思是:想去豫園商城買個手杖。”
“原來你是說這個啊,嚇我一跳,你就不能好好說話麼?”
“我是在好好說話啊,難道你平時打字就不會出現這樣的情況?”
“這……”李鬆感覺無言以對:是啊,手機、電腦打字聊天時,出現錯別字很正常,甚至還有不少錯別字“轉正”呢。
比如“斑竹”本應該是“版主”,由於人們經常誤打,後來幹脆將錯就錯,正式使用“斑竹”這個稱呼了。
陳岩提醒道:“發現問題了吧?遇到錯別字,鬆江府不能識別,也就無法進行應答,這可不能適應互聯網的實際需要啊。”
“你說得對,但這個問題有點難辦。”李鬆有些苦惱:機器學習的前提,是依據正確的材料,不斷進行自我提升。網上的大量文章,要是也像聊天那樣經常包含錯別字,那非把鬆江府帶溝裏去不可。
但是這個問題又必須解決,聊天環境畢竟跟正兒八經寫文章不同,不能要求太高。
接下來的兩天,李鬆研究出了一個“關鍵詞匹配”的方案:遇到疑似錯別字,如果在替換成讀音相近的關鍵詞後,語義上說得通,那就按關鍵詞理解。
大年初三,李鬆再次邀請陳岩一起測試。
當陳岩說“想去餘元商城買個手掌”時,鬆江府反問道:“@陳岩,你是想去豫園商城吧?還有,手掌是不能買的,你說的是手杖吧?”
這回陳岩不得不老實承認:“哦對,是我打錯了字。”
鬆江府熱情地介紹:“今天豫園商城附近不堵車,那邊有很多賣手杖的店鋪,百年老店‘鶴軒禮品店’信譽很好,你不妨去看看。”
“好的,多謝。”
李鬆悄悄問陳岩:“這回感覺如何?”
“不錯,這下很接近實際聊天環境了。而且鬆江府還能給人提供良好的建議,考慮得很周到。”