筆趣閣 > 科技大崛起 > 第十八章 語義識別的難點

第十八章 語義識別的難點

“寧總,官網流量突然大增!”

“超過預期了嗎?”

“超了……五倍!”一直關注著流量的程式設計師大喊了出來。這遠遠超過預期!

寧熙言臉上無喜無憂,在宣傳效果超過預期的時候,她就知道了會有這樣的結果,因此一點也不吃驚。

“很好,現在就逐步放出訊息吧。”

超越時代公司官網同樣也是十分簡潔。原版的官網是白色背景牆上有一個佔據大半個螢幕的樹影,以及一個樹枝上的人影,除此之外再無他物。

這個官網是羅輯設計的,靈感來源自然是腦海中的科技樹。按照羅輯的設想,每一個枝杈都應該可以點選,並且每一個枝杈都代表是一個時代,這樣才符合他腦海裡的東西。

寧熙言雖然不太理解這麼設計的原因,但是感覺這個方案很具有科幻感,十分符合公司的定位,也沒有太多的意見。

不過由於簡潔的太過分,第一次點進來的人,估計都不知道怎麼瀏覽資訊,就是額外新增了些元素。在背景牆上新增了一些淺綠色的綠葉虛影,而人影所在的樹枝的綠葉則是深綠色的。

這樣就給人一種十分明顯的提示,這地方是可以點選的。

“這太炫酷了!”正操作著滑鼠的朱成興奮的叫了起來,他沒有在第一時間瀏覽資訊,反而來回在樹葉上點了數次。

這個主頁設計的很有感覺,和國內最大化給予使用者視覺飽滿度的設計截然不同,在看慣了那種不放過任何空白的網站之後,這種變化讓朱成有些不太適用,但是卻感覺很輕鬆。

“就憑這個官網,我相信語音識別是這家公司做的。”作為華夏網民,最煩的就是網站在頁面上設定廣告,而這種設計風格明擺著不會這麼幹。要是想租廣告位,全部設定成模組就好了,這種浪費空間的方式該少賺多錢啊?

朱成是個蘋果使用者,最初在網上看到這個資訊的時候是不信的,以為又是那些不良記者寫來博人眼球的。不過隨著時間的推移,語音軟體愈演愈烈,朱成半信半疑的下載了電腦版,然後找了個播報文錄音放了起來。讓他感到不可思議的一幕出現了,在三秒鐘的延遲之後,他從電腦上看到了那篇文章。

震撼!

他比其它人看的到的東西更多,這款軟體不僅識別率高,並且還保證了使用者的自由度。不用按鍵說話,說完之後也不需要等待軟體是否識別正確,這款軟體的寫入速度完全比跟的上說話速度。

朱成在用軟體上測試了一天,感覺有些遺憾,因為這只是個樣品,並且還沒有蘋果版的。然後他在網上找到了原帖,然後順藤摸瓜的找到了超越時代的官網。

再次點選一回樹葉後,朱成沒在繼續下去,開始瀏覽起資訊來。

點選樹葉之後,出現的一根樹枝的放大版。與簡單的首頁不同,這個二級頁面中多了很多資訊。

“智慧小語1.0七天後正式上線!”朱成很快就看到了頂端的資訊。

“暫時推出的軟體分個人版和企業版。個人版免費使用,企業版有為期七天的試用期。”

在軟體的下方還分別有個簡介。個人版對於生活方面的識別會更加精準,而企業版更注重於會議,可支援多人同時錄入,抗噪音能力也更強,並且還可以選擇去口語化,使會議內容更接近書面格式。

網頁裡面的資訊不多,很快朱成就看完了。對於七天後軟體的釋出十分期待,語音錄入可是懶人必備的神器啊,以後估計都不用打字了。

“智慧小語,也可以叫語音輸入法吧?”

如果不用打字了,是不是意味著鍵盤也沒用了?那筆記本豈不是可以做的更薄?不對,沒了鍵盤不就成了平板麼?朱成想到了這一點,感覺自家的電腦城可以多進一些平板電腦了。

在外界因為語音識別而震驚的時候,羅輯所在的機房卻只能聽到敲鍵盤的聲音。儘管語音識別已經做了出來,但對於寫程式碼而言意義不大。真正能將羅輯從這些繁重的任務中解救出來的只有語義識別!

開發語義識別,就如同羅輯預料的那樣,並不是一塊好啃的骨頭。

更何況是中文體系上的語義識別,這比其它語言要難上幾個級別。光是分詞這一項,就能讓人死掉不少腦細胞。中文不同於單詞組成的拉丁文,拉丁文單詞間的空格可以大幅度減少電腦的識別難度,而中文卻不行。

【鑑於大環境如此,本站可能隨時關閉,請大家儘快移步至永久運營的換源App,huanyuanapp.org 】

在中文裡面,一句話就有很多意思。別說電腦了,有時候就連人也不好分辨。比如那句著名的“下雨天留客天天留我不留”,在沒有標點符號的情況下,它至少有七種意思。對於電腦而言,別說這種地獄級的分詞,哪怕是一些人們看來再簡單不過的句子也很難分辨。

比如“華科大學生前來應聘”,電腦可能會理解為“華科大學,生前,來應聘”。

中文語義識別的第一個難點,也可以說是最大的難點便在這裡。怎樣的分詞演算法才是最完美的?

羅輯在科技樹中找到了方案,一種基於統計學模型的演算法,構建一個三維矩陣,選取機率最高的一個。y軸是任意兩個詞語的組合,而z軸則是場景狀態,根據語氣和語態選取的最佳方案。

“不過這需要聯網。”羅輯琢磨了一下,這似乎是目前最好的方案,雖然他的本意是打造一個可用於線下服務的智慧,但是以現在的裝置儲存能力想要存下大量的語料庫,根本就是天方夜譚。電腦肯定是不行的,光腦還差不多。

“聯網就聯網吧,在程式裡預留一些常用演算法,斷網勉強也能用。”

解決了第一個問題之後,羅輯又陷入了瓶頸。他驀然想起中文還有一點很蛋疼,那就是沒有和英文一樣可用於區分人名地名的大小寫。

要是僅僅這樣也就罷了,關鍵是有些人的名字起就是一個詞語,如果分詞程式有智慧的話,它一定會把這些人拖出去砍死。比如高峰、汪洋、羅輯……

“這……還是不要砍死了,半殘就好。”

羅輯馬上停止了抱怨了,再困難也要解決不是?

“到底要怎麼做?”

羅輯覺得自己有些天真了,一開始以為有了科技樹絕對可以快速的解決問題,可事實上並非如此。之前做無線充電器時,都要用到機械方面的知識,而難度比無線充電更大的語義識別,其交叉的學科只會更多。

“語義識別要什麼?電腦程式設計、統計分析、資料建模……還有語言學?”羅輯看到科技樹上顯示的內容完全傻眼了,前面的只要的理科內容,不管多難他都不怕,可偏偏最後一項他卻沒有辦法。

讓羅輯去看文科知識,那比殺了他還難受。可不學語言學,怎麼可能做的出語氣識別?

羅輯抓破腦袋也沒有想出代替方案,這似乎是唯一的解決方法。想想也是,對語言不熟悉的人又怎麼做的出語義識別?作為社交白痴的羅輯,自己都聽不太明白別人的話,又怎麼讓電腦也“聽”的懂?

學習語言學?

羅輯硬著頭皮只看了一會,就感覺頭大如鬥,就像熬了好幾個通宵,睏意如潮水般一波波湧來,怎麼也擋不住。

這道是個催眠的好方法,羅輯有些哭笑不得。

“只能走一步看一步了。”羅輯決定先將這個問題擱置,等其他能解決的都解決了,再回頭來考慮這個問題。

先搭建模型吧。

語義解析得到步驟和前兩步很想,都需要一定量的資料支援。好在有小音的幫助,不需要羅輯去親自搭建語料庫,不然光是這一個工程就能讓開發時間延長幾倍。

繁瑣的資料積累永遠是最費時間的,不過幸好小音的智慧程度提高了,她能替羅輯執行的工作也越來越多,可以說只要語義識別完成,她就和電影裡的那些黑科技差不多了。

研發的過程對於別人也許是枯燥的,但對羅輯來說卻是讓人興奮不已的。因為在擁有了科技樹之後,他基本不會做無用功,任何研究都有一個明確的方向,所以他的研究每時每刻都在向目標推進。

七天後,羅輯在屬於自己的機房里長出了口氣。現在上他能解決問題都解決了,自動分詞系統也趨於實用,至少不會出現烏龍了。一些帶有歧義的句子也能分析出來。

比如“獨立自主和平等互利的原則”這句話,電腦就能做出兩種分析,“獨立自主和,平等互利的原則”以及“獨立、自主、和平等互利原則”。

但是對於人名應該怎麼處理?總不可能用窮舉法吧?也就是將所有的名字都輸入資料庫,但這又會出現一個問題,因為你永遠不知道那些父母會起怎樣的名字。去公安部找身份證資訊?這不現實,先不提這難度有多大,光是暴露了使用者隱私這一條,就能讓公司陷入萬劫不復。

更何況羅輯還很嫌棄身份證資訊的更新速度,辦張證都要好幾個月!這對於一分鐘都嫌長的網際網路而言,根本就是無法忍受的好嗎?

羅輯感覺頭都大了,難道非得去學什麼語言學嗎?真要去學的話,那個效率不敢想象。如果說羅輯的理科學習效率是一百的話,文科大約就只有二十了。

同時能做出語義識別的知識,也絕對不會簡單。

這麼想的話,想要做出完整的語義識別根本,不得花好幾個月?羅輯倒不是嫌時間太長,只是一想到要看這麼久的文科就覺得蛋疼。

羅輯從小就養成了獨立思考的能力,長大後更是形成了孤獨思考的習慣,加之性格使然,就更加的不會找人幫忙了。

“頭疼……”

在羅輯還在苦思冥想的時候,手機久違的響了起來。羅輯的手機很少有人撥打,一般情況除了父母,也就沒誰了。

“輔導員?”

羅輯愣了一下,隨後驚醒過來,自己貌似半個月沒去上課了。別說是華科,就算是三本學校也不會容忍這種情況發生。羅輯不知道該怎麼解釋,只好硬著頭皮接通了電話。

還未開口,那邊就傳來了輔導員的聲音“羅輯同學嗎?”

“是我。”

“是這樣的,接下來的幾天有考試不要忘記了。”

羅輯迷糊的點了點頭,差點忘記了自己還是學生這茬,考試什麼的更是忘得一乾二淨。

“好的輔導員,謝謝你的提醒。”

羅輯對他的輔導員並不熟悉,只是在領獎學金的時候有接觸。這次他才覺得自己的輔導員很好說話,居然沒有提曠課的事。這讓羅輯松了口氣的同時,又更加頭疼了。

真是禍不單行。

語義識別工作出現困難不說,居然還要考試?羅輯感覺自己根本靜不下心來複習啊。

起點中文網.qidian.歡迎廣大書友光臨閱讀,最新、最快、最火的連載作品盡在起點原創!(未完待續)

『加入書签,方便閱讀』
推薦閱讀:
仙武主宰萬界共享婚有獨鍾默示錄之國嫡女毒謀重生富家之千金發個快遞去仙界虛擬幻想物語農家芳草香歸來的穿越者