淺析語音識別與速錄速記技術(shù)
從發(fā)展的眼光看,人工智能代替純手工速錄是歷史發(fā)展的必然趨勢,但從現(xiàn)有的科學(xué)技術(shù)來看,路還很長,F(xiàn)在都有語音識別了,速錄師是不是該下崗了呢?下面是YJBYS小編帶來的資深速錄師對語音識別與人工速錄談?wù)劦目捶ā?/p>
十年前,當我打算重新投身于速錄事業(yè)之際,和很多人一樣,對速錄的可持續(xù)發(fā)展持有疑慮,對語音識別代替速錄技術(shù)同樣表示擔(dān)心。恰逢同學(xué)回國,聊起此事。同學(xué)對投身速錄事業(yè)表示贊賞,并補充說:美國的速錄師從業(yè)人數(shù)非常多,速錄技術(shù)應(yīng)用非常廣泛。還舉例說:一千人參加的會議,只要有一位聽障人士,會務(wù)組必須單獨為其配備速錄師。談到語音識別對速記、速錄的影響(當年有機構(gòu)開發(fā)這類軟件),美國的語音識別技術(shù)發(fā)展非常超前,但是美國現(xiàn)有的語音識別技術(shù)也只限用于軍事、醫(yī)療這種標準化程度非常高的行業(yè)。
拋開語種的差別,漢語言的博大精深咱不贅述。單從中國的軟件技術(shù)與美國相比,差距可不止是一點點。美國的語音識別技術(shù)也只是在極少數(shù)專業(yè)領(lǐng)域進行發(fā)展和應(yīng)用,中國的語音識別技術(shù)怎么可能在短時間內(nèi)完成這種華麗轉(zhuǎn)身呢?
有人可能會說,你同學(xué)說的為什么要聽?他說的'就代表權(quán)威嗎?所以必須得說明,該同學(xué)當時受聘于美國知名IT公司,從事語音識別技術(shù)研發(fā)工作,方向是英語語種,其夫人受聘于同一家公司,從事同類工作,方向是阿拉伯語系。
可能上面的故事不足以讓大多數(shù)人頓悟,下面我們就以實戰(zhàn)進行分析。了解速錄的人都知道,速錄師有國家標準,標準里的關(guān)鍵詞是速度、準確率。現(xiàn)在就以這兩個關(guān)鍵詞為基礎(chǔ),結(jié)合影響會議的相關(guān)因素,對語音識別與人工速錄進行綜合比對。
※ 錯字數(shù)以A4紙為例,滿頁5號字,約1500字。
分析
1.準確率相信絕大多數(shù)一線速錄師會議記錄現(xiàn)場交稿的準確率不低于99%(95%以上只是行業(yè)標準),但即使99%以上的準確率(即一頁紙錯15個字以下),很多嚴苛的單位還是相當不滿意。所以大多數(shù)時候,速錄師會把錯誤率控制在千分之三以下(主要是專業(yè)術(shù)語的誤聽)。
反觀語音識別,語音識別推銷的廣告詞往往是“高辨識度,準確率高達80%以上”。我想請問,80%的準確率(即單頁錯300個字)這還能算是文稿嗎?
2.速度兩者都能同步記錄。
3.會場環(huán)境當會場環(huán)境較惡劣時,比如話筒音量不夠或無話筒,離音源較遠,夾雜著各種聲音,我不知道軟件該如何去識別?但我知道,我們速錄師能。
4.文稿美觀度帶過實習(xí)生的速錄師都知道,很多實習(xí)生對于分段特別不適應(yīng),所以改他(她)的文稿特別累。光分段就會讓你好好地去重聽整個音頻,因為不分段的文稿客戶是不會滿意的。而語音識別恰恰就是永遠不分段。
一線速錄師的文稿一定會做到分段、分層次、分角色,而且會做到段落清楚,層次分明。角色,我特別提出來,多人對話、現(xiàn)場激烈討論這種場景,是我們速錄師碰到的常態(tài),電視節(jié)目“扒詞”是要分角色的,但不管哪種情況,角色絕不會自報家門,全靠速錄師同步添加,這一點所謂的語音識別永遠做不到。
通過分析,高下立判,優(yōu)劣一目了然。
一點拙見,希望對想步入速錄大家庭的你能有所幫助。
【淺析語音識別與速錄速記技術(shù)】相關(guān)文章:
6.速錄≠速記