周海宏:不能用AlphaGo的思路,去做音樂(lè)的人工智能
持續(xù)七日的2017全球創(chuàng)業(yè)周中國(guó)站(Global Entrepreneurship Week China,簡(jiǎn)稱GEW),11月19日在上海長(zhǎng)陽(yáng)創(chuàng)谷1會(huì)場(chǎng)迎來(lái)壓軸之作——人工智能產(chǎn)業(yè)投資論壇的開(kāi)幕。
論壇由初創(chuàng)投資主辦。于2012年成立的初創(chuàng)投資,是中國(guó)第一家人工智能產(chǎn)業(yè)投資機(jī)構(gòu),是國(guó)內(nèi)數(shù)十家人工智能企業(yè)最早的投資機(jī)構(gòu)。
此次論壇成功匯聚全球范圍內(nèi)超過(guò)60家明星企業(yè)、近二百位產(chǎn)業(yè)界投資界學(xué)術(shù)界的專業(yè)人士,并吸引數(shù)千人次的專業(yè)觀眾到場(chǎng)參會(huì)。其中,八位身處人工智能“產(chǎn)學(xué)研創(chuàng)投”前線、腦洞驚人的實(shí)力派嘉賓,先后發(fā)表主題演講。
中央音樂(lè)學(xué)院副院長(zhǎng)、教授、博士生導(dǎo)師周海宏率先登臺(tái)演講。他以“如何讓機(jī)器聽(tīng)懂音樂(lè)——音樂(lè)理解的人工智能路線圖”為題,向現(xiàn)場(chǎng)觀眾展示了人工智能與音樂(lè)深度關(guān)聯(lián)的可能性。
周教授首先對(duì)“聽(tīng)懂”進(jìn)行了限定,采用日常人們所說(shuō)的聽(tīng)“懂”即是指從音樂(lè)中感受到視覺(jué)性的形象、情態(tài)性的情感,甚至思想性的哲理。要實(shí)現(xiàn)機(jī)器“聽(tīng)懂”——理解音樂(lè)的目的,就必須從聯(lián)覺(jué)理論出發(fā),找出人類(lèi)由音樂(lè)的聽(tīng)覺(jué)體驗(yàn)引發(fā)其它感覺(jué)之間的聯(lián)覺(jué)對(duì)應(yīng)關(guān)系。
核心觀點(diǎn):“聯(lián)覺(jué)是人的本能,是音樂(lè)引發(fā)其它感覺(jué)體驗(yàn)的中間環(huán)節(jié)。未來(lái),我們做音樂(lè)理解人工智能,采用阿爾法狗的路線,通過(guò)分析個(gè)人音樂(lè)審美經(jīng)驗(yàn)去獲得規(guī)則,是行不通的;而應(yīng)該象阿爾法元那樣,把人類(lèi)理解音樂(lè)的規(guī)則直接告訴機(jī)器。即,不是通過(guò)經(jīng)驗(yàn)學(xué)習(xí)獲得規(guī)則,而是通過(guò)規(guī)則獲得策略,這樣,才有望在音樂(lè)理解與感受的領(lǐng)域上出現(xiàn)人工智能應(yīng)用場(chǎng)景!
————————————————————————
以下內(nèi)容來(lái)自周海宏的演講全文,文字由AI森林整理:
真沒(méi)想到會(huì)站在今天這個(gè)講臺(tái)上。我既不懂人工智能,也不懂各種復(fù)雜計(jì)算,更不懂市場(chǎng)。我的專業(yè)是音樂(lè)心理學(xué),是研究審美規(guī)律的。
我先給大家唱一個(gè)旋律,你們來(lái)告訴我,哪個(gè)是表現(xiàn)高山,哪個(gè)表示流水的。
大家肯定會(huì)一致覺(jué)得第一個(gè)是流水,第二個(gè)是高山。為什么所有人的立刻一致地產(chǎn)生了這樣的“聽(tīng)懂”音樂(lè)的判斷?這其中一定是有規(guī)則的。我之所以能夠舉出讓大家產(chǎn)生一致反應(yīng)的音樂(lè)例子,一定是通過(guò)研究掌握了這個(gè)規(guī)則。
讓機(jī)器擁有理解音樂(lè)的人工智能,也需要由人來(lái)告訴機(jī)器一些規(guī)則,在這個(gè)規(guī)則的基礎(chǔ)上,機(jī)器才能進(jìn)行后續(xù)的復(fù)雜計(jì)算。
如何讓機(jī)器“聽(tīng)懂”音樂(lè)?大家可能在想,連人都不一定能“聽(tīng)懂”音樂(lè),機(jī)器怎么能夠“聽(tīng)懂”音樂(lè)呢?
音樂(lè)有兩個(gè)最重要的屬性,一是沒(méi)有視覺(jué)造型性,二是沒(méi)有語(yǔ)意符號(hào),因此音樂(lè)不能傳達(dá)視覺(jué)形象,也不能直接傳達(dá)思想概念,這是造成大家聽(tīng)不懂音樂(lè)的核心原因。
我們先來(lái)分析一下,人是如何“聽(tīng)懂”音樂(lè)的。
下面我放一個(gè)例子。這一段音樂(lè),大家覺(jué)得它表現(xiàn)的是什么?
我做過(guò)調(diào)查,很多人會(huì)選擇“險(xiǎn)峻的高山”和“洶涌的大!。
再放一段曲子,所有人會(huì)選擇“清澈的小溪”和“秀麗的田園”。
人的主觀感受為什么會(huì)有如此高的一致性?一定是這段音樂(lè)和那個(gè)場(chǎng)景形成了對(duì)應(yīng)的關(guān)系——聯(lián)覺(jué)對(duì)應(yīng)關(guān)系。
所謂聯(lián)覺(jué)就是一個(gè)感覺(jué)器官受到刺激,其它的感覺(jué)器官發(fā)生了反應(yīng)的心理現(xiàn)象。
巧克力與薄荷糖,高音與低音,大家一定認(rèn)為低音像巧克力,高音像薄荷糖;紅燒肉和酸泡菜,大家會(huì)覺(jué)得泡菜像高音;悶熱和涼爽,大家會(huì)覺(jué)得涼爽像高音;亮色和暗色,大家會(huì)覺(jué)得高音亮, 低音暗;羊絨和真絲,真絲像高音……味覺(jué)、溫度、視覺(jué)、觸覺(jué),都和聽(tīng)覺(jué)聲音的高低發(fā)生了對(duì)應(yīng)關(guān)系。這些現(xiàn)象就是聯(lián)覺(jué)的表現(xiàn)。
由此大家可以想到,如果把人對(duì)聲音的感覺(jué)與其它感覺(jué)的聯(lián)覺(jué)對(duì)應(yīng)關(guān)系找到了,就邁向了機(jī)器理解音樂(lè)最重要的一步。
我放兩段音樂(lè),大家覺(jué)得哪段適合給空調(diào)機(jī)廣告配樂(lè)。,對(duì),是第二段音樂(lè),因?yàn)楦咭魰?huì)讓人感覺(jué)涼快;如果是給《法治進(jìn)行時(shí)》來(lái)選片頭,就會(huì)選擇第一段音樂(lè),因?yàn)榈鸵艚o人感覺(jué)“深沉”!吧睢笔强臻g高度,“沉”是物體重量,我們拿這兩個(gè)字形容聽(tīng)覺(jué)的聲音,這個(gè)詞本身就是聯(lián)覺(jué)現(xiàn)象。
我的論文《音樂(lè)與其表現(xiàn)的世界》,獲得過(guò)2001年教育部全國(guó)優(yōu)秀博士學(xué)位論文獎(jiǎng)。這是音樂(lè)理論界第一個(gè)獲得百篇優(yōu)博獎(jiǎng)的,因?yàn)檫@篇論文發(fā)現(xiàn)了音樂(lè)和表現(xiàn)東西之間的中間環(huán)節(jié),揭開(kāi)了音樂(lè)藝術(shù)表現(xiàn)之謎。
聲音的高低是頻率決定的,它與顏色有聯(lián)覺(jué)關(guān)系。三百前就有人研究色-聽(tīng)的聯(lián)覺(jué)關(guān)系了,但一直沒(méi)有找到穩(wěn)定的、普遍的規(guī)律,色-聽(tīng)聯(lián)覺(jué)一直不能排除主觀臆想。
大家知道,我們感受到的顏色不是單純的元素,是由色調(diào)、明度、飽和度構(gòu)成的。當(dāng)我把顏色和聲音都做了具體的元素的細(xì)分后,使得聯(lián)覺(jué)的問(wèn)題迎刃而解。研究發(fā)現(xiàn),聲音和顏色的色調(diào)無(wú)關(guān),而只是和明度有關(guān)——聲音的高低,和顏色的明暗形成了聯(lián)覺(jué)對(duì)應(yīng)關(guān)系。
聲音的強(qiáng)弱是一個(gè)能量的現(xiàn)象:強(qiáng)音使人感覺(jué)大,弱音使人感覺(jué)小。強(qiáng)音使人感覺(jué)動(dòng),弱音使人感覺(jué)靜。
聲音的長(zhǎng)短和空間的延展形成對(duì)應(yīng)關(guān)系。因此,對(duì)物體大小、人的個(gè)性特征也有表現(xiàn)力。比如,偉人,就要用慢速的聲音來(lái)表現(xiàn)。對(duì)應(yīng)地,小人出場(chǎng),那就用快速。
聲音的包絡(luò)特征與硬、軟,柔和、威脅有對(duì)應(yīng)關(guān)系。
緊張度由聲音的音色和聲音的組合特征產(chǎn)生。聲音的緊張對(duì)應(yīng)了情緒的緊張,聲音與顏色的混雜、利益的競(jìng)爭(zhēng)、主體的需要和期待等等,都有對(duì)應(yīng)關(guān)系。
根據(jù)上面的原理,我來(lái)舉些例子,比如中國(guó)民歌《小白菜》,[唱《小白菜》]“小白菜呀地里黃呀,兩三歲上,沒(méi)了娘呀……”一個(gè)七個(gè)月的小孩,聽(tīng)著聽(tīng)著就哭了。
復(fù)雜一些的例子,《國(guó)際歌》,為什么給人感覺(jué)是悲壯的?要拆解為“壯”和“悲”,“壯”是向上的,和諧的,音樂(lè)的旋律用了向上的四度音程;緊接著后面的下行產(chǎn)生“悲”感,再壯、再悲,這就是為什么《國(guó)際歌》經(jīng)常在革命失敗的時(shí)候才唱。實(shí)際上,它之所以給人悲壯的感覺(jué),就是因?yàn)橐魳?lè)形態(tài)有這樣的特征。
音樂(lè)理解的人工智能,要求必須把一個(gè)聲音帶來(lái)的感受細(xì)分到具體的元素中,才能被機(jī)器理解。音樂(lè)理解的人工智能有一個(gè)非常重要的預(yù)處理工作:對(duì)音樂(lè)描述詞所指的感覺(jué)現(xiàn)象的進(jìn)行精細(xì)切分。
總結(jié)一下:作曲家就是靠聯(lián)覺(jué)來(lái)選擇和組織聲音進(jìn)行表現(xiàn),聽(tīng)眾也是依據(jù)聯(lián)覺(jué)反應(yīng)規(guī)律感受音樂(lè)的“弦外”之“意”。
在此,特別想和從事人工智能的朋友們講一下:我們現(xiàn)在的人工智能思路,基本上是給它一大堆的音樂(lè)案例,讓聽(tīng)者為音樂(lè)打上標(biāo)簽,然后讓計(jì)算機(jī)進(jìn)行深度學(xué)習(xí),從中分析出來(lái)帶這個(gè)標(biāo)簽的音樂(lè)所具有的特征。這其實(shí)就是AlphaGo的思路。
但如果我們做音樂(lè)的人工智能研究,也這樣搞,就會(huì)出現(xiàn)問(wèn)題。因?yàn)橐粋(gè)人可能在音樂(lè)感受的過(guò)程中有太多個(gè)人主觀性因素。
同樣是柴可夫斯基的作品,如果這個(gè)人的注意力放在低音部,就會(huì)感覺(jué)這個(gè)曲子悲哀,如果注意力放在高音部,就會(huì)覺(jué)得是明快的。最不明智的是根據(jù)歌詞給音樂(lè)的情感打標(biāo)簽,這時(shí)候遇到一個(gè)問(wèn)題,詞所暗示的情感和音樂(lè)形態(tài)特征不能對(duì)應(yīng),比如“傷心總是難免的”這個(gè)旋律[唱],你一點(diǎn)不覺(jué)得傷心。
另外,從音樂(lè)創(chuàng)作的人工智能角度看,絕大多數(shù)音樂(lè)作品不是好作品。即便是一個(gè)好作品,還有很多部分不是好的,只有其中一部分非常閃光的東西,才讓它成為一個(gè)偉大的作品。如果把完整的作品交給計(jì)算機(jī),它一定把臭棋和好棋都學(xué)下來(lái)。關(guān)鍵是,下圍棋是有對(duì)錯(cuò)的,計(jì)算機(jī)可以判斷這步走的是對(duì)、是錯(cuò),但是,音樂(lè)的欣賞沒(méi)有好壞對(duì)錯(cuò)的絕對(duì)標(biāo)準(zhǔn),這對(duì)計(jì)算機(jī)而言,就更麻煩,它不知道哪個(gè)結(jié)果是對(duì)的。我們要認(rèn)識(shí)到:莫扎特和肖邦,絕不是象機(jī)器那樣學(xué)了所有前人的作品才成為偉大作曲家的,他們一定是根據(jù)自己頭腦中的規(guī)則進(jìn)行創(chuàng)作。
我們需要換一種思路,整個(gè)藝術(shù)的人工智能要換一個(gè)思路,不再是分析以往的作品,而是把這個(gè)直接決定音樂(lè)藝術(shù)最本質(zhì)的價(jià)值判斷規(guī)則告訴機(jī)器,這就是AlphaZero的思路。
當(dāng)然,具體的工作非常非常復(fù)雜。我們首先要對(duì)音樂(lè)的音頻進(jìn)行一系列分析,分析出來(lái)人的聽(tīng)覺(jué)判斷對(duì)象,還要把人的聽(tīng)覺(jué)注意分配規(guī)則告訴計(jì)算機(jī)。計(jì)算機(jī)才能象人一樣聽(tīng)音樂(lè),然后才能根據(jù)前面分析的聯(lián)覺(jué)對(duì)應(yīng)關(guān)系規(guī)則進(jìn)行機(jī)器的理解工作。
我最近看了一個(gè)人工智能的研究,為了標(biāo)識(shí)音樂(lè)作品每段的情緒特征,它們的方案是按每5秒鐘切分一段進(jìn)行分析。大家知道,音樂(lè)不是按照每5秒一換情緒的,其實(shí)應(yīng)該按照音樂(lè)句法切分。但是,這項(xiàng)研究沒(méi)有按音樂(lè)句法劃分規(guī)則切分,采取了每5秒鐘截一個(gè)段。以這樣分段去分析,計(jì)算機(jī)算出的結(jié)果一定是亂的。
下一步是要做一個(gè)大的音樂(lè)描述詞的詞庫(kù),標(biāo)出音樂(lè)描述詞的感性特征,然后讓計(jì)算機(jī)去學(xué)習(xí)。需要排除沒(méi)有感性特征、音樂(lè)表現(xiàn)不了的詞,留下音樂(lè)能表現(xiàn)的,然后我們?cè)侔堰@些描述詞的應(yīng)用情景進(jìn)行分類(lèi)。
接下來(lái)就需要依據(jù)聯(lián)覺(jué)對(duì)應(yīng)關(guān)系,對(duì)這些描述詞的感性特征進(jìn)行前面說(shuō)的聲音五大表現(xiàn)元素賦值;之后,還要標(biāo)定這個(gè)描述詞的備選情景。比如“郁悶”這個(gè)詞,我們需要列出這個(gè)詞的使用情境。這是因?yàn)殡m然聯(lián)覺(jué)有共同性,但每個(gè)人的聯(lián)想不相同,需要依照個(gè)人的經(jīng)驗(yàn)來(lái)由聽(tīng)者自己選擇適宜的情境。
最后實(shí)現(xiàn)這樣的應(yīng)用場(chǎng)景:
把一段音樂(lè)輸入計(jì)算機(jī),計(jì)算機(jī)就會(huì)自然反饋出來(lái)一些描述這段音樂(lè)帶給人感受的詞——這就是機(jī)器聽(tīng)懂了音樂(lè)的表現(xiàn)!
進(jìn)一步的應(yīng)用可以讓聽(tīng)眾選擇自己偏好的聯(lián)覺(jué)激發(fā)情景。
或者如果給計(jì)算機(jī)一個(gè)沒(méi)有聲音的場(chǎng)景片或廣告,它能根據(jù)這個(gè)場(chǎng)景或廣告的感性特征(當(dāng)然這需要那個(gè)領(lǐng)域人工智能的配合)選出適合的配樂(lè)。
當(dāng)我們也可以把自己的心情以各種各樣的途徑告訴計(jì)算機(jī),然后計(jì)算機(jī)自動(dòng)推給我們所需要的音樂(lè)。
音樂(lè)的機(jī)器理解的具體應(yīng)用場(chǎng)景會(huì)非常多,到那時(shí)就是一個(gè)需要對(duì)應(yīng)用場(chǎng)景的想象力了。
謝謝大家!

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 封殺AI“照騙”,“淘寶們”終于不忍了?
- 9 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?
- 10 地平線自動(dòng)駕駛方案解讀