中国女人与黑人高潮hd,国产成人AV无码精品天堂

<fieldset id="2oigq"></fieldset>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 自然語(yǔ)言處理 > 正文

AI研究員收集NLP數(shù)據(jù)的四種創(chuàng)意方法

2018-11-08 08:19

來(lái)源： OFweek人工智能網(wǎng)

數(shù)據(jù)是推動(dòng)AI發(fā)展的催化劑，但如果要收集有效的數(shù)據(jù)，這就需要AI專家富有創(chuàng)造性了。自然語(yǔ)言處理（NLP）是AI的一個(gè)子域，側(cè)重于教計(jì)算機(jī)如何解析人類語(yǔ)言。在MIT的年度自然語(yǔ)言處理實(shí)證方法會(huì)議（EMNLP 2018）中，來(lái)自微軟、臉譜網(wǎng)和谷歌等科技公司或組織的AI專家們介紹了一大系列收集信息的新穎方法，本文主要總結(jié)了其中令人印象深刻的四種方法。

1. 混合語(yǔ)言（Spanish+English=Spanglish）

微軟在多語(yǔ)種NLP的論文提出了一種專注于處理“混合語(yǔ)言”的方法，即在夾雜不同語(yǔ)言的文本或語(yǔ)音中自由切換，考慮到世界上超過(guò)一半的人口使用多語(yǔ)言，這個(gè)對(duì)此前未涉及領(lǐng)域的研究非常重要。

研究人員從西班牙語(yǔ)和英語(yǔ)著手，不過(guò)他們?nèi)鄙僮懔康奈靼嘌勒Z(yǔ)文本來(lái)訓(xùn)練機(jī)器。正如混合代碼，很少能找到包含多語(yǔ)言會(huì)話的文本，研究人員編寫了一個(gè)程序克服這個(gè)挑戰(zhàn)：把流行英語(yǔ)文本錄入到微軟的必應(yīng)翻譯器，然后將以詞組為單位翻譯的西班牙語(yǔ)譯文轉(zhuǎn)入源文本，確保交換的單詞和短語(yǔ)具備同樣的意思。通過(guò)這種方式，他們能夠創(chuàng)建出足夠多的西班牙式英語(yǔ)。

通過(guò)這種方式產(chǎn)生的NLP模型明顯優(yōu)于之前只用西班牙語(yǔ)或只用英語(yǔ)訓(xùn)練的模型。研究人員希望他們的工作最終能幫助開(kāi)發(fā)多語(yǔ)言聊天機(jī)器人。

2. 食譜

食譜以圖文并茂和循序漸進(jìn)的方式教人如何做菜，類似這種的方法也可以被用來(lái)訓(xùn)練機(jī)器：用結(jié)構(gòu)數(shù)據(jù)教會(huì)機(jī)器同時(shí)理解文本和圖像。土耳其哈斯特帕大學(xué)的研究人員匯編了一套涵蓋兩萬(wàn)多本插圖烹飪食譜的大型數(shù)據(jù)集，他們希望將此作為用于訓(xùn)練機(jī)器文本-圖像理解性能的基準(zhǔn)測(cè)試的新資源。

這個(gè)所謂的“食譜QA”的數(shù)據(jù)集是建立在先前的研究基礎(chǔ)之上，此前的研究分別側(cè)重機(jī)器閱讀理解和視覺(jué)理解能力，對(duì)于前者，機(jī)器必須理解問(wèn)題和相關(guān)段落才能找到答案，而對(duì)于后者，機(jī)器只能在相關(guān)圖像中搜索答案。文本和圖像的并排增加了任務(wù)的復(fù)雜性，因?yàn)檫@會(huì)呈現(xiàn)出互補(bǔ)或多余的信息。

3. 短句

谷歌希望用AI潤(rùn)色散文，研究人員為此創(chuàng)造了有史以來(lái)最大的數(shù)據(jù)集：將長(zhǎng)句縮減成短句，但兩者具備相同意義。在哪里才能找到大量的編輯數(shù)據(jù)呢？當(dāng)然是維基百科了。

研究團(tuán)隊(duì)從維基百科豐富的編輯歷史中提取了拆分長(zhǎng)句的實(shí)例，結(jié)果顯示，相比以前的基準(zhǔn)數(shù)據(jù)集，這次任務(wù)中發(fā)現(xiàn)了60倍不同的句子拆分例子和90倍的詞匯單詞，而且數(shù)據(jù)集跨越多種語(yǔ)言。

當(dāng)研究人員用新的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)，其準(zhǔn)確度（這里的準(zhǔn)確度是指句子被重寫后其意義和語(yǔ)法保持正確的比例）高達(dá)91%，相比之下，用先前數(shù)據(jù)進(jìn)行訓(xùn)練的模型僅達(dá)到32%的準(zhǔn)確度，最后，研究人員結(jié)合了兩個(gè)數(shù)據(jù)集并用此對(duì)第三個(gè)模型進(jìn)行了訓(xùn)練，準(zhǔn)確度達(dá)到了95%。因此，研究人員得出結(jié)論，可以通過(guò)尋找更多的數(shù)據(jù)來(lái)源實(shí)現(xiàn)更好的效果。

4. 社交媒體的偏差

相關(guān)研究已表明，人類創(chuàng)造的語(yǔ)言是人類種族、性別和年齡很好的一個(gè)預(yù)測(cè)指標(biāo)，即使這些信息從未被明確地陳述過(guò)。因此，以色列巴伊蘭大學(xué)和艾倫AI研究所的研究人員試圖利用AI通過(guò)移除這些內(nèi)嵌指標(biāo)來(lái)消除文本中的偏差。

為了獲取足夠數(shù)據(jù)代表基于不同人口統(tǒng)計(jì)的語(yǔ)言模式，他們轉(zhuǎn)向了Twitter平臺(tái)，收集了幾組不同用戶的推文，其中的對(duì)比組用戶包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34歲和35歲以上。

研究人員采用一種對(duì)抗方式將兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)立，查看其是否能自動(dòng)除去推文中內(nèi)在的人口統(tǒng)計(jì)指標(biāo)。其中一個(gè)神經(jīng)網(wǎng)絡(luò)試圖預(yù)測(cè)人口統(tǒng)計(jì)學(xué)，而另一個(gè)試圖將文本調(diào)整到完全中立的狀態(tài)，其目的是將第一個(gè)模型的預(yù)測(cè)準(zhǔn)確度（或可能性）降低到50%。通過(guò)這種方式能顯著減低種族，性別和年齡的指標(biāo)，但無(wú)法完全消除。

本地收藏打印推薦給朋友

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點(diǎn)�？帽菊靖寮�，務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像，違者將依法追究法律責(zé)任。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

在线观看中文字幕亚洲

免费无码国产在线观看69 国产高潮无套免费视频国产精品日韩综合无码专区无码a∨高潮抽搐流白浆av

<del id="yewa2"><dfn id="yewa2"></dfn></del>

<strike id="yewa2"></strike>

<ul id="yewa2"><dfn id="yewa2"></dfn></ul>

<cite id="yewa2"></cite>