We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

人工智能的崛起與發展 (下) / 講者: 張家俊博士 (香港浸會大學數學系特邀副教授)

2025/5/4

大學堂

張家俊博士：我認為生成式AI最核心的特點是『無中生有』，它可以創造出原本不存在的事物，例如圖畫、文字、音樂等。它可以應用於多個領域，例如翻譯、文本總結、提供建議，甚至可以根據文字描述生成圖片，實現文字到圖像的轉換。在圖像生成方面，生成式AI的技術已經取得了長足的進步，可以生成高度逼真的圖像，甚至可以通過文字提示來控制生成圖像的細節。此外，生成式AI還可以根據圖像指令生成內容，這被稱為視覺語言模型(VLM)。VLM可以應用於多個領域，例如根據醫學圖像生成醫療報告，分析視頻監控畫面等。生成式AI還可以應用於3D模型的創建和元宇宙應用開發，以及簡化動畫和遊戲中的動作捕捉過程。更令人驚奇的是，生成式AI已經可以模擬人類大腦處理圖像的方式，根據人類腦部信號生成圖像。生成式AI可以應用於電影製作、廣告創作、程序編寫等多個行業，提高效率，降低成本。但是，生成式AI也存在一些風險和隱憂，例如數據泄露、版權爭議、信息準確性等問題。我們不應該害怕人工智能的發展，而是要思考如何充分利用人工智能，將其作為我們的輔助工具，提高效率。目前通用人工智能(AGI)的研究仍在進行中，未來人工智能將會發展得更加強大，能夠完成更多現在需要人工干預的工作。

Deep Dive

Shownotes Transcript

大家好歡迎星期日晚收聽由香港電台文教組製作的節目《大學堂》我是李秋婷

早在 1956 年美國已經有學者開始研究用機器模擬人類智能的技術同時研發更加高效的零件提升電腦的運算能力人工智能的應用已經不再局限於精密計算和視像識別現時大眾經常接觸的是新程式人工智能簡稱 Gen AI 其實背後牽涉什麼技術呢?發展的過程當中又會帶來什麼爭議?

今集大學堂我們從溫言之局公眾講座系列在 2024 年 10 月 19 日舉行的講座《人工智能的崛起與發展》講者是香港浸會大學數學系特邀副教授張家俊博士今集我們會集中認識新程式人工智能的發展進程

上集提到一些利用人工智能分析圖像以及研發增強訓練模型的例子它們不屬於 Gen AI 而是歸類做預測式人工智能

預測式人工智能製作本身收集到的數據來操作可以用作識別新的圖像或數據亦可藉著分析數據趨勢嘗試預測未來幫用家作出決定而 Gen AI 就不同張家俊就用「無中生有」四個字來形容

譬如我可以幫我畫一幅圖出來我今天生病了不想上班了你可不可以幫我寫一個請假信出來我們可以有很多不同的 AI 可以幫我們生成很多一些本身沒有的東西這個稱之為 Generative 他們有想像力的有 Creativity

可以做什麼呢? 假設我的 input 是打文字給他其實他就可以幫你給相對的回應可以做什麼? 可以做翻譯可以幫你做一個我們叫做 summarization 了解那個文字究竟是說什麼還有他給一些建議你例如我想去旅行你可以給我一個建議我的路線圖應該怎麼走這類型的模型也可以幫到你

剛才張家俊提到的例子就是一個應用大型語言模型的例子大型語言模型英文簡稱 LLM 這個模型會透過轉換器理解文字又或者片語的意思而透過自主學習轉換器可以理解一種語言裡面更多字詞的意思和基本語法甚至可以學習多過一種語言

長遠來說這類模型可以幫用家總結文章翻譯語言等等處理與文字相關的工作而一個模型能應付什麼工作就視乎這個模型採用的參數有多大通常都是數以十億計

而相比起文字普羅大眾似乎對利用 Gen AI 製作聲音、圖片和影像作品的興趣比較大以目前的技術人工智能軟件已經可以畫到一幅相當逼真的圖像一時之間都未必認得圖片裡面的是虛擬人物還是真人張家俊說 2015 年的 Gen AI 其實已經畫得到相當逼真的圖片而近年間更加有一個非常明顯的進步

當年我們不能控制生成出來的細節我們只能夠大量生成一些男生的圖片女生的圖片甚至乎椅子的圖片可以的沒問題可以很討厭但我們不能控制椅子上有多玫瑰花的雕花不行

現在就可以了現在我們甚至透過用文字的描述可以告訴我們的模型你幫我生成一個什麼的圖片是一個我們叫做 text-to-image 由文字到圖像的生成我們稱之為 promprom 是什麼呢

Prom 就是我們給一些指令我們的模型所以現在因為有了新城市的工程師我們多了一個工種我們叫做 Prom Engineering 就是你上班其實就是嘗試不斷去下一些這樣的指令令到我們工程師的模型可以生成一些你想要的數據出來例如圖片例如可能一些不同的文字等等

所以你看到你只要給足夠資料資訊給模型其實它可以生成一些很漂亮的圖出來甚至可以告訴你我給你一張圖你可不可以幫我擴大我們叫做 outpainting 擴展背後我原來沒有我有的只是最左邊那張圖我其實告訴你我下了一個 prompt 就是 ok outside the gardenwith a swimming pool

即是我想現在這張圖其實它在一個花園裏面而圖裏面有一個游泳池在那裏模型就幫我生成了四張這些圖出來我也覺得滿意但是你說是不是可以立刻用呢?當然不是可能還需要一些藝人去做一些收集

GenAI 不僅可以生成圖片還可以根據用家指令製作符合用家要求的影片、音樂作品包括風格、人物、內容都可以達成或許你以為對人工智能下指令時只可以輸入文字和數字但張家俊說目前人工智能的技術已發展到可以讀取圖像作為指令的一部分這就是所謂「VLM」視覺語言模型

他舉例時就用到一幅有雞蛋、麵粉的圖片我把這幅圖放上去模型再加一個文字就說 OK 我可以根據這些材料可以做到什麼

然後他就告訴我們你可以做 pancake 你可以做 Waffle 你可以做 Cribs 可以做很多不同的東西這個才是 Vision Language Model 現在發展得其實很迅速因為前兩年 CheckGPT 大家都認為是文字的生成但其實現在不是科學家已經將文字和圖像結合在一起我們稱之為 VLM 譬如你給一封 MLI 的圖一個 CT 的圖其實它就可以整個我們叫 Medical Report

一個醫療的報告告訴你根據你這張 MRI 的素描究竟你有什麼地方有問題等等它完全做到

不僅是圖片視覺語言模型還可以應用在影片中張家俊說外國有視覺語言模型可以幫忙分析監控鏡頭拍攝得到的畫面例如用家詢問片中有沒有出現特定的物件某一種物件的特徵甚至員工的衣著是否符合要求這一類模型都可以精準回答

隨著踏入 Web 3.0 的時代有不少廠商都希望在網絡世界建構屬於他們的元宇宙其實人工智能都可以幫到手張家俊以創造 3D 圖像為例子

其實 3D 模型是最花時間去做的因為我們要找一些藝術家找一些 Artist 我們叫 Technical Artist 一些技術的藝術家我們叫 Technical Artist 去畫我們的 3D 模型所以其實很花時間但是現在有了生成 AI 之後我們就可以嘗試利用 AI 幫我們生成一些 3D 的數據出來你可以假設我現在在這裡你拍幾張照片圍著我可能拍

我們拍攝十張照片,然後基於這十張照片就可以建造一個虛擬的 trial 在電腦裏面其實我們在業界都認為是將來未來我們做 mapping 的一個技術之一再進一步又如何想呢?我們做一個叫做 neural engine,這個挺特別的,挺有趣的剛才我說要圍著我拍攝十張照片

但其實很多時候可能會有誤差那怎樣呢?可否進入整個影片呢?可以,譬如我在這裡圍著這個演講廳我錄了一個影片 360 度然後放進去我們的模型裏面那模型就可以將我生成一個非常像真度的一個 3D 立體模型出來我們可以做什麼呢?我們可以繼續做譬如將來元宇宙的不同應用的開發等等

很多動畫、遊戲都需要一個影像編排動作為求逼真工作人員需要安排演員配戴全身裝上感應器的衣服再從感應器中讀取數據去製作相對應的動畫但到了今時今日原來只需要下一個簡單的指令人工智能已經可以完成任務

很多時候我們做元宇宙甚至可能做一些我們叫 Digital Human 數字的人我想叫他跑步或者我想叫他跳那怎麼辦其實很花時間你要在那裡移動那個數字人現在我們有 Gen AI 基本上我們透過給他 prompt 就是剛才說的給他一個文字告訴他那個數字人在做什麼其實他就會做對應的一個動作出來

以前我們要做什麼?以前要做的時候可能你要貼很多一些感應器在我身上然後我真的做回對應的動作這個稱之為 Motion Capture 我們去拿回我的動作然後就把它配回到我們 Digital Human 那裡虛擬人那裡但是現在不是的我們基本上直接就可以透過 Gen AI 去生成這個虛擬的人出來這個也挺有趣的我們叫 Text-to-motion

而更加震撼的是 GenAI 的技術已經發展到可以模擬人類的大腦運作製作圖像人類見到一件物件的時候大腦就會發出訊號繼而處理圖像而張家俊介紹這個 GenAI 的試驗就是應用大腦這種處理圖像的訊號

大阪大學有一個研究是什麼呢?就是我們人類有些我們叫 MRI 的信號一些信號我們腦袋會發出一些信號的我們讀了那些信號之後它就可以生…那個模型就生成那個信號裡面的圖形譬如說給我一個熊仔我看看先看看然後它就讀一讀我腦袋的信號之後基於我這個信號我就可以生成那隻熊仔了你可以想像一下其實它是可以

讀到我們腦袋旁邊在想什麼當然你看到好像很肉酸那隻童子這些不要緊的只是高清度而已其實 CUHK 和新加坡大學已經有一個高清的版本出來了

Gen AI 的確為不同行業帶來一定幫助就像電影製作一樣當一套電影需要一個虛擬人物以前我們會要求演員穿上特定衣服方便後期製作但現在的人工智能已經可以在影像中將真實的演員轉換成各式各樣的虛擬人物大大減輕演員演戲時的負擔

除此之外 GenAI 還可以幫助廣告、設計行業甚至幫電腦工程師都得

廣告創作其實廣告創作也很花時間可能我們根據客人需要的要求可以畫很多不同的圖現在我們 AI 就可以幫我們生成很多不同種類或者根據你的要求給一個很大的可能你給我一千張不同的初稿然後你就可以看看在這一千張初稿裡面我們篩選可能搞一次十張然後再找真人幫忙做微調其實就省了很多很多時間

除了文字、圖像之外在工程上有沒有用?原來現在的模型可以幫我們去寫程式我的提示就說了你可不可以幫我寫一個程式去做一個排列的做一個順序的排列然後它就立刻幫我整個程式碼就做出來了所以你可以想像我們可以用來寫程式的幫我們去寫程式

當討論人工智能如何幫助到我們時其實有另一種聲音認為人工智能發展會威脅到部分工種的從業員甚至對青少年的身心發展都有影響張家俊認為大家不應害怕人工智能發展而是要思考如何充分利用人工智能令它成為你的副手

在某一個特定的領域可以做到很強例如剛才說的我做翻譯我做圖像生成可以做到很強但是你說能否去到人類那麼厲害呢暫時還未可以但是你說是不是我們需要害怕呢尤其今天有些小朋友或者青年人在這裡我們是不是需要害怕 AI 將來影響到我們的工作呢其實我覺得我們不需要害怕它反而我們要懂得想像一下如何利用 AI 我們要將它成為我們的 co-pilot

我們的腹記詩我們譬如說我要寫程式以前我全部要自己寫完現在

現在我先叫他幫我寫了一個初稿出來我再去整理一下究竟有什麼是不好的這樣就提升了整個效率譬如可能你寫電郵的也都是寫報告的寫報告的我們都可以透過 AI 幫我們去做一個申請出來我們是要利用它而不是去害怕它也不是要禁止它我個人認為就等於你計算手機一樣我們要學會怎樣利用它令到它做得更好

即使 Gen AI 不斷改良和發展但張家俊也承認目前 Gen AI 仍然存在一些風險和隱憂而最多人討論的包括如何避免個人資料外洩以及如何處理版權上的爭議

當然 AI 還有很多不同的危機例如一些數據、資料、私隱問題、知識版權問題例如我們用很多圖像去訓練 AI 模型當然你說你的照片是 AI 生成出來的但其實你背後的照片是有版權的那怎麼辦?

所以也有機會會有版權問題所以現在的 AI 模式會考慮這件事首先很簡單它會先將一些有版權的資料買回來然後分你一個模型模型出去使用的時候當然版權已經在公司裡面但它是容許你去做你的創作等等的也可能會有很多不同的錯誤的信息會出來因為你不要以為

大語言模型真的很強但其實它說得好像頭頭是道但其實很多東西是錯的不一定是對的因為你想想想你用一些數據可能它是用上年開始的數據去做訓練去做出來你想問一下今天幾度它不可能回答你但有時候它可能又頭頭是道回答給你的所以我們要很小心去應用這些 AI 的模型

針對近年人工智能的發展有部分公司共同制定了負責任人工智能的要點希望企業以安全、可靠而且道德的方式開發、評估和部署人工智能系統除了需要解決私隱和保密的問題外還需要確保數據、模型能夠妥善運用開發的過程中需要保持一定的透明度等等

隨著科技日益進步人工智能能夠做到的事情將會越來越多但目前的技術還未滿足一班學者現時針對通用人工智能 AGI 的研究依然進行當中張家俊認為目前是一個發展 AGI 的好機會長遠不需要手動干預都能完成現在人工智能的工作

下星期日晚上八点钟香港电台第一台的大学堂再见

人工智能的崛起與發展 (下) / 講者: 張家俊博士 (香港浸會大學數學系特邀副教授) 15:58 Share

大學堂

Deep Dive

Shownotes Transcript

人工智能的崛起與發展 (下) / 講者: 張家俊博士 (香港浸會大學數學系特邀副教授)