鼎科技／理工人需要的技能包 AI人形機器人的就業指南 Part II（蕭毅豪）

資料來源：由蕭毅豪（Yi-Hau, Shiau）生成ICLR 2021 和Analytics Vidhya資訊而來。

一般的AI圖片生成技術流程就猶如上圖的擴散AI模型。過去幾十年來，統計學中一直使用基本生成式模型來協助進行數值資料分析。神經網路和深度學習是現代生成式 AI 的最新先驅技術，也是AI人形機器人執行命令和與人類對話的基本功。

生成式模型可以分析動物影像以記錄變數，例如不同的耳朵形狀、眼睛形狀、尾巴特徵和皮膚圖案。這些模型學習特徵及其關係，以了解不同動物的總體外觀。然後，它們可以重新建立「訓練集」中沒有的新動物影像。

AI模型包括：擴散模型、生成式對抗網路、變動自動編碼器等等。

2013 年開發而成的變分自動編碼器是第一個可以產生逼真影像和語音的深度生成式模型。我們都知道生成式AI模型會比傳統的機器學習模型更進一步，傳統的機器學習模型具有辨別性，或者依賴於對資料點進行分類。它們努力分辨確定已知因素和未知因素之間的關係。

AI生成式模型是在給圖像訂定「特定標籤」，例如AI模型可檢視影像，即圖元排列、線條、顏色和形狀等已知資料，然後將它們映射到字詞的情況下嘗試預測圖像未來的特徵。從數學上講，可為生成式建模計算 x 和 y 同時出現的概率。該模型學習不同資料（例如圖像）特徵的分佈及其關係，從而生成你要圖像或資料。

以上圖擴散模型為例，在生成高解析度的影像、影片、和聲音等方面很突出。擴散模型是透過對初始資料樣本進行反覆運算性的受控隨機變更來建立新資料。這些模型以原始資料為起點，並開始正向微分（SDE），加入細微的變化（雜訊），逐漸使其與原始資料不那麼相似。這種雜訊經過精心控制，以確保產生的資料保持一致且逼真。

在多次反覆運算中新增雜訊之後，擴散模型反轉該程序。進行反向消噪微分會逐漸消除雜訊，以產生類似原始資料的新資料樣本，就能衍生高畫質圖像。

例如今年6月，Mediatek 執行長蔡力行在「COMPUTEX 2024」以「智慧隨行AI無所不在（Intelligence Everywhere; The Power of Ubiquitous AI）」為主題進行專題演說。探討先進半導體技術發展和連網技術標準，如何讓人工智慧能夠無所不在，nVIDIA執行長黃仁勳（Jensen Huang）現身，兩人在台上大玩聯發科在智慧型手機利用自家AI模型技術，將文字生成黃仁勳穿皮衣逛夜市的圖像，還讓黃仁勳大讚聯發科「你們的AI蠻聰明的！」

類似這樣的圖片生成技術的AI模型技術嵌入手機內的應用，與人形機器人進行3D視覺深度學習同樣都是類似的模型技術。

軟體是展現硬體應用的硬實力！

從上篇文章：

https://www.scooptw.com/remarks/scoopcomment/289924/鼎科技%EF%BC%8F台灣亮起來-ai人形機器人的就業指南-part-i（蕭/

的表格左邊是在軟體方面所需各項技能的工程師，包括有：分散式系統工程師、人工智慧模式工程師、人形機器人仿真工程師、自主平台軟體工程師、Teleop軟體工程師等等。

基於這些軟體工程師相互配合下所需創造的3D視覺深度生成成果給人形機器人做使用下：

就如Tesla 人形機器人的人工智慧xAI系統軟體和人類互動能力就可以看出硬實力。系統中Tesla深度學習支援的人工智慧會增強人形機器人與3D環境中的所有互動準則。這些互動的臨場感其實早先是來自遊戲平臺驅動的低成本3D感測器以讓工程人員能夠開發3D感知演算法，現在則被利用在讓人形機器人感知人類世界並可與人類進行互動，互動中所需驅動人形機器人關節執行器運作，皆是在人工智慧xAI系統軟體演算法中已經明確定義的指令。

資料來源：來自於Tesla AI人形機器人論壇。

如上圖，以Tesla Humanoid Robot共有28關節，但這些關節都各自需要進行不同向、不同角度、和不同速度的細微動作，如果不以雲端進行演算和控制，則將無法進行順暢，而且系統成本將不斷升高，所以像AI tooling工程師就是很吃重的工作角色。

無論雲端、或邊緣運算，都能讓人形機器人可定期獲得模型推斷更新，並將及時瞭解最新發展，確保工作的高效能和適應性。

現在所有的指令傳輸其實來自附近的雲端資料中心，未來將改成由nVIDIA縮小版的GPU主機板在人形機器人大腦內來做3D視覺與即時圖像邊緣運算即可，這當然還包括如何判別人類的表情、眼神後，以讓人形機器人做適當的表情回饋給人類，以便讓人類感覺到親切，我們將在下一章節進行闡述。

優秀的軟體工程師共通使用的程式語言有哪些？

綜合AI人形機器人的所需共同使用到的各種程式設計語言，是人形機器人開發工程師能成為國際人才相當大的主因，他們必須精通，才能打造前瞻且尖端的人形機器人，一般使用到的語言類型有五大項：

1、通用的機械程式語言：Python

Python 在演算法內的可讀性、多功能性和廣泛性是你能成為人形機器人工程人員的必備條件之一。在進入Python之前，一般都先學會Scratch JR、Micro:Bit接著是Arduino開源嵌入式軟體平台學習，然後學習Python在演算法開發、類比和數據分析高級任務，像Tesla、Handa、Figure這些人形機器人公司框架就非常依賴Python。

2、人形機器人程式設計基礎：C或C⁺⁺

C和C⁺⁺真正是軟體驅動機器人關節、手指、和工作開發的基礎技能，可以讓工程人員直接控制硬體和硬體內的韌體並取得快速進展。從嵌入式系統到基礎程式設計，C/C⁺⁺ 是需要速度和精度的軟體工程師首選。

3、擴展型的人形機器人系統：Java

Java本身是獨立性、可伸縮性，是可以構建強大的模組化應用程式的程式語言，軟體工程可以使用Java確保大型機器人系統程式的可擴展性和可維護性。

4、加速演算法開發：MATLAB

MATLAB（Matrix Laboratory，矩陣實驗室）是由美國The MathWorks公司出品的商業數學軟體。它是一種用於演算法開發、資料視覺化、資料分析以及數值計算的進階技術計算語言和互動式環境。具備強大的數學和模擬功能，能夠廣泛應用於人形機器人技術，讓軟體工程人員可從事感測、控制和規劃演算法。

5、ROS機器人作業系統

Robot Operating System，一般譯為機器人作業系統是專為人形機器人軟體開發所設計出來的一套電腦作業系統架構。先前nVIDIA Robotics部門也常用它為基礎作為CUDA系統的開發，並行處理架構進行人形機器人感知系統。

它也是開源的元級作業系統（屬於後作業系統），提供類似於作業系統的服務，包括硬體抽象描述、底層驅動程序管理、共用功能的執行、程序間消息傳遞、程序發行包管理，它也提供一些工具和庫用於獲取、建立、編寫和執行多機融合的程序。

後邊還有一種人形機器人設計時的偵錯儀器常配合軟體工程師進行運作，是Lauterbach GmbH，它是一家德國電子設計自動化公司，專門從事用於除錯嵌入式系統的電路內模擬器和邏輯分析儀，也是我想要特別介紹的。

在加速人形機器人自主學習能力上，軟體工程師扮演什麼角色？

上述這群運用在AI人形機器人身上的軟體工程團隊，還得懂神經網路。

從感知到控制各種複雜機械的問題上，都需要深度神經網路。像是每台攝影機網路所分析出來原始影象，都需要在神經網路中加以進行語義分割、物件檢測和單眼深度估算。

人形機器人3D深度與2D攝影機的鳥瞰網路中拍攝到的影片，可直接在自上而下的檢視中輸出可行走的道路佈局、人類位置、靜態基礎設施和3D物件。都需要從世界上最複雜和多樣化的影像擷取到的實體場景中學習。

完整的人形機器人神經網路，通常超過10個網路，需要超過60,00 GPU小時來訓練，它們可一起在每個時間步驟中輸出100個以上不同的張量。

除了利用每個時間段所輸出的張量提供給AI人形機器人做學習外，還有如下圖的學習方式：

Tesla AI論壇中提到，為了讓人形機器人加速學習上有重要模型套件產出，可用「可視化展示模擬計算」，也是文章開頭所提到的「資料收集工讀生」的現行工作：

利用拍攝人體動作（Motion Capture）再生成轉映射給人形機器人（Whole Body Controller），如此將可建立很多可視化資料庫，這些資料可以來自人類肢體動作的實境供應，也可以來自3D影像例如Google 3D照片、YouTube 3D影片、和路上的人群以及汽車，還有工廠內的技術人員動作。所以Tesla自駕系統進步神速乃自於它們擁有超過300萬車主上的3D攝影系統幫他們建立寶貴的資料庫。

資料來源：來自於Tesla AI人形機器人論壇。

當Tesla、Figure、Engineered Arts等人形機器人公司，在加速的AI模型套件中

讓人形機器人自主學習快速的情況下，除了能在2026年讓人形機器人開始在各大工廠服務外，也會加速讓有表情的AI人形機器人在2028年投入商務、餐廳、醫療照護等領域，當然家庭幫傭也陸續會實現。

勞力短缺一直都是歐美國家的痛點，加上少子化、老年化，如何讓AI人形機器人快速融入人類的世界當中，在在都是現在硬體與軟體工程師需要互相配合下可以預見的服務景象。

我們樂見有應屆研究生高手開始投入AI人形機器人的量產行列，讓台灣也能盡快在AI人形機器人產業中脫穎而出，畢竟AI人形機器人幾乎軟、硬體技術都長期被歐美國家壟斷，現正是需要台灣科技人突破這個瓶頸的時候，才有機會在此大產業中做到領先地位、甚至具備話語權。

作者亦常在IG上分享新趨勢，有興趣的讀者不仿前往點閱：https://www.instagram.com/yi_hau_shiau/