敬請攜帶筆電(作業系統不限),只需Google帳號及安裝Chrome即可
以利課程案例練習,實際應用在工作中!
- 課程簡介:
想了解 Tesla 如何僅憑攝影機就實現自動駕駛嗎?想親手打造屬於自己的自駕車視覺 AI 模型嗎?本課程將帶您深入探索當今最前沿的純視覺自駕技術!
近年來,Tesla 以其強大的純視覺 FSD (Full Self-Driving) 系統震撼全球,證明了不依賴昂貴雷達,僅靠攝影機也能實現精準的環境感知。從早期的 CNN 多任務模型,到後來引入 Transformer 和獨特的 BEV (鳥瞰視圖) 技術,Tesla 不斷突破技術天花板,解決了多鏡頭融合的難題,實現了對車輛、車道線、可視區域的精準偵測。
本課程將帶您循著 Tesla 的技術演進軌跡,從基礎的物件偵測與語義分割開始,逐步解鎖自駕車視覺感知的核心技術。您將學習如何設計共享骨幹網路 (Backbone) 的高效模型,並深入理解為何 Transformer 架構能成為當今自駕車影像辨識的主流選擇,以及它如何克服傳統 CNN 在處理多鏡頭數據時的瓶頸,實現更精準的 3D 感知。
除了感知技術,我們還將探討生成式 AI 在自駕領域的創新應用。您將學習從經典的 GAN 到最新的 Stable Diffusion 等擴散模型,了解如何運用這些強大的工具來「無中生有」或「移花接木」。例如,我們可以將白天行車影像轉換成夜晚或雨霧場景,甚至直接生成帶有標記資料的多樣化訓練數據,大幅降低資料收集的成本。
本課程最大的特色在於「實作至上,AI輔助」。我們全面採用 Google Colab 雲端平台,您無需準備昂貴硬體或安裝複雜軟體,只需一個 Google 帳號和瀏覽器,就能隨時隨地開始學習。更重要的是,我們將引入最新的「Vibe Coding」模式,教您如何利用 Gemini 等先進 AI 助手來輔助撰寫程式訓練模型。您將體驗到「用自然語言寫程式」的便利,讓 AI 幫您處理繁瑣的程式碼細節,您只需專注於理解核心原理和實現創意。
無論您是想切入龐大車用市場的工程師,還是對自駕技術充滿好奇的愛好者,本課程都將是您掌握未來關鍵技術的最佳起點!
- 課程目標:
- 雲端實作,AI 加持:熟悉在 Google Colab 上使用 PyTorch,並學會運用 Gemini 等 AI 工具輔助編碼,降低學習門檻。
- 掌握自駕核心:深入理解 Tesla 純視覺感知系統的演進與核心技術(CNN, Transformer, BEV)。
- 實戰演練:親手實作物件偵測、語義分割、車道線偵測等多任務模型。
- 創新應用:學會運用最新的生成式 AI 技術 (GAN, Diffusion) 來增強自駕車訓練數據。
- 搶佔先機:快速切入商機無限的自駕車市場,掌握台灣第四 C (Car) 產業的關鍵技術。
- 課程效益:
- 協助具影像處理專長之學員切入電腦視覺、深度學習以及生成模型領域。
- 學會CNN/Transformer的原理與實作,並運用在各種電腦視覺任務。
- 應用深度學習影像辨識以及影像生成技術至駕駛輔助系統、自駕車甚至是機器人中的視覺感知次系統
- 課程大綱:
|
課程綱要
|
課程內容
|
|
一、ADAS/自駕車 × AI 感知 × 2D/3D 基礎與實作
|
- ADAS/AD相關資料集與量化指標
- 2D物件偵測(從CNN到Transformer):
從YOLOv1-v13, DETR, Anchor DETR, RT-DETR
- 2D物件偵測模型實作:使用BDD100K資料集
- 語義分割模型(從CNN到Transformer):
FCN, DeepLabv3+, SETR, SAM (Segment Anything Model)
- 2D與3D車道線偵測模型:SCNN, 3D-GeoNet
- 多任務(Multi-Tasking) YOLO:YOLOP, A-YOLOM
- 基於BEV的鳥瞰語義分割模型:Lift, Splat, Shoot
- 基於單攝影機的3D物件偵測模型:FCOS3D
- 基於Transformer之跨攝影機3D物件偵測模型: DETR3D, PETR
- 多任務骨幹共享物件偵測與語義分割模型實作:
使用BDD100K資料集
|
|
二、生成式AI在自駕 影像模擬中的應用
|
- 生成式對抗網路原理以及量化指標
- 成對與非成對影像轉換:透過Pix2Pix與CycleGAN將白天影像轉換成夜間影像
- 結構一致日夜街景影像轉換:運用Cycle-Object Edge Consistency將白天街景轉為夜晚並維持結構
- 基於Stable Diffusion之影像編輯與實作:運用Instruct-Pix2Pix直接修改影像情境(晝夜霧雨之情境互轉)
- Diffusion Engine:影像以及物件偵測標記資料同時生成
- Stable Diffusion之四大微調技巧(Controlnet, Dreambooth, LORA, Textual Inversion)
|
- 課程日期:115/2/05~2/06 (週四~五);09:00~17:00;每天7小時,共計14小時
- 上課地點:中科_工商行服務大樓4樓或9樓教室【台中市大雅區中科路6號】 <實際上課教室請依據上課通知函為準!>