聽聲音就可以畫出眼前景象?用樹莓派跑 AI 竟可以聽音畫圖

自造工程師運用樹莓派及AI,以聲音和定位資料創造出相片。Diego Trujillo Pisanty的Blind Camera專案利用聲音推論影像,並透過AI解析出來。另一丹麥開發人員則設計了Paragraphica,透過文字轉圖片的AI,並利用地理資訊等資料產生相片。

談到 Raspberry Pi 你可能會想到 Global Shutter Camara 、 Camera Module 3 或 HQ Camera,但自造工程師利用一個樹莓派 (Raspberry Pi) 分別以聲音及定位資料「創造」而非拍攝出相片。

首先是 Diego Trujillo Pisanty 的 Blind Camera 專案,他並非用鏡頭捕捉光線來產生相片,而是蒐集周遭的聲音,然後由聲音推論出可能的影像。

他設計的裝置和一般相機差不多,你將相機對準你想拍的對象,按下按鍵產生圖像。但不同的是它前方還有個鏡頭巨大的喇叭可放大它收到的聲音。使用者在按按鍵前應將喇叭對準目標,再按下按鍵。這個相機就會利用 AI 過濾器解析收到的聲音,最後產生圖像。

Pisanty 說,他為了這個專案另外開發了個人工神經網路 (artificial neural network, ANN),然後以墨西哥市錄製的影片為資料集來設計這模型。這模型是以影片的每個影格和該影格最後一秒的聲音來訓練,因此可以說模型產生的影像都是以墨西哥市的影像為基礎創造出來。

訓練 Blind Camera 專案相機的 AI 模型是以 Python 3 撰寫,使用 Tensorflow 2 框架(轉成 TFLite),硬體是 Raspberry Pi 。 Pisanty 在這個專案中使用的是樹莓派 Raspberry Pi 3B 模組外面以 3D 列印的外殼包住。 Raspberry Pi 也可以用 Raspberry Pi 4,只要 Pi 能跑得動 Tensorflow 框架就可以了。相機還有個小觀景窗可顯示目前正在處理圖片,產生的圖像也可由此預覽。

Blind Camera 的影片專案內容在此。

其次是丹麥開發人員 Bjørn Karmann 設計的 Paragraphica 。從外型上,這相機大致和傳統相機很像,只是它鏡頭部份沒有鏡片,而是像長著紅星星鼻子的地鼠。相機上方有三個旋鈕,你可以調整影片粗細及 AI 程式的細膩程度。相機背後有個觀景窗,方便你檢視你的設定、輸入的文字資訊和拍攝完成的照片。

Paragraphica 的中心為一個文字轉圖片的 AI 模型,利用多個 Open API 蒐集的資料產生相片,這些資料包括你所在位置、日期、時間和附近的地標等。當按下相機按鍵會啟動 Raspberry Pi 及 AI 程式產出相片。

以硬體而言,Karmann 選擇 Raspberry Pi 4,外覆有 3D 列印的相機外殼及其他電子元件。軟體則使用 Python 及 Stable Diffusion API,並以 Noodl 來開發 Web App 。 Karmann 網頁詳細說明軟體運作流程。

Paragraphica 的專案內容在此

來源:Tom’s Hardware 12

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link