聽聲音就可以畫出眼前景象？用樹莓派跑AI竟可以聽音畫圖

自造工程師運用樹莓派及AI，以聲音和定位資料創造出相片。Diego Trujillo Pisanty的Blind Camera專案利用聲音推論影像，並透過AI解析出來。另一丹麥開發人員則設計了Paragraphica，透過文字轉圖片的AI，並利用地理資訊等資料產生相片。

談到 Raspberry Pi 你可能會想到 Global Shutter Camara 、 Camera Module 3 或 HQ Camera，但自造工程師利用一個樹莓派 (Raspberry Pi) 分別以聲音及定位資料「創造」而非拍攝出相片。

首先是 Diego Trujillo Pisanty 的 Blind Camera 專案，他並非用鏡頭捕捉光線來產生相片，而是蒐集周遭的聲音，然後由聲音推論出可能的影像。

他設計的裝置和一般相機差不多，你將相機對準你想拍的對象，按下按鍵產生圖像。但不同的是它前方還有個鏡頭巨大的喇叭可放大它收到的聲音。使用者在按按鍵前應將喇叭對準目標，再按下按鍵。這個相機就會利用 AI 過濾器解析收到的聲音，最後產生圖像。

Pisanty 說，他為了這個專案另外開發了個人工神經網路 (artificial neural network, ANN)，然後以墨西哥市錄製的影片為資料集來設計這模型。這模型是以影片的每個影格和該影格最後一秒的聲音來訓練，因此可以說模型產生的影像都是以墨西哥市的影像為基礎創造出來。

訓練 Blind Camera 專案相機的 AI 模型是以 Python 3 撰寫，使用 Tensorflow 2 框架（轉成 TFLite），硬體是 Raspberry Pi 。 Pisanty 在這個專案中使用的是樹莓派 Raspberry Pi 3B 模組外面以 3D 列印的外殼包住。 Raspberry Pi 也可以用 Raspberry Pi 4，只要 Pi 能跑得動 Tensorflow 框架就可以了。相機還有個小觀景窗可顯示目前正在處理圖片，產生的圖像也可由此預覽。

Blind Camera 的影片及專案內容在此。

其次是丹麥開發人員 Bjørn Karmann 設計的 Paragraphica 。從外型上，這相機大致和傳統相機很像，只是它鏡頭部份沒有鏡片，而是像長著紅星星鼻子的地鼠。相機上方有三個旋鈕，你可以調整影片粗細及 AI 程式的細膩程度。相機背後有個觀景窗，方便你檢視你的設定、輸入的文字資訊和拍攝完成的照片。

Paragraphica 的中心為一個文字轉圖片的 AI 模型，利用多個 Open API 蒐集的資料產生相片，這些資料包括你所在位置、日期、時間和附近的地標等。當按下相機按鍵會啟動 Raspberry Pi 及 AI 程式產出相片。

以硬體而言，Karmann 選擇 Raspberry Pi 4，外覆有 3D 列印的相機外殼及其他電子元件。軟體則使用 Python 及 Stable Diffusion API，並以 Noodl 來開發 Web App 。 Karmann 網頁詳細說明軟體運作流程。

Paragraphica 的專案內容在此。

來源：Tom’s Hardware 1 、 2

聽聲音就可以畫出眼前景象？用樹莓派跑 AI 竟可以聽音畫圖

相關

previousNetEvents 2023：Zebra科技執行長直言全球勞動力持續下跌，靠物聯網打造自動化時代基礎

next啟雲科技 AIot 智能互動機引領新視界

發表迴響取消回覆

相關

相關

previousNetEvents 2023：Zebra科技執行長直言全球勞動力持續下跌，靠物聯網打造自動化時代基礎

next啟雲科技 AIot 智能互動機 引領新視界

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

next啟雲科技 AIot 智能互動機引領新視界

探索更多來自網路資訊雜誌的內容