Image Understanding And Multimedia Content Generation

概述

隨著 AI 深度學習技術發展與成熟,原本高難度的影像辨識有了關鍵性突破,進一步推進至影像認知與理解的全新境界。本院在 AI 影像領域的重要研發項目之一,聚焦於以人為核心的人臉辨識與行為辨識技術研究,通過精準識別個人身份與特徵,並深入理解行為意義,廣泛應用於安全監控、人員管理、科技執法等領域;此外,亦致力於多媒體內容生成技術與應用,實現圖像、影片、動畫及音樂音效等多元生成成果,賦能影像處理與創意內容製作,實現智慧城市的新願景,開啟未來數位生活的新篇章。
Image Understanding And Multimedia Content Generation

核心技術

  • 人臉辨識
  • 人形與行為辨識
  • 擬真人生成
  • 多媒體內容生成

人臉辨識與應用示意圖
人形與行為辨識示意圖
擬真人生成示意圖
多媒體內容生成示意圖

Image Understanding And Multimedia Content Generation

應用現況

人臉辨識:透過人臉辨識技術,做到識別人員身分、瞭解人員屬性(性別/年齡層/臉上特徵),甚至防疫期間口罩是否配戴等辨識,本院技術達國內領先群並具備商用水準。人臉辨識技術成果亦積極參與且取得國際評比的肯定(美國NIST FRTE 1:1 2024/10月台灣排名第1名),陸續成功應用於中小企業門禁管控、電子看板來客分析、國境大門身分確認、門市零接觸取號碼單、政府機關高機敏場所管控等。近年來Edge AI需求盛行,亦將人臉辨識輕量化佈署於嵌入式攝影機/一體機裝置上,擴展人臉辨識產品。
人形與行為辨識:以AI深度學習影像技術可識別出眾多人形與行為資訊,例如:人員外形、人員所在空間位置、計算特定區域人潮數量、檢索人員衣著/顏色、瞭解單人甚至多人的互動行為等。本院將技術成果導入既有的電子圍籬方案,大幅改善傳統電子圍籬容易誤偵測問題,提供即時告警加值服務,並應用於國家關鍵基礎設施、台鐵邊坡工程、重要機房、風景區等監控需求上。此外,人形辨識技術將往嵌入式邊緣運算方向發展,打造出低成本/低耗電/更快速的新一代IVS解決方案。
擬真人生成:可與語音辨識、知識問答、語音仿聲、文生圖技術融合生成即時互動擬真人,具備自然手勢動作互動、中文口型精準匹配特點,還能根據音檔長短選用合適的手勢;打造一個推廣知識/產品的擬真人解決方案,針對機構/個人建立專屬知識庫,並塑造專屬的形象人物,以問答方式進行資訊傳遞及行銷傳播。
多媒體內容生成:建構在SOTA AI模型架構上,研發包含圖像、影片、動畫及音樂音效等多元的內容生成成果,透過在地化資料進行模型精進與訓練,強化台灣在地化元素且具備高品質創作表現。於多媒體影像與影片理解技術上,專注發展多模態語言模型,搭配鑑別式AI與Edge AI等提供人形辨識之創新應用。研發成果應用於智慧安防監控及創意內容產製等領域,展現在地化技術實力。