中華電信研究院 | 人工智慧-影像認知與多媒體內容生成

Image Understanding And Multimedia Content Generation

概述

隨著 AI 深度學習技術發展與成熟，原本高難度的影像辨識有了關鍵性突破，進一步推進至影像認知與理解的全新境界。本院在 AI 影像領域的重要研發項目之一，聚焦於以人為核心的人臉辨識與行為辨識技術研究，通過精準識別個人身份與特徵，並深入理解行為意義，廣泛應用於安全監控、人員管理、科技執法等領域；此外，亦致力於多媒體內容生成技術與應用，實現圖像、影片、動畫及音樂音效等多元生成成果，賦能影像處理與創意內容製作，實現智慧城市的新願景，開啟未來數位生活的新篇章。

Image Understanding And Multimedia Content Generation

核心技術

人臉辨識
人形與行為辨識
擬真人生成
多媒體內容生成

人臉辨識與應用示意圖

人形與行為辨識示意圖

擬真人生成示意圖

多媒體內容生成示意圖

Image Understanding And Multimedia Content Generation

應用現況

人臉辨識：透過人臉辨識技術，做到識別人員身分、瞭解人員屬性(性別/年齡層/臉上特徵)，甚至防疫期間口罩是否配戴等辨識，本院技術達國內領先群並具備商用水準。人臉辨識技術成果亦積極參與且取得國際評比的肯定(美國NIST FRTE 1:1 2024/10月台灣排名第1名)，陸續成功應用於中小企業門禁管控、電子看板來客分析、國境大門身分確認、門市零接觸取號碼單、政府機關高機敏場所管控等。近年來Edge AI需求盛行，亦將人臉辨識輕量化佈署於嵌入式攝影機/一體機裝置上，擴展人臉辨識產品。

人形與行為辨識：以AI深度學習影像技術可識別出眾多人形與行為資訊，例如：人員外形、人員所在空間位置、計算特定區域人潮數量、檢索人員衣著/顏色、瞭解單人甚至多人的互動行為等。本院將技術成果導入既有的電子圍籬方案，大幅改善傳統電子圍籬容易誤偵測問題，提供即時告警加值服務，並應用於國家關鍵基礎設施、台鐵邊坡工程、重要機房、風景區等監控需求上。此外，人形辨識技術將往嵌入式邊緣運算方向發展，打造出低成本/低耗電/更快速的新一代IVS解決方案。

擬真人生成：可與語音辨識、知識問答、語音仿聲、文生圖技術融合生成即時互動擬真人，具備自然手勢動作互動、中文口型精準匹配特點，還能根據音檔長短選用合適的手勢；打造一個推廣知識/產品的擬真人解決方案，針對機構/個人建立專屬知識庫，並塑造專屬的形象人物，以問答方式進行資訊傳遞及行銷傳播。

多媒體內容生成：建構在SOTA AI模型架構上，研發包含圖像、影片、動畫及音樂音效等多元的內容生成成果，透過在地化資料進行模型精進與訓練，強化台灣在地化元素且具備高品質創作表現。於多媒體影像與影片理解技術上，專注發展多模態語言模型，搭配鑑別式AI與Edge AI等提供人形辨識之創新應用。研發成果應用於智慧安防監控及創意內容產製等領域，展現在地化技術實力。

AI： Artificial Intelligence
IVS： Intelligence Video Surveillance
NIST： National Institute of Standards and Technology
FRTE： Face Recognition Technology Evaluation
SOTA： State-of-the-Art