- 登入
- 註冊
Claude 增加網路搜尋功能🔍
OpenAI 新語音功能模型、Gemini 新功能、HuggingSnap 影像即時辨識、Granola 會議幫手、Manus 實測分享
快訊:OpenAI 新語音功能模型、Gemini 新功能、HuggingSnap 影像即時辨識、Granola 會議幫手、Manus 實測分享



Claude 現在已經支援網路搜尋功能,目前只有美國的付費用戶可以使用。但未來會開放給免費方案還有更多國家的用戶。
- Claude 會根據問題主動決定是否需搜尋網頁
- 以對話框的形式回答
- 會附上資料來源的連結
此舉讓 Claude 能跟其他如 ChatGPT、Gemini 具有搜尋功能的對手競爭,也讓現在的 AI 助手愈來愈有機會成為搜尋引擎的替代工具。


OpenAI 正式宣布他們推出了下一代語音模型:gpt-4o-transcribe
、gpt-4o-mini-transcribe
和 gpt-4o-mini-tts
,現在全球開發者都能透過 API 使用這些功能。
- gpt-4o-transcribe:把語音轉成文字,準確率高,特別適合嘈雜環境、多重口音或講話很快的情況。
- gpt-4o-mini-transcribe:精簡版,價格較低。
- gpt-4o-mini-tts:把文字變成語音,特別的是可以控制語氣!像是切換成同理心、專業、健身教練、教授、憂鬱的年輕人…等等各式各樣的說話語調,可以去 openai.fm 體驗看看 (很有趣,大家快去玩~)
這些模型是基於 GPT-4o 架構打造,結合強化學習與真實語音訓練資料,準確率比舊版 Whisper 更高,適用於客服中心、會議記錄、語音助手等用途。這項發布讓建立「會聽會說的 AI」變得更簡單實用。


最近的 Gemini 非常爭氣,陸續推出新模型 Gemini 2.0 Flash 與數個新功能:
1.Gemini AI Gmail 按鈕
會自動從 Gmail 中辨識出活動資訊,並新增「新增至行事曆」按鈕。當你點擊這個按鈕時,右側會開啟 Gemini 側邊欄,確認事件內容並新增到 Google 日曆中。
2.Gemini Canvas(畫布)
類似白板的互動空間,可以和 Gemini 一起在畫布上寫下想法、拖拉元件、整理筆記。適合用來規劃專案、創作、腦力激盪。
3.Audio Overviews(語音摘要)
Gemini 會把複雜資訊唸給你聽,用自然語音講解重點,可以像聽 podcast 一樣快速掌握內容~適合在通勤、做家事或沒空看螢幕的時候聽。
4.Deep Research(深入研究 & 網路搜尋)
Gemini 2.0 現在也有附帶 Deep Research 功能,會先瀏覽網路上的資料,在幾分鐘內產生詳盡的研究報告。另外因為 Gemini 有連結 Google 廣大的生態系 (像是 Gemini 生成的內容後可以直接在 google 文件 / 試算表開啟),讓不少用戶決定從 ChatGPT 跳槽到 Gemini。


AI 新創公司 Hugging Face 推出了全新 iOS 應用程式 HuggingSnap,用戶只需開啟手機相機並詢問問題,HuggingSnap 就會透過內建的視覺模型 smolvlm2,在本地端(不需上傳雲端)分析畫面中的物體、場景或文字,並給予解釋。
這款 App 可離線使用,特別適合購物、旅行、學習或日常探索時使用。支援 iOS 18 以上版本,也可搭配 macOS 裝置與 Apple Vision Pro 使用。
這項設計強調隱私、安全與效率,在沒有網路的情況下也能讓 AI 視覺助理走入日常生活。


雖然名為 Granola,但是在這裡可不是指麥片,而是一款專為會議打造的 AI 筆記工具,它看起來就像一般筆記本,但會「聽」你的會議,然後根據你寫下的重點和對話內容,自動幫你整理出清晰、實用的會議筆記。
Granola 不只是單純的會議摘要工具,它會理解會議類型(例如:面試、銷售、投資簡報)並調整筆記風格。
採用 GPT-4o,支援即時互動修改。也會讓你清楚知道哪些內容是你寫的、哪些是 AI 補上的,並能追蹤來源對話 (該文字來自於逐字稿的哪裡)。目前只有開放 Mac 使用,Windows 還要再等等囉。


Manus 被歸類為所謂的「通用型 agent」。通用型 agent 的厲害之處是:它不只是紙上談兵、說說而已,而是可以真的動起來、幫你完成事情。舉例來說,它可以主動去查詢需要的資訊、生成對應的內容、與外部工具串接 (像是寄出 email、寫入行事曆、甚至操作瀏覽器訂房等),並根據過程中的結果持續調整策略,直到任務結束。

D 編有實際使用 Manus 嘗試完成一些任務,例如:將某 YT 線上系列課程轉成文字教材,大致的操作過程可自行參見 Medium 文章。Manus 的做法是在一個虛擬電腦環境中去幫使用者執行各種任務,根據目前實測的結果,只要是用程式解決的工作,通常 Manus 可以應付自如,遇到網頁端可能會有比較多狀況,特別是操作比較複雜的介面,可能需要人為手動接管,才能執行下去。另外,你跟 Manus 互動的過程,也可以儲存在個人的「知識庫」,下次遇到類似狀況,它就會知道怎麼做。
通用型 agent 真的要做到全能通,關鍵在於要知道各種工具怎麼操作,不管是程式工具、視窗介面或網站瀏覽。近期很受矚目的 MCP (Model Context Protocol),正是要解決這個問題,被看好是讓 LLM 真正具備跨工具操作能力的關鍵拼圖。透過 MCP,agent 能更清楚地理解目前的操作環境、維持上下文一致,甚至能跨應用程式協作,不再侷限於單一任務或單一平台。