旅遊常見問題怎麼解？AI 從真實討論找答案的運作方式

最近看到 Tripadvisor 搞了一個新功能，說真的，我覺得蠻酷的。他們居然用 AI 去讀他們那堆跟山一樣高的旅遊論壇文章，然後自動整理出一個問答集（FAQ）。

你知道的，那種旅遊論壇，像是背包客棧，或者我們台灣人愛用的 PTT 日旅版、Dcard 旅遊版，裡面真的是寶藏，一堆在地人才知道的巷子內美食、超省錢的交通方法...但缺點就是，資訊有夠亂。一篇文章可能蓋了幾百樓，你得自己慢慢爬，爬到眼花都還不一定找到答案。有時候一篇問「東京交通」，另一篇問「東京地鐵怎麼搭」，內容可能差不多，但就散落在各處。

Tripadvisor 顯然也知道這個痛點。他們就想，與其讓使用者自己撈資料撈到死，不如讓 AI 來做這件苦差事。這想法不新，但他們實際做下去遇到的鳥事跟解決方法，我覺得才是真正有趣的地方。今天就來聊聊他們是怎麼把這件事搞定的。

TL;DR，一句話說完他們幹了啥

簡單講，他們就是訓練一個 AI，讓它去「閱讀」論壇上成千上萬篇的英文貼文，找出大家最常問的問題（比如「從機場到市區最快的方法？」），然後在所有回覆中，找出最有用、最中肯的答案，最後再把這些答案「總結」成一篇好讀的內容。基本上就是幫你請了一個超有耐心的助理，24 小時幫你爬文做功課。

我自己是覺得，這跟我們在台灣習慣的模式有點像又有點不一樣。我們很依賴 PTT 或 Dcard 上的「鄉民智慧」，但那些資訊都是被動的，要靠自己搜、自己整理。Tripadvisor 這招等於是把「鄉民智慧」主動整理好，直接端到你面前。這點跟美國那邊的官方資訊比較豐富，但論壇討論相對分散的情況可能有點關係，所以他們會想用 AI 來整合。

所以，論壇內容真的有這麼好用嗎？

當然啊。官方推薦的景點或餐廳，通常都很安全、很制式。但論壇不一樣，那裡充滿了「真人經驗」。

比如說，你可能會在評論區看到「這家餐廳很好吃」。但在論壇裡，你會看到更深入的對話，像是：「這家餐廳記得要點A餐，不要點B餐，因為B餐的肉超柴」、「要去的話最好下午三點去，不然排隊要排一小時」、「對了，老闆臉很臭但人很好，不要被他嚇到」。

你看，這種細節和人情味，是一般評論給不了的。Tripadvisor 自己內部調查也發現，論壇內容是他們網站上第二受歡迎的資訊來源，只輸給那種「興趣探索」的大分類。這證明大家真的很愛看這種真實的、帶有對話感的資訊。

他們以前也有 FAQ，但那是員工手動寫的，更新慢、內容也有限，根本跟不上真實世界的變化。所以，用 AI 來自動化處理這些論壇裡的「活水」，就變得很合理。

怎麼做到的？這才是重頭戲

好，概念很美好，但執行起來就是一連串的挑戰。他們基本上要解決三個大問題：

怎麼從幾百萬篇貼文中，找出「對的問題」？
怎麼幫這些問題，配對到「對的答案」？
怎麼確保 AI 總結出來的內容，沒有亂講話，忠於原文？

接下來就是他們解任務的過程，我覺得最精彩的就在這裡。

第一步：把相似的問題「聚」在一起

他們發現，不管去哪個城市，遊客問的問題類型其實都差不多。問紐約的，會問博物館怎麼逛；問巴黎的，也會問博物館怎麼逛。所以第一步，就是要讓電腦學會把這些「問法不同，但意思一樣」的問題歸類在一起。

技術上，他們用了一個叫做 `bge-base-en-v1.5` 的 embedding model，這東西你可以想像成一個「語意翻譯機」，它會把每一篇貼文的標題和第一段內文，轉換成一串電腦看得懂的數字（向量）。意思越接近的句子，它們的數字表示也會越像。

有了這些數字後，下一個挑戰就是要「分群」（Clustering）。問題來了，每個城市的論壇大小差超多。巴黎的論壇可能可以分出幾千群問題，但某個小鎮的論壇可能只有十幾群。他們試了幾個現成的演算法，結果都碰壁了。

這部分我覺得超有共鳴，有時候你以為用現成的工具套一套就好，結果發現跟你的資料八字不合。他們就是這樣。

演算法	他們遇到的問題	我的OS（碎碎念）
K-means	要求你必須「事先」告訴它要分成幾群。但他們根本不可能知道每個城市該分幾群啊。	這超不實際的。就像叫你整理房間，但要你先說出總共有幾類雜物，鬼才知道啊！
HDBScan	試了之後，分出來的群組太少，很多有用的問題都被當成雜訊忽略了。	這個演算法有點太嚴格了，像個潔癖。寧可錯殺一百，也不願放過一個...不夠像的。結果就是一堆寶藏被丟掉。
自己開發的演算法	用一種「貪婪」的策略，動態決定一個新問題該加入現有群組，還是自己成立一個新群組。	最後還是得自己來，哈哈。這方法聰明多了，比較有彈性，像在玩分組遊戲，先找最像的湊一隊，然後慢慢擴大。