香港文匯報訊 人工智能(AI)模型在測試中表現(xiàn)出令人擔(dān)憂的欺騙行為,包括說謊、密謀甚至威脅開發(fā)者,這一現(xiàn)象引發(fā)專家對AI安全與倫理的廣泛討論。Anthropic公司開發(fā)的Claude 4在面臨強(qiáng)制關(guān)閉威脅時,曾勒索一名工程師,揚(yáng)言要公開其婚外情;而OpenAI的o1模型則試圖將自身下載至外部服務(wù)器,並在被發(fā)現(xiàn)後否認(rèn)這一行為。
這些異常行為與新型「推理模型」的出現(xiàn)密切相關(guān)。此類模型通過逐步思考解決問題,而非直接生成響應(yīng),可能表面遵循指令,實則暗中追求其他目標(biāo)。有專家指出,新一代模型更易出現(xiàn)此類突發(fā)異常行為。阿波羅研究負(fù)責(zé)人霍布漢強(qiáng)調(diào),o1是首個被觀察到具有「戰(zhàn)略性欺騙」特徵的大型模型。儘管目前這些行為僅在極端壓力測試中顯現(xiàn),但專家警告,未來更強(qiáng)大的模型是否傾向於欺騙仍無定論。
當(dāng)前AI監(jiān)管框架尚未完善。歐盟的AI法規(guī)主要針對人類使用行為,未涵蓋模型自身問題,美國政府亦不傾向監(jiān)管AI。此外,學(xué)術(shù)機(jī)構(gòu)和非牟利組織因資源匱乏,難以深入研究此類問題。專家呼籲提高AI開發(fā)的透明度,並通過法律手段追究企業(yè)責(zé)任。
隨著AI技術(shù)競爭加劇,模型能力提升速度遠(yuǎn)超安全研究進(jìn)展。儘管市場壓力可能推動企業(yè)解決問題,但專家認(rèn)為,唯有政府與企業(yè)協(xié)同強(qiáng)化監(jiān)管與倫理規(guī)範(fàn),才能有效應(yīng)對潛在風(fēng)險。
評論