“你真的要聽嗎?”池遠收起玩樂的心思,認真道,“這其實跟我們手頭上的工作沒啥關係。”
這部分是屬於數據分析,組裏不太可能讓他們涉及這部分任務。
“聽!隻是現在沒關係而已。”英子回答很自信。
不僅是對她自己的學習能力自信,更是對池遠非人般的學習能力自信。
“好吧。”池遠笑了笑,在英子無語的眼神下,從褲兜裏掏出隨身攜帶的筆。
隻見他將紙張翻轉了一麵,在上麵寫道:
【1.高緯度和多模態數據:測試數據可能來自多個傳感器,涉及多種參數,因此數據是高維度和多模態的。例如,包括溫度、壓力、速度等多種測量。】
【2.時序性:測試數據通常是時序數據,因為航天器的狀態和性能參數會隨著時間的推移而變化。】
【3.複雜的非線性關係……】
【4.缺失數據和異常值……】
【5.實時性要求……】
【6.數據標簽的稀疏性……】
“這是你對測試數據特性的分析?”
池遠點了點頭:
“基於這些特征分析,我放棄了限製小規模數據量的梯度提升算法(XGBoost、LightGBM)和要求維度較低的LS-SVM算法,決定用深度學習算法,準確來說是模型,不止一個算法。”
“它的要求並不苛刻,複雜的數據結構,也可以通過多層神經網絡學習輸入數據的表示後進行處理。特別是它能自動學習高級抽象特征,發現隱藏在數據背後的模式和規律,達到識別異常甚至預測的目的。”
說完,他又將自己的模型構思一一寫下來:
【1.時間序列分析:使用專門針對時間序列數據的深度學習模型,如長短時記憶網絡(LSTM)或門控循環單元(GRU)等。】
【2.數據預處理:……】
【3.學習模型預訓練:……】
【……】
【7.增強學習:在某些情況下,可以考慮使用增強學習來實時監測中遇到的決策問題。】
一整頁都寫滿了。
沒有在意小小稿紙承受的不該有字數,池遠期待地等待著英子的回答:
“這模型怎麼樣?”
池遠寫得很簡化,英子對深度學習有所了解也能看懂。
也正是因為能夠看懂,她微微皺起了眉頭,有些猶豫道:
“模型很完善……但是不是太複雜了?需要的計算資源是不是太多了?”
“是需要很大的計算資源,但這不是為了追求‘最優’,麵麵都要考慮到嘛。”但這的確是個困擾池遠的問題,“你有沒有什麼建議?”
英子知道的不多,一時間也想不到好辦法。
話題冷了下來,兩個人一邊吃飯一邊發呆。
熟悉的眼神渙散,英子卻突然想起了下午看得眼神渙散的測試數據。
“我想到了!那些數據!非線性關係!”
她突然出聲,把池遠嚇了個一激靈,回過神忍不住提醒道,“是‘複雜的’非線性關係……”
“別強調‘複雜’了,要簡化!既然是非線性的,將略微相關的數據進行分類處理,得到類屬性,那時不時可以忽略類屬性變量之間的依賴關係可以相對忽略?”
要是拋開對‘複雜’的執著,池遠也懂了英子的意思,“你的意思是用樸素貝葉斯分類器?”
“還有TAN分類器。”英子眯眼道。
“這想法不錯。”池遠笑著敲了敲桌子,“還有嗎?”
“我認為還能引入‘注意力機製’,讓模型更加關注重要的特征,從而提高對關鍵信息的捕捉能力。”英子越說越自信。
果然,不同的思考方式注意到的重點都是不一樣的。
英子兩條意見都是衝著‘偷懶’……咳,是‘簡化’的目的。