; 浙大老师并没有第一时间回答,而是重新翻到了论文的对应页面,看了一会儿才朝着周昀点了点头,眼里满是对周昀的欣赏:“我没问题了。”
此时,车伟强也放下了手里的笔,朝周昀笑了笑:“周昀同学,你的论文写得非常扎实,理论深度就算是我都有些自愧不如,
不过你能否解释一下关于你在多模态融合中提到的Schrödinger桥框架,在高维嵌入中,你如何处理SB路径优化的非凸性问题以保证收敛?”
旁听学生中有车伟强的学生,当他们看到老师脸上的笑容时,心中浮现出三个字——科幻片!
入学一两年以来,他们从来没见过车伟强在他们面前笑过。
果然,人和人之间的差距有时候比人和狗都大。
“没问题。”周昀微微点头,拿笔开始在白板写下公式:“Schrödinger桥(SB)通过最小化相对熵求解从视觉模态μ到语言模态ν的最优随机路径:
SB(μ,ν)= inf_{P: P_0=μ, P_1=ν} KL(P || Q),其中Q是布朗运动参考路径,
为了融入时间序列对齐,我将动态时间规整(DTW)引入SB框架,构建时间依赖的传输计划。
......
推导上,SB的密度满足Fokker-Planck方程:∂p_t\/∂t =-(1\/2)Δp_t - div(p_t v_t),其中v_t是最优速度场......”
车伟强听后,点了点头:“所以,你是用DTW给SB加了个时间对齐的先验,相当于在路径上加了个正则项,强制X和Y同步?就像是用动态规划把时间轴拉直。”
周昀笑着摇了摇头:“实则不然,刚刚我在PPT里也有讲到,我的做法是将DTW成本嵌入Girsanov变换,优化联合分布P_t和γ,使得路径既满足时间对齐又保留SB的扩散特性,
数学上,软DTW的梯度∂DTW\/∂γ通过Sinkhorn-like迭代计算:
A_γ^{(k+1)}= softmax(-c(X,Y)\/δ+ log A_γ^{(k)})
......”
说着他又在白板上写下一行公式。
车伟强愣了愣,哑然一笑:“哈哈,倒是我想简单了,那我也没问题了。”
这一幕看的前面答辩完的学生一愣一愣的。
不是说好了只答不辩吗?
而且这个叫周昀的又是什么情况?这还是研究生吗?博士生都没这么夸张吧?
看着写满了数学公式的白板,几位研三的学生感觉自己好像在听天书。
学生如此,老师其实也没好到哪里去,特别是前排的答辩老师。
靠左边的答辩老师偷偷抹了下额角并不存在的汗,心中也是大为震撼:“现在的研究生都已经到这种程度了?”
还好有另外两位老师提了问题,他也不用硬着头皮提问了,这倒是让他松了一口气。
 
本章未完,请点击下一页继续阅读