南乌拉尔国立大学一位数学家提出了一种加速计算机视觉算法的方法。

南乌拉尔国立大学自然与精确科学研究所副教授、VirtUm人工智能高级教育中心讲师、物理与数学博士叶夫根尼·马尔秋舍夫与来自芬兰和捷克共和国的同事合作，开发了一种自动构建由洛朗多项式构成的方程组求解器的方法。与变量只能取正幂的传统方程不同，洛朗方程组允许取负幂。这类方程组广泛应用于工程领域：例如机器视觉算法的开发与优化、无人机导航，以及机器人和声学等领域。

为了有效地求解洛朗方程组，研究人员构建了一种“消元模式”——一种特殊的系数矩阵，可以通过线性代数方法对其进行运算，从而找到方程组的解。最初的消元模式生成器依赖于代数几何的标准工具，例如格罗布纳基和结式。然而，实践表明，经验方法往往更为有效。科学家们提出的方法基于迭代经验方案。其主要优势在于其通用性：它能够找到即使对于具有正维解分量的系统也能求解的解，并且能够自动检测和考虑洛朗系统的某些对称性。此外，用户无需深厚的数学知识——只需指定用于计算系统系数的函数即可。生成器将自动选择几个模式变体，用户可以从中选择速度最快、精度最高的变体。

“我们针对各种问题测试了我们的生成器，主要集中在几何计算机视觉领域，”叶夫根尼·马尔秋舍夫及其同事在论文中写道。“例如，这些问题包括最优三视图三角测量、混合导航以及基于信号到达时间的自校准。实验表明，我们的求解器在数值精度和速度上都优于现有的类似方法。”

让我们明确一下我们正在讨论的应用问题。

第一个问题是最优三视图三角测量。想象一下，三台摄像机从不同角度拍摄同一个物体（例如，一座建筑古迹或电影布景）。为了创建精确的 3D 模型，计算机必须在空间中找到一个点，该点的投影与所有三幅图像都能最佳对齐。科学家们提出的求解器可以更快、更精确地完成这项工作。其应用范围很广，从电影特效到创建城市数字孪生体。

第二个问题是混合导航（半广义混合姿态估计）。假设我们有一部智能手机上的普通摄像头和一个复杂的“广义”摄像头（例如，自动驾驶汽车上的多镜头系统）。任务是将它们的数据结合起来，以确定汽车相对于智能手机的位置。

叶夫根尼·马尔秋舍夫及其同事提出的求解器比现有算法快 20-30 倍，这对于创建实时监控交通的智慧城市基础设施至关重要。

第三项任务是到达时间自校准。房间内设有多个扬声器和麦克风。系统仅需知道声音从扬声器传播到麦克风所需的时间（到达时间），即可自动计算所有设备的位置。

这对于创建智能会议室和降噪系统至关重要。对于包含四个扬声器和六个麦克风（以及五个扬声器和五个麦克风）的配置，新方法的计算速度比目前最佳的全局方法快1.5到1.8倍。

值得一提的是，该新方法此前已成功应用于机器人领域，用于高效求解并联机械臂的直接运动学问题。

该研究成果发表于《国际计算机视觉杂志》（International Journal of Computer Vision），该期刊在 Scopus 和 Web of Science 数据库中均位列前100名。

该研究是俄罗斯联邦政府分析中心支持的人工智能顶级项目的一部分。

奥斯塔普·达维多夫