一个做近红外的化学计量学人——访南开大学教授邵学广
上海长肯设备供
近年来,我国近红外光谱分析技术无论在基础研究还是应用方面都取得了长足进展。而且在近红外光谱分析技术研究的庞大人群中,总是能看到国内为数不多的化学计量学人身影。其中,南开大学教授、国内近红外光谱分会副理事长邵学广就是其中之一。
南开大学教授 邵学广
日前,仪器信息网编辑采访了邵学广,请他介绍了他走进化学计量学、走进近红外的历程,并发表了他对化学计量学和近红外发展趋势、以及限制近外应用推广难点等问题的看法,后也谈到了如今热点的近红外大数据的发展前景。
走进化学计量学,扎根化学计量学
说起来,邵学广并不是学化学计量学专业出身。在读博士之前他学的是稀土化学应用专业,1992年博士毕业后选择了”小波变换”为未来研究方向,从此才进入了化学计量学领域。邵学广经常和学生们说起这段经历,一开始很艰苦,*是照着书和手册自学。曾经有两篇有关小波变换的文献,邵学广每年都要看几遍,据他自己说,一直到5年后他自己写《化学信息学》一书的时候才真正读懂了这两篇文献。
当时邵学广决定写《化学信息学》*是因为要开课却没现成的教材,没想到这本书成为了国内一本关于化学信息学的书,目前已经出版3版。
为什么从小波变换开始,邵学广说到,“关于小波变换,1986年上其他领域已经有人开始使用,化学领域真正的一篇文章发表在1992年。而1992年我正好刚刚参加工作需要寻找并确定今后的研究方向。那么,当时我觉得新提出来的小波变换会是一个很好的方向。”刚开始的5年多时间里其团队一直在做方法,并在各种光谱、色谱方面广泛尝试,结果证明这个方法的效果特别好,更加增强了邵学广的信心,从而这项工作邵学广一直坚持到现在。
除了小波变换,邵学广这些年主要研究工作包括免疫算法、化学因子分析、人工神经网络、遗传算法等算法,还包括分子模拟等理论化学计算方法研究。
“其实,我们实验室做的有特色的是免疫算法,是我们的一种算法。”免疫算法主要用于色谱重叠组分信号解析,可以把单峰解出来。原来色谱分析10-20个成分的时候,需要用时30-40分钟。而用了免疫算法只需10多分钟进行分离,分离结束即直接就能够计算出来。如,40多个组分的农残分析只需10多分钟。
结缘近红外,思考近红外
近红外光谱的缺点之一是解释性差,峰很宽、很模糊。在计量学出现之前,近红外光谱一直没有得到很好的发展。“近红外和化学计量学是捆绑在一起的两种技术,可以说计量学的发展推动了近红外的发展;同样也可以说近红外给了化学计量学一个舞台,让它有了发挥作用的地方。”
近年来,近红外光谱发展很快,而邵学广在近红外领域也已经做了将近20年。这期间他们尝试了不同的建模方法,也提出了自己的方法,同时还研究了另一个非常重要的问题,即建模样品的确定问题,发表了几十篇的论文。“近红外相关化学计量学方法的研究已经比较充分、成熟。尽管不能说哪种方法妥当,但是有很多方法已经能够用了,想干什么事,基本上都可以做了。当然,更‘新鲜’的方法研究也是需要的,但是没有那么紧迫了。”
关于近红外数据处理的发展趋势,邵学广认为,根据具体的行业需求进行开发,不做大而全的软件。如,我们之前与中检院合作开发的判别药品一致性的软件已经交付,得到的反馈还不错。另外,基于数据库的一些算法要实现标准化。邵学广认为,近红外数据处理的下一步方向是高光谱,因为如今的近红外光谱成像数据处理还有不太成熟的地方。
关于近外光谱分析技术应用与推广的难点,是邵学广常常思考的问题。首先,他提到的是“灵敏度”的局限。近红外方法灵敏度很低,很多微量成分不好分析,这是限制近红外光谱在科研领域应用推广的很大一个原因。怎么让近红外能测微量成分,邵学广已经研究7年多的时间了。邵学广承担基金委的一个重点项目就是研究这个问题,经过攻关2016年时检测限已经达到微克级别。近红外另一个缺点是结构分析能力差,在表征化合物结构方面远远弱于质谱或中红外光谱。这几年,邵学广从做水的光谱入手,花了很大力气力图从复杂的水结构中把不同结构的水分子光谱提取出来。水中水分子结构非常复杂,有单独的水分子、二个水分子结合、三个水分子结合、甚至更多。“希望大学、研究所更多人员加入到这方面的研究中来。”
近红外光谱推广应用更多的限制来自于仪器之间的差异、测量之间的差异。邵学广这两年做了很多模型转移方面的研究工作,他认为仪器之间的差异基本上可以校正,不是太难。因为仪器之间差异是固定的,理论上也是可以校正的。邵学广指出,真正难点在于测量之间的差异,如,样品摆放位置、颗粒度大小等形态差异带来的光谱变化会导致测量结果变化,且理论上就没有解决方法,只能根据假设或一定的近似来修正。邵学广基于假定光谱和操作条件之间存在着某些我们不知道的关系,从而建立相应校正模型把这种关系预测出来。“这个校正模型使用的效果挺好,但是还缺少相应的理论依据。”
推应用发展,落地人才培养
邵学广强调,“化学计量学专业人才的缺乏是近红外应用发展的主要难点。”从事化学计量学相关专业研究的人员较少,而且,化学计量学不是本科阶段必须学习的内容,研究生阶段开课的也不多。欧洲大学本科阶段已经在教学大纲中规定化学计量学为必学内容,其份量已经占到分析化学内容的四分之一。但在国内还没有这个要求。“这导致培养的相关人才太少,对化学计量学和近红外的发展限制相当大。”
很多人提到化学计量学,会莫名的感觉有点“怕怕”。事实上,现在研究化学计量学的人虽然不算多,但是也很容易找到合作的人。另外,如今也有一些比较成熟的软件,即使不懂化学计量学原理,只要会用软件,也能解决问题。
现在,邵学广在南开大学本科阶段开设了计量学相关教学内容。而且,经常有外面学生来邵学广实验室学习,或者以项目合作的模式联合培养,时间不等,邵学广负责指导。再者,这几年邵学广的实验室也开发出了一些软件。像是具有使用便利等优点的小波变换算法,不但成为了邵学广实验室扣背景的标准方法,而且,邵学广表示,对于小波变换,内行人可以灵活设置参数,外行人不调整参数也能使用。所有这些都是邵学广在为实现“不应该让不懂计量学成为计量学和近红外应用的障碍”所做的努力。
由此延伸,邵学广谈到了近红外的人才培养问题,并强调“打好地基”的重要性。近红外研究人员不要只盯住应用去做,一方面要针对应用,但又不能*是应用。特别是对年轻研究人员,要把基本理论“打”扎实了,等到去做应用的时候,应用方法、技术会非常稳固和牢靠。否则,很多技术不牢靠反而会导致应用失败。而且,糟糕的是,一旦失败,大家就会认为这个方法不好,实际上会阻碍了这个领域的发展。
大数据推动近红外爆炸式增长
如今“大数据”已经成为一个热词,邵学广也在多个场合说到,近红外的大数据时代已经来临。“与其他大数据相比,近红外光谱大数据有两个特点:数据量大、信息量大。”特别是成像光谱和高光谱,高光谱仪器的检测器和目前仪器所用的有所差异;而且常用的模型转移、数据处理等和原来传统光谱也有一些差别,所以,必须开发一些新的据分析方法。邵学广介绍到,“原来只是1-2000个数据点,现在一个高光谱数据量上万,可变量选择的方法范围很小。”
此外,一条光谱所含信息丰富,除了化学信息,还包括物理信息,如硬度、大小、位置等,需要综合利用。在药品的真假判别时,往往是隔着包装测试的,包装材料的信息、药片压的实不实、药片的形状等物理信息都可以判别。“我们近红外不管是哪种信息,只要有这方面的信息,不用刻刻意强调是物理还是化学信息。”
“从应用角度看,近红外大数据的价值,目前在于监控。”监控包括工业监控,甚至应用到“大街上”的空气质量等监控。“大数据来源于实时,也来源于长期实时数据的积累。对大数据进行相关分析、可视化分析,把数据和事件相关并从中总结出其规律性,比如说大型活动的人流等。数据更多的时候就可以根据已有数据建立模型,根据光谱信息预测后续发展。”
“目前大数据研究还处于初级阶段,炒概念的多些,但各行各业都在用。”如,已有按大数据系统设计的药品数据库,把全国药监的数据集成在一个数据库中。在这个库的基础上建立模型,可用于市场调查、药品抽检等。“只需做一个光谱,上传到数据库,数据库就可根据模型判别药品的真假,并把结果反馈回移动终端。目前该数据库建设基本完成,相关技术均已成熟。”粮食领域也启动了类似项目,虽不涉及网络、无线通信,但也涉及数据库建设。可输入收购粮食样品的光谱来得到样品相关的湿度、蛋白质含量等各项参数。烟草行业的原料大数据系统、生产在线监控也已经做好。
“类似工作在许多行业都已经开展,但是真正投入使用的不多。”邵学广这样说到,“这些大数据系统的实际应用,不光是技术的问题,在于监管或被监管者是否想做。”
不过,邵学广也指出,大数据的发展需要由应用需求驱动。像现在的物流、快递行业,需求太大了。而实验室对仪器中的大数据应用现在需求不强烈。但我们这些做研究工作的学者可提前做好方法。就过程分析而言,下一步一旦国内产品质量从产品检验控制转向过程控制,从政府层面推广过程控制,到那个时候,企业自然会来找,近红外光谱会有一个爆炸式增长。