Океанологические и биологические исследования арктических и южных морей России : к 70-летию Мурманского морского биологического института / Рос. акад. наук, Кол. науч. центр, Мурм. мор. биол. ин-т ; [редкол.: Г. Г. Матишов (отв. ред.) и др.]. - Апатиты : КНЦ РАН, 2006. - 479 с. : ил.

Океанологические и биологические исследования арктических и южных морей России если не было уверенности в однозначности э ти х преобразований. Важ ным средством определения преемственности и то чно сти м е тодик является фор­ мируемая параллельно с базой электронная библиотека и сторических трудов по океанографии северных морей. Первоначально база данны х по западному се ктору А р к т и к и , включала более 1.5 млн станций , которые были получены из н е с кол ь ки х десятков раз­ ны х источни ков . П ри та ком большом числе и с то чни ко в информации веро­ ятность получения одни х и тех же данны х м но го кра тно возрастает, поэтом у п о и с к и исклю чение дубликатов является актуальной задачей. Трудности ее решения обусловлены тем, что часть данны х поступает не в первоначальном виде, а после не ко то р о й обрабо тки , о собенно сти ко то р о й , к а к правило , неизвестны . Информация из разных и с то чни ко в м ож е т быть неполной или по-разном у ском понованной . Каждая страна имеет свои традиции в выборе ш калы для измерения океанограф ических параметров. П ри объединении данны х, полученны х из разны х стран, приходи тся преобразовывать данные в одну систему измере­ ний . Такое преобразование не м ожет бы ть вполне однозначным (например, за счет разной точности представления данны х ) и сл уж и т дополнительным источни ком неопределенности при сравнении, в результате чего первона­ чально одинаковые станции , полученные из двух разны х и сточни ков , м о гут отличаться и в координатах, и во времени вы полнения станции , и в значени­ ях параметров. Проблема исклю чения дубли катов м но го кра тно усложняется из-за большого количества данны х, которы е необходимо анализировать. Для решения этой проблемы на основе моделирования процесса обра­ б о т ки , теории нече тких множеств и распознавания образов (Робертс, 1986; Зуев, Голубев, 1999; М атиш ов и др., 1999) разработан алгоритм сравнения станций и принятия решения об удалении дубликата. Вводится мера сходства станций (R ), которая м ож е т принимать значения в диапазоне от 0 до 100 %. В зависимости от задачи объединения м ож но задаться некоторым уровнем сходства, выше ко тор о го станции будут считаться дубликатами (в данной работе при R > 75 % ), и уровнем различия, ниж е ко торо го станции дубли ка ­ тами не являются (R < 25 % ). Все станции , попадающ ие в пром еж уточную кате горию , подвергаю тся дополнительной экспер тной оценке. М еры сходства станций определяются по трехуровневой схеме. На первом уровне рассчитывается мера сходства станций для каж д о го отдельного го р и ­ зонта и для каж д о го отдельного океаноло гическо го параметра. Результаты этого расчета использую тся на втором уровне для определения меры сход ­ ства станций для каж до го параметра по сово купности горизонтов. На третьем уровне результаты д и а гно с ти ки сходства параметров обобщаются для всех типов данны х и станции в целом. 407

RkJQdWJsaXNoZXIy MTUzNzYz