Океанологические и биологические исследования арктических и южных морей России : к 70-летию Мурманского морского биологического института / Рос. акад. наук, Кол. науч. центр, Мурм. мор. биол. ин-т ; [редкол.: Г. Г. Матишов (отв. ред.) и др.]. - Апатиты : КНЦ РАН, 2006. - 479 с. : ил.
Океанологические и биологические исследования арктических и южных морей России если не было уверенности в однозначности э ти х преобразований. Важ ным средством определения преемственности и то чно сти м е тодик является фор мируемая параллельно с базой электронная библиотека и сторических трудов по океанографии северных морей. Первоначально база данны х по западному се ктору А р к т и к и , включала более 1.5 млн станций , которые были получены из н е с кол ь ки х десятков раз ны х источни ков . П ри та ком большом числе и с то чни ко в информации веро ятность получения одни х и тех же данны х м но го кра тно возрастает, поэтом у п о и с к и исклю чение дубликатов является актуальной задачей. Трудности ее решения обусловлены тем, что часть данны х поступает не в первоначальном виде, а после не ко то р о й обрабо тки , о собенно сти ко то р о й , к а к правило , неизвестны . Информация из разных и с то чни ко в м ож е т быть неполной или по-разном у ском понованной . Каждая страна имеет свои традиции в выборе ш калы для измерения океанограф ических параметров. П ри объединении данны х, полученны х из разны х стран, приходи тся преобразовывать данные в одну систему измере ний . Такое преобразование не м ожет бы ть вполне однозначным (например, за счет разной точности представления данны х ) и сл уж и т дополнительным источни ком неопределенности при сравнении, в результате чего первона чально одинаковые станции , полученные из двух разны х и сточни ков , м о гут отличаться и в координатах, и во времени вы полнения станции , и в значени ях параметров. Проблема исклю чения дубли катов м но го кра тно усложняется из-за большого количества данны х, которы е необходимо анализировать. Для решения этой проблемы на основе моделирования процесса обра б о т ки , теории нече тких множеств и распознавания образов (Робертс, 1986; Зуев, Голубев, 1999; М атиш ов и др., 1999) разработан алгоритм сравнения станций и принятия решения об удалении дубликата. Вводится мера сходства станций (R ), которая м ож е т принимать значения в диапазоне от 0 до 100 %. В зависимости от задачи объединения м ож но задаться некоторым уровнем сходства, выше ко тор о го станции будут считаться дубликатами (в данной работе при R > 75 % ), и уровнем различия, ниж е ко торо го станции дубли ка тами не являются (R < 25 % ). Все станции , попадающ ие в пром еж уточную кате горию , подвергаю тся дополнительной экспер тной оценке. М еры сходства станций определяются по трехуровневой схеме. На первом уровне рассчитывается мера сходства станций для каж д о го отдельного го р и зонта и для каж д о го отдельного океаноло гическо го параметра. Результаты этого расчета использую тся на втором уровне для определения меры сход ства станций для каж до го параметра по сово купности горизонтов. На третьем уровне результаты д и а гно с ти ки сходства параметров обобщаются для всех типов данны х и станции в целом. 407
Made with FlippingBook
RkJQdWJsaXNoZXIy MTUzNzYz