Loading...

Lukas Blazek / Unsplash

Почему даже переименование генов не помогло победить автокоррект в таблицах Excel, как менялась доля опечаток с 2014 года, какие выходы из ситуации видят ученые и стоит ли надеяться, что их услышит Microsoft, читайте в нашем материале.

Многие смеются над тем, как некоторые пожилые люди и нерасторопные сотрудники учреждений не могут приспособиться к работе с компьютером. Но практика показывает, что можно быть известным ученым и при этом десятилетиями проигрывать битву с Excel. В прошлом году мы рассказывали о кругах «экселевского ада» для экономистов, генетиков и прочих жертв автоисправлений. Изменилось ли что-то с тех пор?

Autoincorrect

Прошло пять лет с публикации масштабной статьи о проблемах автокоррекции в программе Microsoft Excel, которая неумолимо превращает названия генов в формулы и даты. Но если с 2005 по 2015 год ошибки обнаружили в 987 работах (в 10 случаях это даже привело к ложноположительным результатам), в 2016 году Марк Зиманн и его коллеги из Института Бейкера в Мельбурне обнаружили уже 471 ошибку в статьях, опубликованных в топе ведущих журналов по генетике. Каждая пятая публикация содержала опечатки в названиях генов в таблицах Excel, приведенных в приложении.

Усугубляет ситуацию то, что ученые часто полагаются на опубликованные ранее данные о генах и последовательностях — а это значит, что ошибки продолжат свою жизнь в новых и новых работах. Список журналов — лидеров по числу опечаток возглавили вполне солидные издания, как Nature Communications, eLife, PLoS Genetics и Scientific Reports. Правда, это необязательно значит, что там публикуются самые невнимательные авторы, а проверяют их самые ленивые редакторы. По мнению Зиманна, переименования автокорректа можно отлавливать вручную. Но чем больше таблица, тем легче их не заметить, а на страницы топовых научных журналов все же чаще попадают результаты масштабных исследований, чем, например, описания отдельных клинических случаев.

Что в имени тебе моем?

Проблема стоит настолько остро, что 27 генов с аббревиатурами вроде SEPT4 (которая изменялась на четвертое сентября) или MARCH1 (исправляющаяся на первое марта) пришлось переименовать. Комитет по номенклатуре генов был не в восторге, ведь это вносило дополнительную путаницу для ученых, но сдался, не дождавшись решения проблемы от Excel. Однако победить экселевский беспредел эти меры пока не помогают. Тот же Зиманн, но уже работающий в Университете Дикина (Австралия), проверил 11 тысяч статей по генетике, опубликованных с 2014 по 2020 год, и нашел опечатки почти в каждой третьей. «Ошибки в названиях генов: уроки не выучены» — так исследователи озаглавили статью.

Если в 2016 году до 20% статей содержали переименованные автокорректом гены в таблицах, то в 2020 году их доля достигла 30,9%

Элспет Брафорд, координатор Комитета по номенклатуре генов, считает, что пока нововведения просто не успели сказаться на научной литературе. «Распространение новых названий займет годы», — уверена она. Именно поэтому Комитет рекомендует ученым сверяться с последними обновлениями в базах данных, а журналам — просить авторов делать это перед публикацией.

Некоторые исследователи пошли дальше и превратили поиск ошибок и опечаток во вторую работу. Дженнифер Бирн днем работает онкологом в Детской больнице в Вестмиде. Когда на город опускается ночь, она выходит в PubMed и начинает охоту на генетические статьи с ошибками. В большинстве таких публикаций встречаются также куски скопированного из других статей текста или некачественно выполненные графики. По ее словам, авторов некоторых статей можно заподозрить в умышленном искажении данных, но доказать это пока не удалось. На плохое качество публикаций в научных журналах жалуются многие исследователи, но мало кто из них согласится тратить так много времени на поиск чужих ошибок. Благодаря работе Бирн удалось отозвать девять статей (на 2017 год). «Раньше я думала, что в науке главное — деньги и мозги. Но есть компонент, о котором легко забыть и который слишком часто принимают как должное, — доверие», — говорит она.

Ориол Пюрди из Сиднейского университета согласна, что произвол автокорректа может повлиять на результат исследования, включающего обработку больших массивов генетических данных. Однако, по ее мнению, такие опечатки чаще всего встречаются в публикациях новичков. Она двадцать лет проработала с микропанелями генов и данными транскрипции, так что знает, что переименования неизбежны, и каждый раз старается проверить их. Если в таблице названия генов изменяются, они больше не распознаются программным обеспечением для анализа генных сетей. По опыту Пюрди, программы «скажут вам, что вы потеряли кучу генов», но каких — придется разбираться самостоятельно. Но когда база данных насчитывает десятки тысяч генов, сравнивать списки вручную становится невозможно.

«Это одна из тех вещей, с которой приходится просто смириться»

Простой совет для тех, кто продолжает работать с генами в этой программе, — во время проверки сортировать гены по алфавиту. В этом случае названия, превращенные в даты или цифры, окажутся наверху и сразу привлекут внимание. «Это одна из тех вещей, с которой приходится просто смириться», — вздыхает Ориол Пюрди, за двадцать лет выучившая все выкрутасы Excel. Она предлагает добавлять апострофы к наименованиям, к которым автоисправления особенно неравнодушны, и проводить переформатирование таблиц перед публикацией.

Если проверять все значения не получается, Зиманн рекомендует вовсе отказаться от экселевских таблиц. Некоторые программы, например бесплатные LibreOffice и Gnumeric, не грозят генетикам автоисправлениями, но в них очень тяжело что-либо проверить. «Если там есть проблема, вам не будет очевидно, где она случилась», — комментирует он. Эти программы не запоминают все шаги и изменения, которые вы внесли.

Некоторые исследователи, работающие в области вычислительной биологии, осваивают языки программирования, например Python или R. Это решение радикальное, но действенное: придется учиться писать код, зато работать с большими данными станет удобнее, автокоррект аббревиатур в названиях генов вам будет не страшен, а последовательность шагов позволит увидеть источник ошибок.

А вот ждать, что компьютерный гигант пойдет навстречу ученым, пока не приходится. «Мы представляем маленький контингент пользователей по сравнению с общим числом пользователей Excel», — поясняет Брафорд. И действительно, Microsoft никогда не обещал, что будет что-то изменять для одних только генетиков.


Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.