Номер 12(69)  декабрь 2015 года
Эдуард Бормашенко

Эдуард Бормашенко Лишь только записав результаты…

בס''ד

Я расскажу об удивительном научном наблюдении, настолько странном, противоречащем интуиции и здравому смыслу, что хочется объявить его в лучшем случае курьезом, а в худшем, досужим вымыслом околонаучных ротозеев, любящих порассуждать о неопознанных летающих половниках и целительных свойствах живой воды, заряженной Аланом Чумаком. А между тем, это наблюдение приводит к очень глубоким и далеко идущим результатам, как научным, так и гносеологическим. Речь пойдет о Законе Бенфорда.

История эта давняя. Саймон Ньюком, работая с таблицами логарифмов (нынешнее студенты, слава Б-гу, незнакомы с этим литературным памятником; его похоронил карманный калькулятор), заметил в 1881 году, что страницы таблиц, содержащие логарифмы чисел, начинающихся с единицы, куда более засалены и истрепаны, нежели иные страницы таблиц. И далее по нисходящей. А страницы, на которых разместились логарифмы, стартующие с «девятки» и вообще чистеньки, как новенькие. Другой прошел бы мимо этого странного наблюдения, не задержав дыхания; другой, но не Саймон Ньюком. Саймон Ньюком, был личностью, более чем замечательной. Автодидакт, он оставил заметный след в астрономии, экономике, статистике, измерил скорость света с непостижимой для его времени точностью, писал фантастические романы.

И мимо своего странного закона истрепанности таблиц логарифмов Саймон Ньюком без внимания не прошел. Тысячу раз прав Александр Воронель, когда говорит, что ремесло ученого требует наблюдательности и изобретательности. Так вот, я полагаю, что наблюдательность даже и важнее. Ньюком формулирует следующее утверждение: в списке случайных статистических данных, вероятность того, что первой цифрой окажется единица составляет приблизительно 30 %, а не ожидаемые 11 % (ноль не в счет, без нуля цифр в десятичной системе – девять, так что, если вероятности попадания цифр на первую позицию равны – то они составляют примерно 11%) [1].

От этого заявления на версту тянет безумием. Ну, чем единица лучше двойки или семерки? А ничем. Посему следует ожидать равной вероятности появления цифр десятичной системы на первой позиции.

Как и многие другие хорошие вещи, наблюдение Ньюкома было забыто на полста лет, и переоткрыто в 1938 г. американским физиком и статистиком Фрэнком Бенфордом, исследовавшим со старомодной научной скрупулезностью полоумный набор статистических данных, включавших высоты американских небоскребов, площади озер, физические константы и биржевые сводки. Бенфорд показал, что наблюдение Ньюкома выполняется с неожиданной точностью: единица упорно лезет на первое место, вытесняя другие цифры десятичной нотации[2]. С тех пор, этот закон именуется законом Бенфорда, что вообще говоря, несправедливо. В военные годы было не до Бенфорда, потом все гонялись за бомбами и спутниками, но вот совсем уж недавно, интерес к закону Бенфорда, неожиданно возродился.

А дело было так: один дошлый аудитор проверял бесконечные налоговые отчеты громадной американской компании, и учуял в них нюхом бухгалтерской ищейки неладное, фальсификации. Аудитор славно учился в Университете, и, зная о существовании закона Бенфорда, проверил представленные ему таблицы данных, и установил, что первые цифры в колонках распределены равномерно. С этого момента аудитор не сомневался – отчет фальсифицирован. Жулики, по невежеству своему, разумно предположили, что распределение первых цифр должно быть равномерным.

Скандал был большой. Фирма требовала привлечь аудитора к ответственности, ведь закон Бенфорда – эмпирическое наблюдение, не более того, никем не обоснованное и недоказанное. Аудиторская фирма резонно отвечала, фальсификации никак не связаны со справедливостью закона Бенфорда, он лишь помог их выявить.

С тех пор закон Бенфорда был успешно применен для выявления подделок на выборах в Иране, в отчетах Греции Евросоюзу, изрядно усложнив жизнь жуликам и прохиндеям. А, между тем, строго математически закон Бенфорда остается недоказанным, хотя многие большие математики серьезно брались за дело[3]. Экспериментаторы тоже засучили рукава и обнаружили, что закон Бенфорда выполняется в статистических данных о популяционной динамике народонаселения, данных о закупках через eBay, мощности пульсаров, генетической информации [4-10].

Мы с супругой недавно не поленились показать, что закон работает в инфракрасных спектрах полимеров [11]. Заметим, что, разумеется, закон Бенфорда работает не всегда. В телефонном справочнике вы его не обнаружите.

Как же обосновать это странное наблюдение? Где его корни? Разные гипотезы выдвигались математиками и физиками. Но вот недавно мой коллега профессор Геннадий Вайман показал прелюбопытную вещь – закон Бенфорда отражает свойства десятичной позиционной системы счисления (в позиционной системе значение цифры напрямую зависит от ее положения в числе)[12]. Я не буду забивать мозги читателей тонкостями и деталями доказательства. Для меня важнее философский урок, следующий из работы Ваймана.

Допустим, я записываю на листик текущие биржевые сводки. Предположим, эти данные совершенно хаотичны, неупорядочены. Но записывая их, я, не задумываясь, прибегаю к заученной с детства десятичной системе счисления. И записанные мною данные, уже не вполне хаотичны. В них будет выполняться закон Бенфорда, навязанный позиционной системой; единица с вероятностью в 30 % , расталкивая остальные цифры, полезет на первое место. Из хаоса данных рождается порядок. Упорядочение возникает от самого факта применения позиционной нотации. Записанные в ней биржевые котировки уже не вполне хаотичны, в записи наличествует порядок, продиктованный системой счисления (она может быть и не десятичной).

Квантовая механика уже приучила нас к тому, что сам факт измерения меняет поведение физической системы. Закон Бенфорда учит, вдобавок, вот чему: лишь только записав результаты измерений в позиционной системе исчисления, мы уже их упорядочиваем. Перед нами не курьез, а небанальное наблюдение, осмысление которого ведет довольно далеко.

Напрашивается вопрос: а почему из всех систем исчисления выжили только позиционные, вроде бы, изобретенные вавилонянами; ведь были в истории и иные системы – непозиционные, например, хорошо нам известная – римская? Быть может, потому что позиционные системы обеспечивают минимальное усилие необходимое для осмысления численных данных, они, попросту, наиболее удобны. Но это, разумеется, – чистая спекуляция.

Источники

[1] S. Newcomb, Note on the frequency of use of different digits in natural numbers, Am. J. Math. 4 (1881) 39-40.

[2] F. Benford, The law of anomalous numbers, Proc. Am. Phil. Soc. 78 (1938) 551-572.

[3] A. Berger, T.P. Hill, Benford’s law strikes back: no simple explanation in sight for mathematical gem, The Math. Intelligencer 33 (2011) 85-91.

[4] J-C. Pain, Benford’s law and complex atomic spectra, Phys. Rev. E 77 (2008) 012102.

[5] T.A. Mir, The law of the leading digits and the world religions, Physica A 391 (2012) 792-798.

[6] M. Sambridge, Benford’s law in the natural sciences, Geo. Phys. Res. Lett. A 37 (2010) L22301.

[7] J.L. Friar, T. Goldman, J. Pérez-Mercader, Genome sizes and the Benford distribution, Plosone 7 (2012) e36624.

[8] J.L. Hernandez Caceres, First digit distribution in some biological data sets. Possible explanations for departures from Benford’s Law, El. J. Biomed. 1(2008) 27–35.

[9] L. Shao, B.Q. Ma, Empirical mantissa distributions of pulsars, Astrop. Phys. 33 (2010) 255–262.

[10] D. E. Giles, Benford's law and naturally occurring prices in certain ebaY auctions, Applied Economics Lett. 14 (2007) 157-161.

[11] Ed. Bormashenko, Ye. Bormashenko, et al., Benford's Law, its applicability and breakdown in the IR spectra of polymers, Physica A, 444 (2016) 524-529.

[12] G. Whyman, E. Shulzinger, E. Bormashenko, Intuitive considerations clarifying the origin and applicability of the Benford law, 2015, ArXiv: 1510.07220.


К началу страницы К оглавлению номера
Всего понравилось:4
Всего посещений: 2154




Convert this page - http://7iskusstv.com/2015/Nomer12/Bormashenko1.php - to PDF file

Комментарии:

Соломоник Абрам
Иерусалим, Израиль - at 2015-12-18 14:33:57 EDT

Благодаря Эдуарду мы регулярно получаем качественные и интересные статьи.

Все верно, я за собой замечал, что в хаотических наборах цифр перво-наперво разыскиваю единицу, да и потом иду по порядку счисления. Например. решая судоку, мы имеем дело с девятью цифрами, которые нам надо поставить на нужные места. Я регулярно начинаю отслеживать сначала места, подходящие для единицы, и далее по порядку. Так происходит не все время, птому что пустые клетки заполняются и подсказывают мне иные способы решения задач. но поначалу всегда начинаю с единицы.

Почему? Думается, по привычке - мне все равно с чего начать, и я выбираю первую цифру ряда, так как с детства играл в считалочку - "Раз, два, три..." и другие игры. Статья подвела итог нашим привычкам начинать считать с первой цифры числового ряда. Так что. это скорее психологический закон, впоследствии подтвержденный математически.

Еще раз поздравляю автора с хорошей статьей.

Бормашенко -Марку Цайгеру
Ариэль, Израиль - at 2015-12-16 11:57:03 EDT
Уважаемый Марк, закон Бенфорда появляется в статистических данных, содержащих числа, в каждом из которых одинаковое число цифр.
Марк Цайгер
Беэр Шева, Израиль - at 2015-12-16 11:17:52 EDT
Хочу отметить что равновероятность любой цифры в случайных числах должна существовать для чисел одинаковой длины. Например, телефонные номера имеют одинаковую длину, вот и там не действует закон Бенфорда. А когда в сравнение попадают числа разной длины, то здесь не следует ожидать равновероятности разных цифр.
Элиэзер
- at 2015-12-16 01:14:10 EDT
Марк Зайцев
- at 2015-12-15 11:57:11 EDT
Элиэзер
- 2015-12-15 05:46:38(292)
Равновероятность всех цифр при выборке, включающей все цифры (от 1 до 999)

На эту неточность можно было бы не обратить внимания, как на нелепую опечатку, но в контексте обсуждаемой статьи существенно не путать цифры (в десятичной системе от 0 до 9) и числа.


Комментатор прав, но в контексте нормальной цивильности можно было бы понять, что это именно и есть "нелепая опечатка", которая никого не не заставит ложно понять.

Соплеменник - Марку Зайцеву
- at 2015-12-16 00:57:50 EDT
Прошу почтенного Элиэзера не обижаться и не видеть в этом замечании попытку оскорбить и унизить уважаемого кандидата технических наук.
=================
Очки не нужны, чтобы увидеть в этой фразе очередную подначку. Зачем?

А.Бархавин
- at 2015-12-16 00:42:16 EDT
Соплеменник - А.Бархавину
- at 2015-12-14 06:59:42 EDT
"Таблицы Брадиса тогда и навсегда. Без них, как белить без купороса"
-------
Да хоть Брадиса, хоть Бронштейн с Семендяевым - один карандаш в руках, другим заложены таблицы где алгоритмы, и мне (да и не только мне) проще было результат по ним же обратным ходом, чем дергаться лишний раз на другие страницы. А кто был Брадисом тех таблиц, которые натолкнули Ньюкома на закон, и были ль среди тех таблиц антилогарифмы - это отдельный вопрос, и честно говоря не очень интересный. Интересно то, что даже если, как я считаю, страницы с единицами были более затрепаны чисто по причине неравномерности логарифмической шкалы, это натолкнуло Ньюкома на нечто более фундаментальное.
ххххххххх

M. Nosonovsky
Milwaukee, WI, USA - at 2015-12-15 01:36:16 EDT
"В римской системе счисления аналогичный закон вне всякого сомнения тоже будет"
---------------------
Это - вряд ли. В десятичной, а также в любой другой позиционной системе счисления, при любом ограничении чисел сверху, начинаться с единицы будет по крайней мере не меньшее количество раз, чем с любой другой цифры. В римской системе из первых тысячи чисел девятьсот начинается с цифры "С", означающей сто.
хххххххххххххх

M Nosonovsky
"USA - at 2015-12-15 08:03:02 EDT
Использование десятичной системы здесь, по-моему, ничего не добавляет, никакой новой информации. Распределение естественного процесса будет тем же самым, если вы воспользуетесь вместо цифр палочками или зарубками, или аналоговой формой записи"
--------------------
Десятичной в принципе не добавляет - добавляет то, что система должна быть позиционной. И кстати, чем меньше основание системы, тем сильнее этот закон проявляется. В двоичной системе - ВСЕ ЧИСЛА НАЧИНАЮТСЯ С "1":)
Если б мы пользовались системой с оцнованием 100 - возможно, закон до сих пор не был бы открыт.
А вот в аналоговой - не совсем понятно, о каком распределении можно здесь говорить применительно к закону, который в принципе относится к числовой записи.

Марк Зайцев
- at 2015-12-15 11:57:11 EDT
Элиэзер
- 2015-12-15 05:46:38(292)
Равновероятность всех цифр при выборке, включающей все цифры (от 1 до 999)


На эту неточность можно было бы не обратить внимания, как на нелепую опечатку, но в контексте обсуждаемой статьи существенно не путать цифры (в десятичной системе от 0 до 9) и числа. Прошу почтенного Элиэзера не обижаться и не видеть в этом замечании попытку оскорбить и унизить уважаемого кандидата технических наук.

ЛЛЛ
- at 2015-12-15 08:34:41 EDT
Этими вопросами занимался известный математик и философ Юлий Анатольевич Шрейдер (покойный). См. например http://www.kudrinbi.ru/public/441/index.htm
Бормашенко - Носоновскому, Рабиновичу
Ариэль, Израиль - at 2015-12-15 08:27:01 EDT
Дорогие друзья, обратите, пожалуйста, внимание на следующие обстоятельства:
1. Недавно очень сильный итальянский теоретик Пьетронеро показал, что закон Бенфорда ожидаем в системах, где наличествует скейлинговая инвариантность. Возьмем биржевые сводки. Если они приведены так, что в качестве денежной единицы взят доллар,и Бенфордово распределение присутствует, то оно будет присутствовать также, если мы приведем все данные в фунтах стерлингов.
2. Недавно показано (Маниным и Пьетронеро) родство занона Бенфорда и лингвистического закона Ципфа.
Так что, скрыты здесь вещи глубокие. Сегодня я склонен думать, что возможно, у Бенфордова распределения несколько причин (запись результатов в позиционной системе исчисления, скейлинговая инвариантность физических и экономических систем), действующих в одном направлении. Но важно следующее: порядок из хаоса возникает по причинам совсем неожиданным и непредвиденным.

Бормашенко - Дынину
Ариэль, Израиль - at 2015-12-15 08:06:30 EDT
Борис, Вы недалеки от истины, в лингвистике присутствует близкий родственник закона Бенфорда - закон Ципфа (посмотрите хоть в Википедии, там дельная статья). Непросто показать, но это было недавно сделано, что законы Бенфорда и Ципфа имеют общие корни. Невероятно, но закон Ципфа действует во всех языках, почти без исключений (вне зависимости от языковой группы).
M Nosonovsky
USA - at 2015-12-15 08:03:02 EDT
Закон не действует, например, для номеров телефонов, когда выделено "круглое" число номеров, скажем, от 1000000 до 9999999. А число домов ограничено случайной, не "круглой" величиной... В Квинсе номера домов образуются из номера пересекающей улицы плюс номер дома. Скажем, мы жили когда-то между 120 и 121 улицей, номер дома был 12023. Ваш знакомый, наверно, живет в Кью-Гарденсе в районе 80х авеню, поэтому и номер дома с восьмерки...

З-н Бенфорда позволяет (иногда) отличить фальсификацию от реальных данных явки на выборы, потому что реальная явка - случайный процесс с определенным распределением. А фальсификатор, имитируя данные, неосознанно пользуется каким-то своим распределением. Например, рисует круглые цифры, оканчивающиеся на "0". Или, наоборот, избегает круглых цифр, чтобы его не заподозрили. Поэтому статистические тесты часто дают возможность отличить "естественный" процесс от фальсифицированного, и з-н Бенфорда (для второй цифры)- один из многих таких тестов.

Использование десятичной системы здесь, по-моему, ничего не добавляет, никакой новой информации. Распределение естественного процесса будет тем же самым, если вы воспользуетесь вместо цифр палочками или зарубками, или аналоговой формой записи. А вот на фальсификацию или на процесс не вполне естественный использование десятичной системы может влиять. Скажем, если в типографии заказали миллион избирательных бюллетений, этот факт никак не влияет на статистику реальной явки, но может влиять на статистику "вброса бюллетений" фальсификаторами.

Элиэзер
- at 2015-12-15 05:46:38 EDT
P.S. Вообще это закон, как мне кажется, - результат попытки применить статистику там, где она не вполне относится к делу. Равновероятность всех цифр при выборке, включающей все цифры (от 1 до 999) - определенность.
Если же цифры априорно выбираются неравномерно, например, от 1 до 200, то и ожидать равновероятности не приходится.

Элиэзер
- at 2015-12-15 05:36:56 EDT
Очень интересно, но все равно странно: для больших чисел, скажем от 1 до 999 закон не действует, и все цифры равновероятны, так? Но поскольку в жизни малые числа превалируют, например, вряд ли может быть тысяча домов на улице, то происходит искажение в пользу малых чисел. Но и то не всегда: у моих друзей, живущих на маленькой улочке в Квинсе с примерно сотней домов, номера 4-значные и начинаются с 8 - закон о преимуществе единицы перестает быть применимым. Понятно с таблицами логарифмов, как указал Алекс Бархавин: они расширяют область применения малых чисел.
M. Nosonovsky
- at 2015-12-15 01:42:18 EDT
PS. Пожалуй, точнее сказать, что все цифры представлены равновероятно, если на улице 99 домов, а не сто. А если сто или тысяча, то почти равновероятно.
M. Nosonovsky
Milwaukee, WI, USA - at 2015-12-15 01:36:16 EDT
Я никогда серьезно з-ном Бенфорда не интересовался, но мне казалось, что он связан с простой вещью. Если у вас есть, например, номера домов на улице, то этих номеров конечное количество. Если на вашей улице, скажем, сто домов, то все цифры представлены с равной вероятностью. А если 200, то c единички начинается больше половины номерoв (номера с 100 по 199 и еще 1 и с 10 по 19). Если триста, то единичка тоже over-represented (больше чем треть). И если четыреста, единица все еще over-represented, больше чем четверть. Вот если ровно тысяча, то опять все равномерно. А если две тысячи, то снова единичка в больше половине случаев (с 1000 по 1999 и с 100 по 199 и еще 10 по 19 и 1). И так далее. Ну а поскольку редко бывает ровно сто или ровно тысяча домов, то вместо идеального равномерного распределения мы имеем з-н Бенфорда... В римской системе счисления аналогичный закон вне всякого сомнения тоже будет.
Бормашенко Бархавину
Ариэль, Израиль - at 2015-12-14 09:54:43 EDT
Вы совершенно правы, закон Бенфорда имеет место в любой позиционной системе исчисления.
Эд.

Соплеменник - А.Бархавину
- at 2015-12-14 06:59:42 EDT
А. Бархавин
- 2015-12-14 05:02:26(153)
...(даже если таблица антилогарифмов под руками была, ее использовали редко)...
===
Таблицы Брадиса тогда и навсегда. Без них, как белить без купороса.

А. Бархавин
- at 2015-12-14 05:02:25 EDT
С таблицами логарифмов вполне понятно - это следствие неравномерности логарифмической шкалы. Логарифм единицы - 0. десятичный логарифм двойки - 0.3. Допустим вы используете таблицу для умножения, и результат определяете по этой же таблице (даже если таблица антилогарифмов под руками была, ее использовали редко). Если результат - число случайное, с вероятностью 30% (а не 11%) его логарифм найдете на странице логарифмов, стартующей с единицы (с вероятностью 18% - с двойки, 13% - с тройки, 4.5% - с девятки).

Преимуществом позиционных систем счисления является ограниченный набор символов (начиная с двух), которым можно записать любое число. С усложнением данных другие системы, требующие расширения набора символов с ростом чисел с которыми приходится иметь дело, неизбежно проигрывали позиционным.

Десятичная система счисления не имеет преимуществ (кроме традиционности) по сравнению с другими позиционными. С развитием вычислительной техники стали применяться позиционные системы счисления с основанием, равным степени двойки (восьмиричная, шестнадцатиричная), поскольку бинарные логические элементы и бинарные элементы памяти проще, надежнее и реализуются более экономично. Будь люди четырехпалыми, развитие вычислительной техники пошло бы несколько быстрее.

И что-то мне трудно себе представить, что закон Бенфорда имеет место только в десятичной, а не во всех позиционных системах счисления

Б.Тененбаум
- at 2015-12-14 02:43:55 EDT
Какая поразительная история !

P.S. Мелочь, не стоящая внимания, но цепляющая глаз - "автодидакт". Зачем, когда вроде бы есть "самоучка" ?

Борис Дынин - Э. Бормашенко
- at 2015-12-14 00:31:14 EDT
"Допустим я записываю на листик текущие биржевые сводки.
Предположим, эти данные совершенно хаотичны, неупорядочены."


Эдуард, Вы допускаете, что я записываю эти неупорядочные данные как они поступают ко мне,
не прибегая ни к какому отбору, и это моя запсись упорядоивает их согласно закону Бетфорда,
или этот закон начал проявляться уже в самом потоке поступающих (неупорядоченных!) данных?

_Ðåêëàìà_




Яндекс цитирования


//