http://ambidexter.livejournal.com/4666.html?mode=reply
--------------------
Во вторник к нам в универ приезжал представитель Google Дмитрий Гензель с докладом о машинных переводах. Я вообще Google уважаю, и за поисковую систему, и за спутниковые карты мира, и за YouTube (хоть изначально он и не принадлежал этой корпорации). А теперь ещё бОльшим уважением к ним прониклась, за сервис Google Translate. Не раз пользовалась ссылкой <Translate this page> при прогулках по японским или немецким сайтам, но думала, что там движок ПРОМТа или аналогичного переводчика. А оказывается, Гугловцы разработали свой подход к переводу. Классический способ основан на лингвистике, т. е. разборе предложений на слова и нахождении грамматических связей, а Google Translate использует статистический метод. Системе <скармливаются> миллионы текстовых пар, допустим, статьи на русском и соответствующие им английские переводы. Проведя анализ, система узнаёт, что слово <что> в (условно) 50% случаев переводится как <what>, а в 35% - как <that>; что после слов <в лесу родилась> с вероятностью 99% последует <ёлочка> и т. д. Когда база знаний разбухнет до нужного уровня, система сумеет самостоятельно генерировать английский эквивалент вводимых русских текстов.
Прикол весь в том, что текстовые пары берутся прямо из Интернета: с новостных сайтов, из Википедии и т. п., - а значит, ошибки неизбежны. Со стороны слушателей тут же последовали вопросы, связанные с <албанским> языком и прочим сленгом: студентов интересовало, не начнёт ли система при таком подходе к пополнению базы знаний переводить <author> как <аффтар>, учитывая частоту встречаемости этого слова в Рунете =D Некоторых интересовало и обратное: как система справится со всякими <tnx>, <plz>, <cul8r> и прочими сокращениями. Гензель заверил, что <аффтары> и <газенвагены> не сильно повлияют на систему, поскольку ситуаций, когда один и тот же текст существует в албанском и английском варианте, практически не встречается ))
Вернувшись домой, проверила, знает ли их переводчик албанский. Оказалось, знает. <Фтопку> перевёл как <This sucks>, <аффтар жжот> - <the author is cool>, <падонак> - <bastard>. Порадовало, что <Превед> у него - <Whazzup>.
Вспомнилась сценка из <Очень страшного кино>, где подростки орут в телефонную трубку: <Whassuuup!> - <Whassuuuuup!!!>. В дубляже (кстати, довольно неплохого качества) было <Чувааак!> - <Чувааааак!!!>. Если бы переводили сейчас, можно было бы использовать вариант <Превееед!> - <Превееееед!!!>, но в 2000-м году про <Превед-медведа> ещё не знали =D
Правильно Гензель подметил, сленг надо переводить сленгом.
// А мат - матом, об этом ещё Гоблин говорил. Кстати, с русским матом Google Translate знаком =)
--------------------
quote:
Originally posted by Дядя Степа:
Долорес Алексеевна ну это вообще ...
Это как? Долорес всёж-таки имя не английское
и скажет своим манагерам: нах этих! найдите мне других!но ведь реальна и другая ситуация
когда деловой партнёр на 25 лет младше.. и уже отвык от слова "отнюдь"
лично встречал людей которые не знают слов "оселок", "вихотка", "варнак"
а ведь это часть моей речи..
а при желании можно и на конкретного корреспондента spell-checker заточить..
если появится возможность каким то образом достоверно именно его корпус текстов из сети собрать (ну и то что он читает)
уже есть программы позволяющие вносить стилистические особеннести в текст, так что вот вот
чистый бизнес, ничего личного..
смотрите фильм "чего хотят жегщины" помоему..
в этом смысл маркетинга и продвижения - словосочетание "уникальное товарное предложение" вам о чём нибуь говорит?
банки с каким то пойлом с этикетками на албанском я уже где то в айкае у нас видел..

есть куча иностранных слов которые (почему-то) заменили обещедоступные и понятные русские слова, и ничем их, в смысловом плане, не превосходят.
2 uzver. Кстати, достопочтенный, не могли бы вы пояснить, что именно вы подразумеваете под выражением "классическая лингвистика"? Я так понимаю, что вы под этим выражением имеете в виду отнюдь не лингвистические учения младограмматиков, не учение о языке Августа Шлейхера, не теорию языка де Соссюра, а что-то более современное. Вы чего имеете в виду: социолингвистику? психолингвистику? социальную диалектологию? или что-то другое? Поясните, пожалуйста.
тот факт, что "официальный сайт раздолбаев Екатеринбурга" содержит это фото в разделе "смешные картинки" под заголовком "маразмы", свидетельствует о том, что даже раздолбаи не считают нормальным заменять ТУАЛЕТ на WЦ. лишний Ь, возможно, прошёл незамеченным у них...)))
Под классической лингвистикой в данном я понимаю попытку описания языка при помощи какого то обозримого человеком и фиксированного набора правил (аналитический метод определения функции)
А под "статистическим" - тупо метод табличного опредления (таблица значений, в нашем случе так называемый "корпус текстов" - http://www.philology.ru/linguistics2/plungyan-05.htm
) с апроксимацией промежуточных вариантов вероятностными методами - http://nlp.stanford.edu/courses/lsa354/.
Т.е. результат такой что правил нормальных (которые легли бы на компьютерныю программа) лингвисты так и не построили, и все попытки "ваш язык не удовлетворяет нашим правилам" уже просто напросто смешны (не говоря о том что детей пытаются этим правилам учить 10 лет, вместо того чтобы тупо зубрить частные случаи)
В качестве примера приведу одно исследование IBM более чем 10 летней давности. Был у них исследовательский проект по распознаванию текстов на естественном английском языке. Сначала пытались они работать с "классическими" лингвистами, которые сочиняли им "правила языка" сочиняли лет 8-м, уже около тысячи правил напридумывали вместе с исключениями, а результат распознавания всё равно поганый был. После этого в команду пришёл математик, и за год накропал программу которая строит сама автоматически правила (вероятностные) на корпусе синтаксически размеченных текстов (т.е. в которых условно говоря проведён синтаксический анализ). Вот результат его годовой работы превзошёл по эффективности работу этих лингвистов (программа более эффективная получинась, около 70% текстов правильно распознаёт)
Специально взял томик с прозой Лермонтова и перечитал. Вполне, знаете ли современный такой у Михал Юриьича язык.
смотрим в книгу видим фигу..
а "скрЫпит" кто писал ? Пушкин?
---------------------------------
Выше мне уже приходилось говорить, что одна из наиболее интересных задач, которую можно решать именно с помощью Корпуса, - это наблюдения за динамикой развития языка. Поскольку тексты, входящие в корпус, датированы, то нетрудно проследить за хронологией постепенных языковых изменений - за появлением или постепенным угасанием определенных слов, конструкций или грамматических форм (типа <второго родительного> падежа).
Это вызывает к жизни фактически новое направление - своего рода <микроисторическую> лингвистику, в центре внимания которой находятся не глобальные изменения в истории языка, а изменения менее масштабные, занимающие десятилетия (для истории языка это чрезвычайно маленький срок). Нельзя сказать, что такие исследования раньше не проводились вовсе (напротив, их очень любил, например, один из классиков отечественной филологии академик В. В. Виноградов), но с появлением корпусов их объем и эффективность, по моему личному мнению, должны стремительно возрасти.
Что же говорит нам Корпус о современном состоянии русского языка? Опуская специальные подробности, можно заметить следующее.
С точки зрения истории русского языка, нынешний период является чрезвычайно важным и интересным. Это - период языкового сдвига, может быть - языкового слома. Вообще в истории языка периоды относительной стабильности всегда чередуются с периодами относительно быстрых и глубоких изменений. Можно полагать, что русский язык вплотную приблизился к такому состоянию, и вероятность больших изменений в его структуре в ближайшем будущем весьма велика.
Об этом косвенно свидетельствует то, что предыдущие столетия в целом можно охарактеризовать как относительно стабильные. Последний <неспокойный> период для русского языка - это XVII-XVIII века, когда после Петровских реформ в язык хлынул поток европейских заимствований, старославянский язык был значительно потеснен в письменном узусе и завершился переход от среднерусской системы к ранней современной русской.
Нынешнюю историческую эпоху часто сравнивают именно с этим временем. Резкий слом привычных социальных условий. Изменение самого статуса литературного языка. Стилистический, жанровый (и даже орфографический, совсем как в те времена!) разнобой. Поток заимствований (в нынешней ситуации - в основном английских). Какими же могут быть результаты? Не следует ли говорить, что в начале XXI века складывается новая языковая система, по отношению к которой нынешняя будет называться как-нибудь вроде <поздний среднерусский> или <поздний классический период>?
Конечно, сейчас такие прогнозы делать рано, но изменения в самом строе русского языка весьма вероятны. Если более 200 лет с языком <почти ничего> не происходило, то критический потенциал изменений возрастает. Нужен лишь внешний толчок, катализатор.
Интересно, что резких изменений в русском языке многие ожидали в начале XX века, после революции. И, действительно, ситуация начала 1920-х тоже во многом напоминала нынешнюю. Но тогда эти ожидания не оправдались: русский язык пережил социальные потрясения сравнительно безболезненно. Глубинные пласты языковой системы почти не были затронуты изменениями. Если вдуматься, это факт и удивительный, и в то же время закономерный: советское общество очень быстро - через 10-15 лет после революции - позиционировало себя как общество закрытое, жестко регламентирующее все сферы жизни (в том числе и письменный язык!) и при этом консервативное. Такая политика очень эффективно <заморозила> ростки языковых изменений, которые могли бы уже в то время дать весьма непредсказуемые побеги. В результате современный русский язык гораздо ближе стоит к языку начала XX века, чем, например, современный французский, стремительные изменения которого ничем (кроме обычных общекультурных механизмов современного государства) не сдерживались. Но вторая попытка - после новой революции - может оказаться более действенной.
Из конкретных вещей нужно отметить, что, как всегда, лексика и фонетика идут впереди. Лексический состав русского языка сейчас меняется стремительно как никогда: иноязычные заимствования, сленг, внутренние изменения значений слов (вспомним, что теперь на самом деле значат такие слова, как напрягать или грузить) - всё это делает свою ежедневную муравьиную работу. Меняется и произношение: значительно ускорился темп речи, проглатываются интервокальные согласные (<хоит> вместо ходит, <буиш> вместо будешь - и даже <поинл> с особым <гнусавым> призвуком вместо понял). Почти не слышны безударные гласные на конце слова.
Рано или поздно это должно сказаться на слабых зонах русской грамматической системы. Грамматика пока держится. Я думаю, наиболее уязвимо в русском языке склонение. Тексты Корпуса показывают заметный рост - особенно в устной речи - именительного падежа во всех позициях. Так, числительные уже практически перестали склоняться (совсем не трудно услышать что-нибудь вроде остался без триста двадцать пять тысяч рублей). На наших глазах лишаются форм склонения и географические названия типа Бородино: в повседневной речи фактически единственным вариантом становится рядом с Бородино, живу в Бородино и т. п. Не желают склоняться, что характерно, и новые заимствования, а заимствования никогда не подчиняются тем законам, которые в самом принимающем языке действуют слабо. Ждет ли русский язык судьба болгарского - потерявшего все падежи, функции которых взяли на себя предлоги, - конечно, ни один серьезный специалист предсказывать не берется. Но <что-то может произойти>.
Теперь у нас есть Корпус. Так что получить ответ, может быть, будет проще.
---------------------------------
По поводу вашей байки о математике, который научил машину распознавать английский текст могу сказать вот чего. Во-первых, результат в 70 % как-то не очень впечатляет, хотя я допускаю, что сегодня этот процент увеличился. Во-вторых, речь ведь идет об английском языке, с его убогонькой кастрированной грамматикой. Вот взялся бы этот парень написать что-то подобное по русскому языку или латыни, например, результат был бы сильно иной. В-третьих, обчные лингвисты действительно вряд ли были в состоянии написать такую программу, ибо не умеют "разговривать" с машиной.
А ваш пример со словом "скрЫпит" меня здорово порадовал. Он, наверное многое в вашей позиции объясняет. Вы, что всерьез считаете это большим отличием от современного языка?
Удачи вам, почтенный.
2. для русского языка более богатая морфология которую нужно учитывать при синтаксическом разборе (в отличие от английского где она практически отсутствует, зато порядок слов в предложении фиксированный), дык вот задача морфологического анализа русского языка решениа лет 12 как.
кароче я думаю что для русского те же алгоритмы что для английского можно применять за милую душу. правил будет больше, но это легко окупится мощностью современных ЭВМ
3. "скрЫпит" - просто наиболее памятный пример, там других отличий до фига.. а Лермонтов - всё равно классический падонок и тролль! Вёл нездоровый образ жизни, задирал всех, за что и поплатился!
Именно в силу своей устойчивости, стабильности литературный язык был и остается центральной формой существования любого национального языка.
был, но уже не остаётся
литературу учат по "кратким пересказам" - уже даже библию на язык СМС перевели
орфографию учат по Word-у - то что он считает правильным считают правильным и люди (а косяков вордовской орфограции с точки зрения классических лингвистов вагон и маленькая тележка, ну да поезд уже ушёл, сейчас это уже не косяки ворда а косяки самой лингвистики будут)
quote:
Originally posted by votyak:
...даже раздолбаи не считают нормальным заменять ТУАЛЕТ на WЦ...
А что, "туалет" - это русское слово?
Моя бабушка, помню, говорила "уборная". Когда я спрашивал, что это такое, она отвечала - "отхожее место".
quote:
Originally posted by votyak:
уже русское )))
Так и "даблюси" тоже станет )
"Зоньтик" - ибо немецкое "зудекен", оно же накрывать, в основе (кстате превоначально было именно "зоньтик", а уже от него по русскойазыковым правелам сделалсо в псевдопервычное "зонт")
и т.д.
PS в английском есть слово "babushka". Обозначает нечто очень милое, но абсолютно бесполезное. В Голланском языке с Петровских времен сохранилось пара слов, одно из каторых глагол "пироварен" догадайтесь от какого русского слова.