Политика

Патриоты России


uzver 15-04-2008 17:02
вот вам кстати для повышения культурного уровня:
http://www.langu.ru/post2443.html http://news.tipok.ru/news-123359-pagenum-1.html http://www.krugosvet.ru/articles/82/1008267/1008267a2.htm

http://ambidexter.livejournal.com/4666.html?mode=reply

--------------------
Во вторник к нам в универ приезжал представитель Google Дмитрий Гензель с докладом о машинных переводах. Я вообще Google уважаю, и за поисковую систему, и за спутниковые карты мира, и за YouTube (хоть изначально он и не принадлежал этой корпорации). А теперь ещё бОльшим уважением к ним прониклась, за сервис Google Translate. Не раз пользовалась ссылкой <Translate this page> при прогулках по японским или немецким сайтам, но думала, что там движок ПРОМТа или аналогичного переводчика. А оказывается, Гугловцы разработали свой подход к переводу. Классический способ основан на лингвистике, т. е. разборе предложений на слова и нахождении грамматических связей, а Google Translate использует статистический метод. Системе <скармливаются> миллионы текстовых пар, допустим, статьи на русском и соответствующие им английские переводы. Проведя анализ, система узнаёт, что слово <что> в (условно) 50% случаев переводится как <what>, а в 35% - как <that>; что после слов <в лесу родилась> с вероятностью 99% последует <ёлочка> и т. д. Когда база знаний разбухнет до нужного уровня, система сумеет самостоятельно генерировать английский эквивалент вводимых русских текстов.
Прикол весь в том, что текстовые пары берутся прямо из Интернета: с новостных сайтов, из Википедии и т. п., - а значит, ошибки неизбежны. Со стороны слушателей тут же последовали вопросы, связанные с <албанским> языком и прочим сленгом: студентов интересовало, не начнёт ли система при таком подходе к пополнению базы знаний переводить <author> как <аффтар>, учитывая частоту встречаемости этого слова в Рунете =D Некоторых интересовало и обратное: как система справится со всякими <tnx>, <plz>, <cul8r> и прочими сокращениями. Гензель заверил, что <аффтары> и <газенвагены> не сильно повлияют на систему, поскольку ситуаций, когда один и тот же текст существует в албанском и английском варианте, практически не встречается ))

Вернувшись домой, проверила, знает ли их переводчик албанский. Оказалось, знает. <Фтопку> перевёл как <This sucks>, <аффтар жжот> - <the author is cool>, <падонак> - <bastard>. Порадовало, что <Превед> у него - <Whazzup>.
Вспомнилась сценка из <Очень страшного кино>, где подростки орут в телефонную трубку: <Whassuuup!> - <Whassuuuuup!!!>. В дубляже (кстати, довольно неплохого качества) было <Чувааак!> - <Чувааааак!!!>. Если бы переводили сейчас, можно было бы использовать вариант <Превееед!> - <Превееееед!!!>, но в 2000-м году про <Превед-медведа> ещё не знали =D
Правильно Гензель подметил, сленг надо переводить сленгом.
// А мат - матом, об этом ещё Гоблин говорил. Кстати, с русским матом Google Translate знаком =)
--------------------


San Sanych 15-04-2008 17:05
quote:
Originally posted by Дядя Степа:
Долорес Алексеевна ну это вообще ...

Это как? Долорес всёж-таки имя не английское


votyak 15-04-2008 17:11
всё ведь саморегулируется.
напишет какой-нть МАНАГЕР на своём "современном" языке какое-нть письмо деловым партнёрам. а директор партнёров вдруг окажется на 25 лет старше и скажет своим манагерам: нах этих! найдите мне других!
сдаётся мне, что нынешние проблемы русского языка- временные. обусловленные проходящей сейчас в россии эпохой перемен
uzver 15-04-2008 18:38
дык да..
орфографический анализ должен ему так и сказать "тебя поймёт 35% носителей" и с разбивкой по возрасту/полу и т.п...
если авффтар видит что скорее всего его корреспондент его не поймёт, он не будь дурак поменяет на то что надо

но ведь реальна и другая ситуация
когда деловой партнёр на 25 лет младше.. и уже отвык от слова "отнюдь"
лично встречал людей которые не знают слов "оселок", "вихотка", "варнак"
а ведь это часть моей речи..

а при желании можно и на конкретного корреспондента spell-checker заточить..
если появится возможность каким то образом достоверно именно его корпус текстов из сети собрать (ну и то что он читает)

уже есть программы позволяющие вносить стилистические особеннести в текст, так что вот вот

edit log


usual_user 15-04-2008 22:37
А не проще использовать какой-то усреднённый стиль, чем под каждого подстраиваться?
uzver 15-04-2008 22:52
а как же выделиться из сонма конкурентов?
всякому приятнее и проще общаться с тем кто не на усреднённо-отстранённом с тобой говорит а на близком тебе языке

чистый бизнес, ничего личного..
смотрите фильм "чего хотят жегщины" помоему..

в этом смысл маркетинга и продвижения - словосочетание "уникальное товарное предложение" вам о чём нибуь говорит?

банки с каким то пойлом с этикетками на албанском я уже где то в айкае у нас видел..


votyak 16-04-2008 12:13
правильнее было бы писать "Олбанский" ))))
KoT Behemoth 16-04-2008 13:07
правильно вообще - "олбанскей".
Rashid 16-04-2008 16:06
меня ужасно злит когда люди вместо "продления (действия) договора", говорят "пролонгация договора" ... ну что за тупизм ...
даже я татарин и то возмущен

есть куча иностранных слов которые (почему-то) заменили обещедоступные и понятные русские слова, и ничем их, в смысловом плане, не превосходят.


uzver 16-04-2008 16:10
так пишут только люди которые просрачивают догвора если не просрачивать то и пролонгировать не придётся

Rashid 16-04-2008 16:16
о точно: просрачивать, обилечивать - обалденные глаголы ...
golova 16-04-2008 16:41
просрачивать обалденнее однако
Bibulus 16-04-2008 22:02
Сегодня почитал хорошую книжку по истории русского криминального жаргона. Интересная штука, с научной точки зрения. Которая, кстати, гораздо сильнее повлияла на русский литературный, чем всякие там компьютерные жаргоны. Действительно не так уж мало словечек и выражений из этого арго вошло в нынешний литературный русский язык: "грязные деньги", "отмывание денег", "заниматься любовью", "тусовка", про "беспредел" и прочее и говорить нечего.
Однако, что интересно, несмотря на мощную криминальную встряску нашей страны в XX в. серьезно этот жаргон на литературный язык так и не повлиял. Специально взял томик с прозой Лермонтова и перечитал. Вполне, знаете ли современный такой у Михал Юриьича язык.

2 uzver. Кстати, достопочтенный, не могли бы вы пояснить, что именно вы подразумеваете под выражением "классическая лингвистика"? Я так понимаю, что вы под этим выражением имеете в виду отнюдь не лингвистические учения младограмматиков, не учение о языке Августа Шлейхера, не теорию языка де Соссюра, а что-то более современное. Вы чего имеете в виду: социолингвистику? психолингвистику? социальную диалектологию? или что-то другое? Поясните, пожалуйста.


votyak 16-04-2008 22:56
фото по теме

click for enlarge 640 X 480 46,5 Kb picture
тот факт, что "официальный сайт раздолбаев Екатеринбурга" содержит это фото в разделе "смешные картинки" под заголовком "маразмы", свидетельствует о том, что даже раздолбаи не считают нормальным заменять ТУАЛЕТ на WЦ. лишний Ь, возможно, прошёл незамеченным у них...)))

edit log


uzver 18-04-2008 07:38
2 uzver. Кстати, достопочтенный, не могли бы вы пояснить, что именно вы подразумеваете под выражением "классическая лингвистика"? Я так понимаю, что вы под этим выражением имеете в виду отнюдь не лингвистические учения младограмматиков, не учение о языке Августа Шлейхера, не теорию языка де Соссюра, а что-то более современное. Вы чего имеете в виду: социолингвистику? психолингвистику? социальную диалектологию? или что-то другое? Поясните, пожалуйста.

Под классической лингвистикой в данном я понимаю попытку описания языка при помощи какого то обозримого человеком и фиксированного набора правил (аналитический метод определения функции)

А под "статистическим" - тупо метод табличного опредления (таблица значений, в нашем случе так называемый "корпус текстов" - http://www.philology.ru/linguistics2/plungyan-05.htm
) с апроксимацией промежуточных вариантов вероятностными методами - http://nlp.stanford.edu/courses/lsa354/.

Т.е. результат такой что правил нормальных (которые легли бы на компьютерныю программа) лингвисты так и не построили, и все попытки "ваш язык не удовлетворяет нашим правилам" уже просто напросто смешны (не говоря о том что детей пытаются этим правилам учить 10 лет, вместо того чтобы тупо зубрить частные случаи)

В качестве примера приведу одно исследование IBM более чем 10 летней давности. Был у них исследовательский проект по распознаванию текстов на естественном английском языке. Сначала пытались они работать с "классическими" лингвистами, которые сочиняли им "правила языка" сочиняли лет 8-м, уже около тысячи правил напридумывали вместе с исключениями, а результат распознавания всё равно поганый был. После этого в команду пришёл математик, и за год накропал программу которая строит сама автоматически правила (вероятностные) на корпусе синтаксически размеченных текстов (т.е. в которых условно говоря проведён синтаксический анализ). Вот результат его годовой работы превзошёл по эффективности работу этих лингвистов (программа более эффективная получинась, около 70% текстов правильно распознаёт)

Специально взял томик с прозой Лермонтова и перечитал. Вполне, знаете ли современный такой у Михал Юриьича язык.

смотрим в книгу видим фигу..
а "скрЫпит" кто писал ? Пушкин?


uzver 18-04-2008 07:49
вот цитата из одной моей вышеприведённой ссылки (пишет лингвист):

---------------------------------
Выше мне уже приходилось говорить, что одна из наиболее интересных задач, которую можно решать именно с помощью Корпуса, - это наблюдения за динамикой развития языка. Поскольку тексты, входящие в корпус, датированы, то нетрудно проследить за хронологией постепенных языковых изменений - за появлением или постепенным угасанием определенных слов, конструкций или грамматических форм (типа <второго родительного> падежа).
Это вызывает к жизни фактически новое направление - своего рода <микроисторическую> лингвистику, в центре внимания которой находятся не глобальные изменения в истории языка, а изменения менее масштабные, занимающие десятилетия (для истории языка это чрезвычайно маленький срок). Нельзя сказать, что такие исследования раньше не проводились вовсе (напротив, их очень любил, например, один из классиков отечественной филологии академик В. В. Виноградов), но с появлением корпусов их объем и эффективность, по моему личному мнению, должны стремительно возрасти.
Что же говорит нам Корпус о современном состоянии русского языка? Опуская специальные подробности, можно заметить следующее.
С точки зрения истории русского языка, нынешний период является чрезвычайно важным и интересным. Это - период языкового сдвига, может быть - языкового слома. Вообще в истории языка периоды относительной стабильности всегда чередуются с периодами относительно быстрых и глубоких изменений. Можно полагать, что русский язык вплотную приблизился к такому состоянию, и вероятность больших изменений в его структуре в ближайшем будущем весьма велика.
Об этом косвенно свидетельствует то, что предыдущие столетия в целом можно охарактеризовать как относительно стабильные. Последний <неспокойный> период для русского языка - это XVII-XVIII века, когда после Петровских реформ в язык хлынул поток европейских заимствований, старославянский язык был значительно потеснен в письменном узусе и завершился переход от среднерусской системы к ранней современной русской.
Нынешнюю историческую эпоху часто сравнивают именно с этим временем. Резкий слом привычных социальных условий. Изменение самого статуса литературного языка. Стилистический, жанровый (и даже орфографический, совсем как в те времена!) разнобой. Поток заимствований (в нынешней ситуации - в основном английских). Какими же могут быть результаты? Не следует ли говорить, что в начале XXI века складывается новая языковая система, по отношению к которой нынешняя будет называться как-нибудь вроде <поздний среднерусский> или <поздний классический период>?
Конечно, сейчас такие прогнозы делать рано, но изменения в самом строе русского языка весьма вероятны. Если более 200 лет с языком <почти ничего> не происходило, то критический потенциал изменений возрастает. Нужен лишь внешний толчок, катализатор.
Интересно, что резких изменений в русском языке многие ожидали в начале XX века, после революции. И, действительно, ситуация начала 1920-х тоже во многом напоминала нынешнюю. Но тогда эти ожидания не оправдались: русский язык пережил социальные потрясения сравнительно безболезненно. Глубинные пласты языковой системы почти не были затронуты изменениями. Если вдуматься, это факт и удивительный, и в то же время закономерный: советское общество очень быстро - через 10-15 лет после революции - позиционировало себя как общество закрытое, жестко регламентирующее все сферы жизни (в том числе и письменный язык!) и при этом консервативное. Такая политика очень эффективно <заморозила> ростки языковых изменений, которые могли бы уже в то время дать весьма непредсказуемые побеги. В результате современный русский язык гораздо ближе стоит к языку начала XX века, чем, например, современный французский, стремительные изменения которого ничем (кроме обычных общекультурных механизмов современного государства) не сдерживались. Но вторая попытка - после новой революции - может оказаться более действенной.
Из конкретных вещей нужно отметить, что, как всегда, лексика и фонетика идут впереди. Лексический состав русского языка сейчас меняется стремительно как никогда: иноязычные заимствования, сленг, внутренние изменения значений слов (вспомним, что теперь на самом деле значат такие слова, как напрягать или грузить) - всё это делает свою ежедневную муравьиную работу. Меняется и произношение: значительно ускорился темп речи, проглатываются интервокальные согласные (<хоит> вместо ходит, <буиш> вместо будешь - и даже <поинл> с особым <гнусавым> призвуком вместо понял). Почти не слышны безударные гласные на конце слова.
Рано или поздно это должно сказаться на слабых зонах русской грамматической системы. Грамматика пока держится. Я думаю, наиболее уязвимо в русском языке склонение. Тексты Корпуса показывают заметный рост - особенно в устной речи - именительного падежа во всех позициях. Так, числительные уже практически перестали склоняться (совсем не трудно услышать что-нибудь вроде остался без триста двадцать пять тысяч рублей). На наших глазах лишаются форм склонения и географические названия типа Бородино: в повседневной речи фактически единственным вариантом становится рядом с Бородино, живу в Бородино и т. п. Не желают склоняться, что характерно, и новые заимствования, а заимствования никогда не подчиняются тем законам, которые в самом принимающем языке действуют слабо. Ждет ли русский язык судьба болгарского - потерявшего все падежи, функции которых взяли на себя предлоги, - конечно, ни один серьезный специалист предсказывать не берется. Но <что-то может произойти>.
Теперь у нас есть Корпус. Так что получить ответ, может быть, будет проще.
---------------------------------


Bibulus 18-04-2008 13:58
2 uzver
Спасибо за столь обстоятельный ответ.
По поводу вашего последнего длинного поста могу заметить, что никто и не утверждает, что литературный (и уж тем более народно-разговорный язык) совсем не меняется. Меняется, конечно. Однако, по сути своей литературный язык должен быть более консервативным и устойчивым, нежели народно-разговорный, просторечие и разные социолекты. Именно в силу своей устойчивости, стабильности литературный язык был и остается центральной формой существования любого национального языка.

По поводу вашей байки о математике, который научил машину распознавать английский текст могу сказать вот чего. Во-первых, результат в 70 % как-то не очень впечатляет, хотя я допускаю, что сегодня этот процент увеличился. Во-вторых, речь ведь идет об английском языке, с его убогонькой кастрированной грамматикой. Вот взялся бы этот парень написать что-то подобное по русскому языку или латыни, например, результат был бы сильно иной. В-третьих, обчные лингвисты действительно вряд ли были в состоянии написать такую программу, ибо не умеют "разговривать" с машиной.

А ваш пример со словом "скрЫпит" меня здорово порадовал. Он, наверное многое в вашей позиции объясняет. Вы, что всерьез считаете это большим отличием от современного языка?
Удачи вам, почтенный.


uzver 18-04-2008 14:14
1. морфология определяется с точностью что то около 98% в ручную.. т.е. в 2% случаев два лингвиста не договорятся как правильно, а пр осинтаксис я уже не вспоминаю..

2. для русского языка более богатая морфология которую нужно учитывать при синтаксическом разборе (в отличие от английского где она практически отсутствует, зато порядок слов в предложении фиксированный), дык вот задача морфологического анализа русского языка решениа лет 12 как.
кароче я думаю что для русского те же алгоритмы что для английского можно применять за милую душу. правил будет больше, но это легко окупится мощностью современных ЭВМ

3. "скрЫпит" - просто наиболее памятный пример, там других отличий до фига.. а Лермонтов - всё равно классический падонок и тролль! Вёл нездоровый образ жизни, задирал всех, за что и поплатился!

Именно в силу своей устойчивости, стабильности литературный язык был и остается центральной формой существования любого национального языка.

был, но уже не остаётся
литературу учат по "кратким пересказам" - уже даже библию на язык СМС перевели
орфографию учат по Word-у - то что он считает правильным считают правильным и люди (а косяков вордовской орфограции с точки зрения классических лингвистов вагон и маленькая тележка, ну да поезд уже ушёл, сейчас это уже не косяки ворда а косяки самой лингвистики будут)

edit log


Karl 18-04-2008 16:04
quote:
Originally posted by votyak:
...даже раздолбаи не считают нормальным заменять ТУАЛЕТ на WЦ...

А что, "туалет" - это русское слово?

Моя бабушка, помню, говорила "уборная". Когда я спрашивал, что это такое, она отвечала - "отхожее место".


votyak 18-04-2008 16:14
уже русское )))
Karl 18-04-2008 16:22
quote:
Originally posted by votyak:
уже русское )))

Так и "даблюси" тоже станет )


votyak 18-04-2008 16:27
так пусть лет через 50 и лепят такую записку. может, тогда и звук "т" станет до того мягким, что "ь" узаконят...
Dr.AVtor 18-04-2008 22:39
Бедный дядя Стёпа. Нарвался на банду озверевших гуманитариев))
Caralho Voador 19-04-2008 20:57
копать надо глубже, долой "деньги", "диван", "сарай" - ибо тюркские

"Зоньтик" - ибо немецкое "зудекен", оно же накрывать, в основе (кстате превоначально было именно "зоньтик", а уже от него по русскойазыковым правелам сделалсо в псевдопервычное "зонт")

и т.д.


PS в английском есть слово "babushka". Обозначает нечто очень милое, но абсолютно бесполезное. В Голланском языке с Петровских времен сохранилось пара слов, одно из каторых глагол "пироварен" догадайтесь от какого русского слова.

edit log


Dr.AVtor 19-04-2008 23:40
Сделали из забавной политической провокации семинариум))