Лидия Пивоварова ([info]l_i_d_y_a) wrote,
@ 2009-06-24 22:00:00
Previous Entry  Add to memories!  Tell a Friend  Next Entry
Entry tags:цитата

до слез
Не следовало бы думать, что от составителя частотного словаря не требуется высокая лингвистическая квалификация: напротив, именно частотный словарь довольно жестко тестирует компетентность составителя, в чем нетрудно убедиться, пролистав любой такой словарь. Составителю желательно также приобрести некоторый практический опыт на подготовительной стадии, без которой затруднительна какая-либо рационализация работы; потребуются и такие свойства, как внимательность, усидчивость, терпеливость, умение быстро ориентироваться в возможном изменении условий наблюдения и, главное, убежденность в смысле и полезности своих трудов.

П.М. Алексеев "Частотные словари"





(25 comments) - (Post a new comment)


[info]olesar
2009-06-24 07:39 pm UTC (link)
Издеваешься, да?

(Reply to this) (Thread)


[info]l_i_d_y_a
2009-06-24 09:01 pm UTC (link)
Отчасти.

(Reply to this) (Parent)


[info]life_maker
2009-06-24 07:56 pm UTC (link)
Это действительно так?

(Reply to this) (Thread)


[info]l_i_d_y_a
2009-06-24 09:13 pm UTC (link)
Вы про убежденность или про квалификацию?

Квалификация действительно нужна - бог живет в деталях - сделать абы какой словарь легко, сделать хороший сложно.
С другой стороны, в книге довольно много внимания уделяется расписыванию текстов на карточках и тому подобным методикам...

Насчет убежденности даже не знаю, что сказать :)

(Reply to this) (Parent)(Thread)


[info]life_maker
2009-06-24 10:05 pm UTC (link)
Эх, жаль, нет соответствующей квалификации. Есть только подростковые мечты :)

(Reply to this) (Parent)


[info]fat_crocodile
2009-06-24 08:17 pm UTC (link)
честный человек, уважаю

(Reply to this) (Thread)


[info]l_i_d_y_a
2009-06-24 09:06 pm UTC (link)
Там вся книга такая. Например, про определение объема выборки:
Есть желание и "социальный заказ", необходимость которого обществом (точнее разного уровня управленческими структурами), правда, еще не осознана. Но есть вера и желание. Объем выборки тогда диктуется тем, сколько времени можно продержаться на энтузиазме и бескорыстии составителей.
Скажи, прелесть?

(Reply to this) (Parent)(Thread)


[info]fat_crocodile
2009-06-24 09:21 pm UTC (link)
Ага.

Слушай, а в чём сложность с этими словарями? У меня есть ощущение, что это очень просто автоматизируется. Можно по корпусу, можно по Яндексу...

(Reply to this) (Parent)(Thread)


[info]l_i_d_y_a
2009-06-24 09:38 pm UTC (link)
Ну вот, теперь я как единственный человек, прочитавший это пособие, буду отдуваться за все лингвистическое сообщество :)

То что просто автоматизируется, получатся довольно грубым. А тут есть тонкие филологические вопросы: что считать словом? что считать одним словом, а что разными? как подбирать выборку, на основе которой строится словарь? какие частоты считать значимыми, а какие уже нет? и если по твоим текстам такое-то слово встречается с такой-то вероятностью, то что это говорит о языке в целом?

На последнем (и предпоследнем) "Диалоге" довольно много обсуждался вопрос о том, можно ли использовать Яндекс как инструмент лингвиста. В принципе можно (и используется), но тут есть много НО:
1. Яндекс обращается со словами без лишних церемоний (иначе не мог бы обрабатывать большие массивы текстов)
2. Выборка Яндекса - это не есть русский язык и даже не весь язык Рунета
3. Яндекс в принципе не нацелен на то, чтобы по запросам можно было строить достоверную статистику - потому что от достоверной статистики недалеко до поискового спама.
Короче, когда лингвисты начинают возмущаться, что Яндекс им по некоторым запросам выдает какие-то не такие ответы или что он сотую страницу в выдаче не показывает - это немного странно выглядит. Яндекс ведь не инструмент лингвиста.

А создание корпуса - это само по себе ого-го задача. Его и подобрать надо, и разметить потом - в этом случае частотный словарь это только вершина айсберга.


(Reply to this) (Parent)(Thread)


[info]fat_crocodile
2009-06-24 09:55 pm UTC (link)
Да, про слова понятно, хотя в голову приходят только разные омонимы. В предложении "Света не было" нужно посчитать слово "свет", а не имя "Света". А если "Света не пришла", то уже имя.

---

Моя бессовестная сестра при написании курсовой цинично пользовалась Гуглом :) Правда, я точно не знаю, для каких именно целей.

Как-будто каким-то способом можно получить "русский язык" :))

Ну, количество ссылок вроде даёт? Это, конечно, грубая оценка, но там не менее.

Для более точной можно позвонить в Яндекс и сказать, что я молодой исследователь, а можно в вашей базе покопаться? :) Вполне возможно что разрешат.

Эээ, так корпус же есть уже?

(Reply to this) (Parent)(Thread)


[info]l_i_d_y_a
2009-06-24 10:03 pm UTC (link)
Дасть-то они, может, и дадут, но что это будет за коллекция? Как собранная, по каким критериям?
Потом, база Яндекса - это язык Рунета. Я есть еще язык писателя, например, или язык научных публикаций (сейчас ты меня отправишь в e-library и библиотеку Машкова). На все случаи корпусов пока не настроили пока. А те, которые есть, еще не полностью размечены.

Хотя ты, конечно, прав, в последнее время все процессы сильно упростились и ускорились. Я вот использую коллекцию РОМИП.

(Reply to this) (Parent)


[info]fregimus
2009-06-25 03:50 am UTC (link)
Была такая печальная история с автоматическим лемматизатором. Согласно сосавленному частотному словарю, самое частое существительное в корпусе оказалось, извиняюсь за галлицизм, «кака». Причем употреблялось оно исключительно в род. п. мн. ч.

(Reply to this) (Parent)(Thread)


[info]l_i_d_y_a
2009-06-25 05:52 am UTC (link)
хи-хи-хи

А у нас частотным получается имя "Иза" (тоже в р.п. мн. ч.), и еще глагол "длить" в форме деепричастия.

(Reply to this) (Parent)(Thread)


[info]fregimus
2009-06-25 07:03 am UTC (link)
Ох да, там еще твор. ед. был…

…Я батарею, дорогая редакция…

(Reply to this) (Parent)(Thread)


[info]fat_crocodile
2009-06-25 09:54 am UTC (link)
Ага, понял, всё было как и должно.

(Reply to this) (Parent)


[info]fat_crocodile
2009-06-25 09:52 am UTC (link)
да мы тут все галлы, чего там.

а как же "кАкая" (деепричастие) и "кАкой" (тв. падеж, если память не изменяет)?

Пример отличный, спасибо. Примерно то, о чём я думал, но гораздо более разрушительно.

(Reply to this) (Parent)


(Anonymous)
2009-06-24 09:03 pm UTC (link)
а что бы в данном контексте значило "умение быстро ориентироваться в возможном изменении условий наблюдения"? звучит интригующе
нб

(Reply to this) (Thread)


[info]l_i_d_y_a
2009-06-24 09:19 pm UTC (link)
Теряюсь в догадках. Писали-писали на карточках, а тут вдруг компьютер в лабораторию завезли? Или деньги по гранту на половине словаря закончились?

(Reply to this) (Parent)(Thread)


[info]sir_vant
2009-06-24 09:27 pm UTC (link)
А я думал, что, например, в условиях кризиса слово "кризис" не считать, типа.

(Reply to this) (Parent)(Thread)


[info]l_i_d_y_a
2009-06-24 09:39 pm UTC (link)
Если на клетке слона увидишь надпись "буйвол"...

(Reply to this) (Parent)


[info]kudesnikxpehob
2009-06-24 10:24 pm UTC (link)
Смысл и полезность есть, и еще какие! Одно только собирание шишек по ночам чего стоит... Так что не отчаивайся - то, что ты делаешь, весьма и весьма нужно.

(Reply to this) (Thread)


[info]l_i_d_y_a
2009-06-24 10:42 pm UTC (link)
Тебе уже и про шишки доложили? Не думаю, что это имеет прямое отношение к частотным словарям.
Но все равно, спасибо за поддержку!

(Reply to this) (Parent)(Thread)


[info]kudesnikxpehob
2009-06-24 11:05 pm UTC (link)
Так а я сразу же и узнал, даже переживал, что ты ночью одна хрен знает где гуляешь.
Мне кажется, что от сбора шишек частота словаря должна сильно увеличиться.

(Reply to this) (Parent)(Thread)


[info]l_i_d_y_a
2009-06-24 11:28 pm UTC (link)
Я тоже переживала: вот найдут утром мой хладный труп, а рядом авоська с шишками. Нелепость какая-то получается...
А вообще там кроме меня и не было никого.

Словари в первом приближении построила, спокойной ночи!

(Reply to this) (Parent)(Thread)


[info]sir_vant
2009-06-25 06:09 am UTC (link)
ага, хладный труп со словарем куда практичнее...

(Reply to this) (Parent)


(25 comments) - (Post a new comment)

Create an Account
Forgot your login or password?
Login w/ OpenID
English • Español • Deutsch • Русский…