«Скатертью дорога» — что означает выражение и откуда оно пошло
Выражение «скатертью дорога» — один из старинных фразеологизмов, которые сохранились до наших дней еще со времен Древней Руси. Тогда это выражение имело совсем другой смысл: оно служило напутствием перед долгой дорогой.Путешествовать в старину было довольно трудно и опасно. Дороги часто размывало после сильных дождей и заметало снегом, а иногда путникам и вовсе приходилось преодолевать бездорожье. Также путешественник мог встретить разбойников или просто заблудиться. Поэтому, провожая близкого человека, ему говорили «скатертью дорога» — то есть желали легкого пути, без трудностей и опасностей, гладкого и ровного, как полотно, которым накрывали стол.
Скатерть славяне считали символом чистоты, порядка и благополучия. Праздничный стол застилали белым полотном, которое сначала отпаривали и разглаживали, чтобы на нем не было складок. В богатых семьях к празднику доставали шелковые скатерти — в старину их называли «камчатными». Отсюда произошел еще один вариант пожелания счастливого пути: «камчатной дороги», то есть гладкой и ровной, как шелк.
Со скатертью связан и еще один старинный русский обычай. В некоторых губерниях после сватовства невеста должна была потянуть за скатерть, которой был накрыт праздничный стол. Таким образом она символически «стелила дорожку» своим подругам и сестрам, чтобы те тоже вскоре благополучно вышли замуж.
Выражения, похожие по смыслу на русское «скатертью дорога», существовали и в других языках. Например, англичане желали путешественнику, чтобы «ветер всегда дул в спину», то есть был попутным.
Со временем значение фразы «скатертью дорога» изменилось. Ее все чаще стали употреблять в ироническом смысле, а вскоре она приобрела недоброжелательный оттенок. Выражением «скатертью дорога» человеку давали понять, что его никто не держит, что без него будет лучше. В таком смысле эта фраза вошла во многие произведения классической литературы. Например, Алексей Толстой писал в романе «Хождение по мукам»: «Я неплохо изучил русский язык, я знаю, ― когда говорят: «скатертью дорога», это значит: «убирайся ко всем чертям…»
В разговорном русском языке встречаются и другие фразеологизмы с похожим смыслом — например, «флаг тебе в руки», «вперед и с песней». Их часто употребляют не только в значении «уходи, убирайся с глаз долой», но и как ироническое побуждение к действию.
8 фраз, которые не запрещены, но ужасны
Продолжаем деликатно и ненавязчиво бороться с ошибками в устной речи. Сегодня на очереди фразы и слова, которые в общем-то не запрещены лингвистической полицией или кем-либо ещё, но очень уж раздражают слух. А чаще всего — они оказываются действительно неграмотными, да и вы выглядите такими, если их произносите.
Полезная рассылка «Мела» два раза в неделю: во вторник и пятницу
Правильно: последний раз
Начнём с крика души многих, в том числе кандидата филологических наук Марины Королёвой. Изначально употребление слова «крайний» было распространено среди людей, чья профессиональная деятельность связана с риском для жизни. Лётчики, подводники, альпинисты, космонавты — для них это своего рода профессиональный сленг. Они нарочито избегают словосочетаний с прилагательным «последний». Иначе, по их мнению, этот «последний раз» может взаправду стать последним. Вместо этого они говорят «крайний раз». Хорошо, можно их понять (и простить). Но в какой-то момент слово «крайний» ворвалось в повседневную жизнь, и употреблять его стали все кому не лень. «Крайний день в этом году» или легендарное в очереди «Кто крайний?»
Портал «Грамота.ру» называет ещё одну причину массового употребления «крайнего»: якобы прилагательное «последний» носит негативный оттенок, со значением «низший в ряду подобных, очень плохой». Филологи сходятся во мнении, что замена прилагательного «последний» на «крайний» — грубое нарушение норм русского языка. И мы с ними полностью согласны. Даже Дмитрий Медведев однажды призвал не использовать слово «крайний» в значении «последний»: «Не надо бояться слова „последний“. У нас какая-то странная филологическая тенденция пошла. Все только крайние. Последние — это нормально».
Безобидная с виду фраза «Я тебя услышал» способна вызвать раздражение со стороны того, кому она адресована. Вас услышали, поняли. И что? Дальше-то что? Неплохо, конечно, что ваш собеседник вас услышал, но что это значит? Фраза абсолютно бессмысленна, своего рода дежурный «кивок», когда сказать вроде как что-то нужно, но ещё не придумал что. Это даже хуже, чем аналогичное «я тебя понял». По мнению уже упомянутой Марины Королёвой, это калька с английского языка, где во время разговора нередко показывают свою заинтересованность фразой «Got it». Но культуры у нас всё-таки разные, и русскому человеку в бытовом общении требуется больше эмоциональной отдачи, например: «Ох, как я тебя понимаю!». Впечатление другое, и уже не кажется, что твой собеседник пытается от тебя отделаться. Дабы не испытывать терпение людей, очень рекомендуем так не говорить.
Правильно: я скучаю по тебе
Скучают люди очень по-разному: «скучают по вас», «скучают по вам» и «скучают за вами». Рассказываем, как делать это правильно. В современном русском языке считается, что «скучаю по вас» — старая норма. Хотя в том же справочнике Розенталя можно встретить замечание о том, что с существительными и местоимениями третьего лица верно говорить: скучать по кому/чему. А вот в первом и втором лице будет «скучать по ком»: по нас, по вас. Варианты до сих пор конкурируют, и в некоторых словарях рядом с фразой «скучаю по вас» стоит помета «устаревшее». В нашем случае — «скучать по тебе» — во всех падежах будет однозначно. Но что определённо грамотному человеку делать нельзя, так скучать за кем-то или за чем-то. Это скорее привет соседям с Украины, чей говор, так или иначе, можно встретить и в русском языке.
Правильно: давай решим
Глагол «порешать» действительно существует, но имеет определение «решать в течение какого-то времени». Допустим: порешать уравнение и бросить. Но всё чаще можно услышать «давай порешаем этот вопрос». Некоторые убеждены, что это обычный синоним «решить вопрос». Говорить так неправильно, и выражение, как нам кажется, относится к жаргонизмам. То же самое «расскажи мне за него» в значении «расскажи мне о нём». Чувствуете разницу? В культурном обществе такими фразами лучше не разбрасываться.
Правильно: одолжи мне денег
Уделим немного внимания стилистике. Думаем, ценители русского языка будут с нами солидарны: выражение «Займи мне денег» невозможно терпеть тем, кто знает, как правильно. А те, кто так говорят, искренне не понимают раздражения — ведь они так привыкли. Но избавляться от плохих привычек никогда не поздно. Если вы хотите попросить у кого-то дать взаймы, в долг, правильно будет сказать: «одолжи мне денег» или «можно занять у тебя денег?» Никак нельзя просить другого человека «занять» вам денег, поскольку «занять» — это, наоборот, взять взаймы. Иначе говоря, тем, кто просит «занять денег до зарплаты», вы точно ничего не должны.
Правильно: оплатить проезд
«Оплачивать за проезд» — ещё одна распространённая ошибка в речи. За проезд можно платить (или заплатить), а оплачивать только проезд — без всяких предлогов, так как по правилам переходному глаголу предлог не нужен. Член-корреспондент РАН Владимир Плунгян считает, что с точки зрения языка эти варианты равноправны, но норма говорит, что вариант «оплатить проезд» — всё-таки лучше. А значит правильнее.
Правильно: садитесь
Признайтесь, как часто вы слышали неуклюжее «присаживайтесь» в качестве предложения занять сидячее положение? Почему-то в речи возникло негласное правило, что нужно говорить исключительно «присаживайтесь» вместо «садитесь». Поскольку слово «садитесь» якобы ассоциируется с тюрьмой и криминальным миром. Однако глагол «присесть» на самом деле означает «опуститься на полусогнутых ногах» («присесть от неожиданности» или «присесть на корточки»), а также «сесть на что-либо куда-либо на короткое время» («присесть на дорожку»). Журналист, филолог Ольга Северская пишет: «Меня как будто предупреждают, что я здесь ненадолго… Да и потом, почему я должна „присаживаться“, примостившись на краешке стула? Почему бы мне не сесть поудобнее и обстоятельно того, к кому пришла по делу, обо всём меня интересующем расспросить?» Таким образом, замена глагола «садитесь» на «присаживайтесь» может быть, напротив, расценена собеседником как невежливое приглашение. Давайте запомним, что правильно говорить «садитесь, пожалуйста». И только так.
«Человечек», «печалька», «вкусняшки», «винишко», «днюшечка» — интернет-сленг, давно вышедший за пределы сети. Вот лингвист Максим Кронгауз замечает, что «интернет пошёл в массы, а массы пошли в интернет, и пришли девочки», которые любят использовать уменьшительно-ласкательные слова. Ещё одна причина распространения уменьшительных суффиксов — склонность к смягчению слов и своеобразный способ показать нашу доброту и вежливость. Дома и в окружении близких так выражаться не возбраняется, конечно, но вот на работе или где-то ещё экспериментировать не стоит. Литературный язык такие формы слов не приветствует.
13 фраз, которые никогда не стоит говорить на работе — Forbes Kazakhstan
«Каждое слово имеет значение, – говорит она. – Убеждать – значит правильно подбирать выражения. Настоящий лидер всегда находит верные слова, которые могут оказать влияние и попасть в цель независимо от аудитории, темы, контекста или формата дискуссии. Одно из качеств личности любого лидера – способность говорить так, чтобы удерживать внимание и убеждать. В речи многих руководителей часто проскальзывают несоответствующие их уровню слова и выражения. Говорящему эти фразы могут казаться безобидными, но для слушателя они могут нести совсем иной подтекст».
Вот 13 выражений, от использования которых стоит воздержаться на работе.
«Это нечестно!»
Кого-то повысили, а вас нет. Другого наградили, а вас нет. «В мире есть люди, которые голодают, в то время как у многих полно еды, – говорит Прайс. – И в мире, и на работе есть несправедливость. И независимо от того, идет ли речь о глобальной проблеме или конкретной ситуации, этой фразы стоит избегать хотя бы потому, что жалобы или нытье ничего не исправят. А вот активная позиция – вполне может». Выстройте аргументацию и изложите свою позицию человеку или группе людей, которые в состоянии вам помочь.
«Это не моя проблема», «Это не входит в мои обязанности» или «Мне за это не платят»
Как бы вы себя чувствовали, если бы вам так ответили на просьбу о помощи? Пренебрежительное, отстраненное и учитывающее только свои интересы отношение к общему делу быстро сводит на нет возможности для карьерного роста. «Это не значит, что нужно всегда соглашаться, но свою позицию нужно аргументировать и преподносить с уважением к собеседнику, – говорит Дарлин. – Например, так: «Я буду рад помочь. Учитывая, что мне сейчас еще нужно еще сделать А, Б и В, давайте решим, какую из этих задач я могу отложить, чтобы взяться за новое задание?» Такой ответ подчеркнет вашу способность работать в команде, но поставит его перед необходимостью реально оценивать свои ожидания».
«Я думаю, что…»
Что звучит убедительнее: «Я думаю, что наше сотрудничество может быть успешным» или же «Я уверен, что наше сотрудничество будет успешным»?
Разница в формулировках кажется небольшой, но для клиента очень важна степень уверенности, которую он слышит в ваших словах. Чтобы подчеркнуть важность и серьезность ваших слов, лучше заменять «думаю» на «уверен», а «может» – на «будет».
«Да не за что» или «Да не проблема»
На «спасибо» вежливо будет ответить «пожалуйста». «Такой ответ означает, что вам было приятно помочь и вы принимаете благодарность», – говорит Прайс. Хотя оброненные в разговоре «да не за что» или «не проблема» тоже могут это подразумевать, эти фразы не заменяют вежливого ответа. Так вы показываете, что, во-первых, благодарность не имеет для вас значения, а во-вторых, ваш вклад не так уж значителен.
«Я попробую»
«Представьте, что сегодня последний день подачи налоговых деклараций и вы попросили друга закинуть вашу декларацию в почтовый ящик до конца рабочего дня, – предлагает Прайс. – А он вам отвечает, что попробует успеть. Скорее всего, вы тут же решите сделать это сами». В разговоре, особенно с начальством, лучше заменять «попробую» на «сделаю». Эта, казалось бы, небольшая замена будет всерьез говорить в вашу пользу.
«Он идиот», «Да она вообще ничего не умеет», «Эта компания – полный отстой»
Если вы оскорбляете и обзываете других, это прямой путь к карьерному самоубийству. Как говорит Прайс, «вербальная агрессия не только говорит о подростковой незрелости, но и может стать причиной увольнения и других серьезных последствий». Если вас действительно не устраивают профессиональные качества и компетентность других людей или организаций, то поднимите этот вопрос тактично, с уважением и объективностью.
«Но мы же никогда так не делали»
«Эффективные лидеры ценят в сотрудниках творческий подход и способность находить неординарные, новые решения», – говорит Прайс. Одной такой фразой вы показываете, что вы этих ценных качеств лишены: вы застряли в прошлом, закрыты для перемен и не способны гибко мыслить.
«Это нереально»
Точно? Вы уверены, что обдумали все возможные варианты и исчерпали любые альтернативы? «Вы делаете ошибку, настаивая на самых негативных формулировках, – учит Прайс. – Ваши слова отражают пессимистичный, пассивный и даже безнадежный взгляд на проблему. Мало кто ценит такой подход к работе. Топ-менеджеры отмечают и продвигают тех, кто стремится сделать все возможное. Даже в самых мрачных обстоятельствах стоит сказать о том, как вы можете помочь, или принять участие в решение проблемы».
«Вам нужно было…» или «Вам следовало…»
Наверняка вы не обрадуетесь, услышав: «Нужно было не молчать, а сказать сразу!» или «Нужно было больше стараться!» «Чаще всего такие слова воспринимаются как попытка обвинить или пристыдить, – объясняет Прайс. – В идеале в работе нужно стремиться к сотрудничеству и уважительному отношению. Вместо того чтобы вызывать у людей чувство вины (даже если они виноваты), стоит попробовать более конструктивный подход». Можно сказать: «В следующий раз, чтобы не было накладок, сообщите мне сразу же» или «На будущее я вам рекомендую…»
«Народ» или «Ребята»
Оставьте такие обращения для неформальных ситуаций и не используйте их на работе. «Обращение «ребята» неприменимо, если присутствуют женщины. Кроме того, использование любого из этих слов для обозначения группы людей в профессиональном контексте – признак недостатка профессионализма», – объясняет Прайс. С коллегами, начальством и клиентами замените «народ» и «ребят» на «сотрудников», «команду».
«Возможно, я ошибаюсь, но…» или «Может, это и глупо, но…»
Такие обороты нивелируют важность всего, что говорится после них, и подрывают доверие к вашим суждениям. «Помните, что используемые вами слова отражают то, как вы оцениваете себя и собственные высказывания. Поэтому избегайте начинать предложение с любых фраз, которые снижают ваш авторитет или вызывают сомнения в ваших способностях».
«Вам так не кажется?» или «Ведь так?»
Такие уклончивые и осторожные выражения воспринимаются как желание подстраховаться и получить одобрение. Прайс говорит: «Так можно сказать, если вам действительно нужно поощрение или одобрение от собеседника. Но если вы хотите убедить других в своей точке зрения, то не нужно искать у них подтверждения ваших слов. Говорите уверенно и прямолинейно».
«У меня сейчас нет на это времени»
«Даже если это так, никому не нравится думать, что другие ваши дела важнее их просьбы», – говорит Прайс. Чтобы сохранить позитивный настрой и показать внимание к другим, лучше будет сказать: «Я готов это с вами обсудить, после того как закончатся мои встречи. Давайте я зайду к вам около двух».
Все фразы в этом списке встречаются достаточно часто, и избавиться от них бывает трудно. Чтобы научиться отслеживать их и искоренять в своей речи, вам могут пригодиться вот такие способы.
Включайте звукозаписывающее устройство, когда говорите по телефону на работе. «В конце дня по пути с работы внимательно прослушайте запись. Прозвучали ли в вашей речи слова и фразы из этого списка или другие выражения, которые воспринимаются как негативные или ограничивающие? Выпишите эти фразы в столбик, а рядом напишите варианты, которые могут более конструктивно выразить то, что вы хотели сказать», – предлагает Прайс. Положите этот список рядом с телефоном или компьютером и периодически его проглядывайте и дополняйте.
Обращайте внимание, когда эти фразы звучат в речи других. Если вы поймете, как негативно воспринимаются эти выражения, когда их говорят другие, то для вашего мозга это станет сигналом, чтобы более внимательно отслеживать ваши собственные слова.
Вы безграмотны от слова совсем! Или нет? Грамотны ли раздражающие фразы?
https://ria.ru/20201213/negramotno-1588684980.html
Вы безграмотны от слова совсем! Или нет? Грамотны ли раздражающие фразы?
Вы безграмотны от слова совсем! Или нет? Грамотны ли раздражающие фразы? — РИА Новости, 13.12.2020
Вы безграмотны от слова совсем! Или нет? Грамотны ли раздражающие фразы?
Почему не стоит желать “доброго времени суток”, как появилась фраза “от слова совсем”, и грамотно ли говорить “не суть важно”? Интернет многое стерпит – правда ли у коммуникации в сети особые речевые нормы? Какие фразы справедливо считают разговорными, а какие ошибочно окрестили неграмотными — разбираемся вместе с экспертами.
2020-12-13T12:00
2020-12-13T12:00
2020-12-13T12:00
как это по-русски
общество
интернет
история
рудн
государственный институт русского языка им. а.с. пушкина
подкаст
культура
/html/head/meta[@name=’og:title’]/@content
/html/head/meta[@name=’og:description’]/@content
https://cdnn21.img.ria.ru/images/07e4/0c/0a/1588684497_0:2:640:362_1920x0_80_0_0_bfd74ccf1d44d2ab0eaaeb54ab482c60.jpg
Вы безграмотны от слова совсем! Или нет? Грамотны ли раздражающие фразы?
Почему не стоит желать “доброго времени суток”, как появилась фраза “от слова совсем”, и грамотно ли говорить “не суть важно”? Интернет многое стерпит – правда ли у коммуникации в сети особые речевые нормы? Какие фразы справедливо считают разговорными, а какие ошибочно окрестили неграмотными — разбираемся вместе с экспертами.
audio/mpeg
Вы безграмотны от слова совсем! Или нет? Грамотны ли раздражающие фразы?
Почему не стоит желать “доброго времени суток”, как появилась фраза “от слова совсем”, и грамотно ли говорить “не суть важно”? Интернет многое стерпит – правда ли у коммуникации в сети особые речевые нормы? Какие фразы справедливо считают разговорными, а какие ошибочно окрестили неграмотными — разбираемся вместе с экспертами.
audio/mpeg
Эпизод подготовлен при участии руководителя Центре исследования медиакоммуникаций Государственного института русского языка им. А.С. Пушкина Андрея Владимировича Щербакова и кандидата филологических наук, доцента кафедры общего и русского языкознания филологического факультета РУДН Екатерины Михайловны Недопекиной.Слушайте подкасты РИА Новости и подписывайтесь на них в мобильных приложениях: для iPhone — iTunes, для Android — Google Podcasts. С любым устройством вы можете использовать Яндекс.Музыка, Castbox и Soundstream. Скачайте выбранное приложение и наберите в строке поиска «РИА Новости» или название подкаста.________Сценарий эпизода: Артем БуфтякГолоса эпизода: Наталия Шашина, Игорь Кривицкий, Артем БуфтякМонтаж Андрея ТемноваПомогите сделать подкасты РИА Новости ещё лучше. Пройдите опрос и расскажите о своих впечатленияхСпрашивайте нас, предлагайте нам, спорьте с нами: [email protected]Слушайте наши подкасты ВКонтакте, подписывайтесь на наш профиль в Инстаграме и канал в Яндекс.Дзене
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
2020
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
Новости
ru-RU
https://ria.ru/docs/about/copyright.html
https://xn--c1acbl2abdlkab1og.xn--p1ai/
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
https://cdnn21.img.ria.ru/images/07e4/0c/0a/1588684497_78:0:562:363_1920x0_80_0_0_245430bd4d306bcbd841c54c402bafb2.jpgРИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
РИА Новости
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
общество, интернет, история, рудн, государственный институт русского языка им. а.с. пушкина, подкаст, культура, аудио
Почему не стоит желать “доброго времени суток”, как появилась фраза “от слова совсем”, и грамотно ли говорить “не суть важно”? Интернет многое стерпит – правда ли у коммуникации в сети особые речевые нормы? Какие фразы справедливо считают разговорными, а какие ошибочно окрестили неграмотными — разбираемся вместе с экспертами.
«Не фонтан». Эксперт – о том, как появились крылатые фразы | ОБЩЕСТВО: Образование | ОБЩЕСТВО
Грудная жаба и полуметровые башмаки
«Жить на широкую ногу». В рождении этого сочетания слов повинна мода, которая возникла в Англии ещё в XII веке. На большом пальце правой ноги английского короля Генриха II Плантагенета появился уродливый нарост. Король никак не мог изменить форму обезображенной ноги. Поэтому он заказал себе башмаки с длинными, острыми, загнутыми кверху носками.
«Эффект оказался потрясающим, — рассказывает лингвист Лидия Медведева. — Уже на следующий день сапожников завалили заказами на «носатую» обувь. Каждый новый заказчик стремился перещеголять предыдущего. Король счёл за благо ограничить длину носков в законодательном порядке: обыкновенным гражданам разрешалось носить башмаки с носком не длиннее полуфута (15 сантиметров), рыцарям и баронам — в один фут (около 30 сантиметров), а графам — в два фута».
Размеры обуви стали, таким образом, свидетельством богатства и знатности. Про богатых людей заговорили: «Ишь, живёт на широкую ногу!». Чтобы огромные ботинки не сваливались, модникам приходилось набивать их сеном. Поэтому во Франции, которую эта мода тоже не миновала, родилось и другое выражение: «Иметь сено в башмаках». Оно также означает: «Жить в довольстве».
«Жаба душит». В российских медицинских словарях рядом с понятием стенокардия значится его устаревшее название — грудная жаба. Она сопровождается общей слабостью, потемнением в глазах, дискомфортом в области сердца давящего и сжимающего характера.
Раньше пациенты, испытывавшие подобную боль, описывая своё состояние, заявляли, будто у них на груди сидит огромная жаба, не позволяющая дышать в полную силу. А врачи невооружённым глазом могли заметить, что в виду кратковременного кислородного голодания их лица окрашивались в зеленовато-серые тона, напоминающие окрас бородавчатого земноводного.
Схожие признаки асфиксии проявляются при ангине, которую в старину называли «горловой жабой» и изображали в книгах в виде огромной жабы, расположившейся в горле простуженного человека. Действительно, воспалённые миндалины с белыми точками весьма напоминают раздутые щёки амфибии, которые затрудняют дыхание.
«Подобные симптомы волнения и лёгкого удушья присущи не только больным стенокардией и ангиной, но и человеку, переживающему стресс от нежелания расстаться с деньгами или иным имуществом в силу своей жадности», — говорит лингвист.
«Истина в вине». Это выражение из труда «Естественная история» древнеримского учёного Плиния Старшего произносят в значении: выпивший человек всегда говорит правду. Но полная её версия звучит так: «Истина в вине, а здоровье в воде». Вероятно, автор на самом деле призывает к здоровому образу жизни.
Шесть пар перчаток за день
«Сесть в калошу». Устойчивое выражение появилось ещё во времена Древней Руси, когда ради зрелищ и развлечения люди устраивали бои. Игры подобного рода проходили весной, когда кругом были лужи и грязь. Во время поединков нередко бойцы оказывались в луже — падали в неё.
«Дело в том, что фраза «сесть в лужу» — это более современный вариант фразеологизма, так как раньше лужи назывались калужами, поэтому в первоначальном варианте фраза произносилась как «сел в калужу», в прямом смысле она описывала человека, который, потерпев поражение, упал в лужу, — объясняет Лидия Медведева. — Со временем первоначальный вариант фразы претерпел некоторые изменения. В процессе ассимиляции слово «калужа» трансформировалась в «калошу» или «галошу».
«До свадьбы заживёт». Раньше больная жена никому не была нужна. После сватовства и осмотра приданого обычно назначалось самое ответственное действо. Невесту отводили в баню, и там уже будущая свекровь в сопровождении свахи или повивальной бабки осматривали её тайно. Малейшая болячка, царапинка, шрам и даже банальный насморк, не говоря уж о перенесённых переломах, становились серьёзным препятствием. Известны случаи, когда свадьба отменялась — невесту объявляли «бракованной». Именно поэтому невесту буквально держали под колпаком, а ушибы и царапинки старались залечить именно до свадьбы. Кстати, даже наличие ребёнка иногда считалось плюсом, своего рода печатью «годен», поскольку подтверждало, что с основной функцией жены — рожать детей — невеста уж точно справится.
«Менять как перчатки». Кто-то женихов меняет как перчатки, а кто-то — автомобили. Почему так говорят? В начале XIX века в Англии были сформулированы правила для «идеального джентльмена», согласно которым перчатки надо было менять шесть раз в день.
«Игра не стоит свеч». Дело, которое не оправдывает затраченных усилий, выражение из речи картёжников. Раньше играли в карты при свечах. Речь идёт об очень небольшом выигрыше, который не окупает стоимости свечей, сгоревших во время игры. Кстати «свеч» — устаревшая форма, сейчас правильно — свечей.
Туалетный налог и мальчик для битья
«Зайти на огонёк». В маленьких городах дореволюционной России был обычай приглашать в гости, ставя в окне высокую свечу. Если с улицы видно горящий на подоконнике огонёк, значит, хозяева дома будут рады гостям. Сейчас это выражение означает «прийти в гости без приглашения», а тогда огонь свечи именно приглашением и служил.
«Деньги не пахнут». Это крылатое выражение пришло к нам из древнего Рима. Фраза вполне могла прозвучать из уст бандита или хитроватого дельца, но на самом деле её произнес один римский император во время ссоры с сыном.
«Император Веспасиан в поисках дополнительных источников пополнения казны ввёл налог на общественные туалеты, — рассказывает лингвист. — А точнее сделал их платными, мотивируя это тем, что казна тратит деньги на очистку уборных. Когда его сын Тит выразил неудовольствие по поводу того, что Веспасиан ввёл такой «неприличный» налог, император произнёс фразу: «Деньги не пахнут». Вот как описывается эта история в книге Гая Светония Транквилла «Жизнь двенадцати Цезарей»: «Тит упрекал отца, что и нужники он обложил налогом; тот взял монету из первой прибыли, поднёс к его носу и спросил, воняет ли она. «Нет», — ответил Тит. «А ведь это деньги с мочи», — сказал Веспасиан».
Расчёт императора оказался верен — казна пополнилась новым доходом, а выражение «деньги не пахнут» со временем приобрело смысл, указывающий на не вполне чистый источник доходов.
«Без царя в голове». Этот устойчивый оборот произошёл от пословицы: «У каждого свой царь в голове», в которой царь — это ум и разум, а значит «без царя в голове» – это «без ума».
«Мальчик для битья». Мальчиками для битья в Англии и других европейских странах в XV-XVIII веках называли мальчиков, которые воспитывались вместе с принцами и получали телесные наказания за провинности принца. Эффективность такого метода была не хуже непосредственной порки виновника, так как принц не имел возможности играть с другими детьми, кроме мальчика, с которым у него устанавливалась очень сильная эмоциональная связь. Выражение стало крылатым и мальчиком для битья называют того, кого заставляют расплачиваться за чужую вину.
«Не фонтан». Фонтан — курорты с источниками под Одессой. Одно дело — чистая вода из источников. Другое дело — «не Фонтан»! То есть тоже вода, конечно, но не такая хорошая. В давние времена Одесса испытывала острую нехватку в хорошей питьевой воде. Лучшей в те времена считалась вода с Фонтана, как по сию пору называется один из районов города. Очень часто те, кто развозил питьевую воду в бочках, набирали её где придётся, но при этом рекламировали, что вода доставлена с самого Фонтана. Горожане, пробуя такую воду, качали головами и говорили: «Нет, это не Фонтан». С тех пор словосочетание «не Фонтан» вышло за пределы Одессы в значении чего-то неодобрительного, оставляющего желать лучшего.
25 любимых цитат из «Дня радио» — Попкорн
7 мая отмечается День радио, и мы не могли, конечно, не вспомнить по этому поводу великолепные спектакль и фильм «День радио». Мы любим их, знаем наизусть и собрали лучшие цитаты из обеих постановок. Была бы наша воля, мы бы процитировали вам вообще все!
- — Просматриваем ленты новостей за последние 15 минут, может быть, произошло что-то плохое. Это было бы хорошо!
- — Хорошо!.. Ген, шо ж так плохо-то?
- — Пацаны! По-моему, мы просрали нашу радиостанцию! Ой… Кажется, я не до конца еще…
- — Миша, ты зря Сашу остановил — он прав. Мы все за тебя. Но Саша — он прям за тебя-за тебя. Мне кажется, что он затебей, чем мы все, этот Саша…
- — Друзья! У нас две проблемы. Минобороны и пуговица. Пуговицу мы найти можем? Чисто теоретически? Можем. А с Минобороны… ничего. Вывод: ищем пуговицу.
- — Хорошо, когда у тебя есть какое-нибудь домашнее животное — кошка, собака… или там кролик… Вот у меня была морская свинка, я её кинул в воду, она и утонула… А чё она тогда морская?.. Обычная свинья!
- — Итак, на корабле находятся: семья жидкохвостых павианов, две скунсовидные коровы, африканская бородатая выхухоль, бразильский двузубый чернопопик, подкустовный выползень, редкая разновидность хорька — хорёк-паникёр, больше известный как хорёк-вонючка, карликовый бангладешский овцеконь, североамериканский волк-хохотун, ластоногая коза, небольшая стая клубневидных обезьян, рыба-маятник, рыба-мяч, североамериканский кролик-зануда, целый выводок американских одноразовых бабочек, и даже один гигантский саблезубый кузнечик.
***
- — Без истерик! Ты мамонт! Что ты здесь делаешь? Вы все уже вымерли давно.
- — Я выкрутился — теперь ваша очередь!
- — Они ж приносят потомство раз в десять лет. Причем иногда в такие места приносят, что сами уже отыскать не могут и, естественно, гибнут: сначала потомство гибнет от голода, а потом родители — от огорчения.
- — Я ей говорю: «Ну ты хоть встань с постели, яичницу по-человечески приготовь…
- — У Нонны был роман с Кареном? А я ничего не знал!
***
- — Господи, почему ты не дал этому человеку мозгов? Всё ушло в кучеряшки с носом!
- — А сколько мы будем обречены на станции пить этот убогий растворимый кофе? Есть же в природе нормальный, молотый, я слышал!
- — Потому что это жизнь, а её хрен поймешь, особенно в море!
- — Чернопопики… Выползни… Мне сорок лет, чем я занимаюсь?
- — У нас проблема! Нас плывут спасать!
***
- — Гуманизмом мальчики в детстве занимаются.
- — Я променял свой день на ночь, причем по очень херовому курсу.
- — А что, Слава тоже креативщик? А я думала, он нормальный мужик…
- — Что творится, что творится! В студию несут верёвочные лестницы, канаты, ходули! А-а-а-а! Это Алексей пытается добраться до микрофона.
- — Сегодня в Лос-Анджелесе впервые в истории разорился банк спермы. В главный офис банка уже выстроилась огромная очередь обманутых вкладчиков, которые требуют вернуть им назад их вклады.
- — Мы все умрем, эфир!
Нашли ошибку? Выделите фрагмент и нажмите Ctrl+Enter.
Откуда взялось выражение «сшито белыми нитками» — Российская газета
Шито белыми нитками. Так мы говорим о чем-то неловко скрытом, но не задумываемся, почему нитки в данном случае белые. А дело в том, что это выражение — точная калька с французского coudre avec du fil blanc. Ну и действительно, именно белыми или голубыми нитками портные наметывают скроенное для примерки.
Если, пытаясь что-то скрыть, мы говорим о шитье белыми нитками, то, выделяя нечто главное, основное, вспоминаем о другой нити — о красной. Так и говорим: это проходит красной нитью. Почему же здесь нить красная? Словарь русской фразеологии под редакцией В. Мокиенко предлагает следующую версию: выражение восходит к роману И.В. Гёте «Родственные натуры». Там речь идет о симпатиях героини, которые пронизывают ее дневник и сравниваются с красной нитью, которая вплеталась прежде в канаты английского флота. Ее невозможно было выдернуть иначе, как распустив весь остальной канат, и по самому маленькому обрывку можно было узнать, что он принадлежит английской короне.
Но не исключено, что корни выражения еще более ранние. Считается, что образ навеян Библией — такая нить в древности была своеобразной сакральной меткой.
Ностальгия
Может ли быть «ностальгия по советским временам» или «по шоколадным конфетам»? Когда возникают подобные вопросы, самое правильное — выяснить точное значение слова. В слове «ностальгия» никакой особой тайны нет. Почти все словари некогда давали однозначное толкование: ностальгия — тоска по родине. Слово это греческое, составленное из двух: nostos (возвращение домой) и algos (страдание). К нам «ностальгия» попала через немецкое посредство, как выражаются этимологи.
Слово «ностальгия» заменяет собою целое словосочетание, «тоска по родине». Однако в последнее время из слова «ностальгия» все чаще улетучивается этот второй компонент, «родина». И остается просто «тоска». Могут сказать — ностальгия по дому, ностальгия по советской эпохе. И эту тенденцию словари отметили! Так, Толковый словарь Шведовой определил ностальгию не только как тоску по родине, но и как тоску по прошлому вообще.
Происхождение «Ну-ну-ну. Что у нас здесь?»
Происхождение «Ну, ну, ну. Что у нас здесь?» — Обмен английским языком и использованием стекаСеть обмена стеков
Сеть Stack Exchange состоит из 178 сообществ вопросов и ответов, включая Stack Overflow, крупнейшее и пользующееся наибольшим доверием онлайн-сообщество, где разработчики могут учиться, делиться своими знаниями и строить свою карьеру.
Посетить Stack Exchange- 0
- +0
- Авторизоваться Подписаться
English Language & Usage Stack Exchange — это сайт вопросов и ответов для лингвистов, этимологов и серьезных энтузиастов английского языка.Регистрация займет всего минуту.
Зарегистрируйтесь, чтобы присоединиться к этому сообществуКто угодно может задать вопрос
Кто угодно может ответить
Лучшие ответы голосуются и поднимаются наверх
Спросил
Просмотрено 35к раз
Google не скажет мне, откуда эта фраза.Есть ли у Stack Exchange ответ?
Болезнь72366 серебряных знаков1919 бронзовых знаков
Создан 13 дек.
Samthebrandsamthebrand1,955 44 золотых знака1111 серебряных знаков2222 бронзовых знака
9Эта фраза использовалась и раньше, но, по данным Google Insights, мем, похоже, стал популярным в мае 2009 года.Синяя линия — это «что у нас здесь», а остальные — «[[хорошо] хорошо] хорошо, что у нас здесь»:
Карта на странице показывает, что интерес к фразе в основном из США.
Я думаю, что в мае 2009 года эта мотивационная пародия на плакат распространилась по Интернету:
MotiFake («ОРИГИНАЛЬНОЕ Сообщество демотивационного плаката») утверждает, что он был создан 28 августа 2008 года.
Создан 14 дек.
Хьюго64.1,977 золотых знаков
1«Ну-ну-ну. Что же у нас тут тогда?» Старая фраза, которую иногда использовали полицейские в Великобритании при обнаружении людей, участвующих в преступных действиях. Возведен в викторианскую эпоху.
Создан 07 мая ’12 в 17: 532012-05-07 17:53
СтивСтив7711 серебряный знак11 бронзовый знак
2ГАМЛЕТ, Акт 3 Сцена 1 — Шекспир
Я смиренно благодарю вас; так так так .
Создан 03 мая 2014, 07:52:26
Анон911 бронзовый знак
1Это из «Волшебника страны Оз» (1039), когда Злая Ведьма Запада загоняет Дороти в угол в ее замке.
Создан 09 дек.
2 Очень активный вопрос . Заработайте 10 репутации (не считая бонуса ассоциации), чтобы ответить на этот вопрос.Требование репутации помогает защитить этот вопрос от спама и отсутствия ответов.Не тот ответ, который вы ищете? Посмотрите другие вопросы с метками фраза-происхождение или задайте свой вопрос.
Обмен английскими языками и использованием стека лучше всего работает с включенным JavaScriptВаша конфиденциальность
Нажимая «Принять все файлы cookie», вы соглашаетесь с тем, что Stack Exchange может хранить файлы cookie на вашем устройстве и раскрывать информацию в соответствии с нашей Политикой в отношении файлов cookie.
Принимать все файлы cookie Настроить параметры
Определение и значение колодца | Словарь английского языка Коллинза
Примеры «хорошо» в предложении
скв.
Эти примеры были выбраны автоматически и могут содержать конфиденциальный контент.Подробнее… Сладкий, потому что оба тома хорошо говорят о старике.Times, Sunday Times (2016)
Он неплохо справлялся и часто благодарит меня за всю мою помощь и поддержку.The Sun (2016)
Есть команды, против которых вы просто хорошо справляетесь.The Sun (2016)
Тем не менее, он признает, что чувствует себя лучше подходящим для полузащиты.Times, Sunday Times (2016)
Будет ли в долгосрочной перспективе лучше новые?Солнце (2017)
Качество мужчин тоже выше.Times, Sunday Times (2017)
Сбрызните курицу оливковым маслом и хорошо приправьте.Times, Sunday Times (2016)
Мы все думаем, что, возможно, нам следовало сделать что-то лучше.Times, Sunday Times (2016)
В любом случае лучше всего держать бизнес и личную жизнь отдельно друг от друга.Солнце (2016)
Ваш разум и эмоции так хорошо работают вместе.Солнце (2016)
Подробнее …
Были старые счеты, которые она могла выплатить, а также старые льготы, которые она могла вернуть.Эдит Уортон «Дом веселья» (1905)
Прежде всего, необходимо отметить, что система работает лучше, чем это часто предполагается.Times, Sunday Times (2014)
С таким же успехом можно просто привязать по одной к каждому бедру.Times, Sunday Times (2009)
Улучшение характеристик сопровождалось более резким управлением и улучшенным ощущением рулевого управления.Times, Sunday Times (2009)
Но мы подумали, что все равно можем пойти туда.Times, Sunday Times (2006)
Предпочел бы быстрее, но держится хорошо и представляет собой одну из самых больших опасностей.Солнце (2016)
Это не понравилось фанатам.The Sun (2011)
У нас нет какой-то нефтяной скважины под нашим полем.Солнце (2013)
Тебе может быть лучше в чем-то совершенно другом.Мартин, апрель «Руководство по воспитанию детей гомосексуалистам и лесбиянкам» (1993)
Гнев по большей части обоснован.Сигел, Берни С. (доктор медицины) Любовь, медицина и чудеса (1990)
Судите правильно, и казна вполне может открыться.Times, Sunday Times (2006)
Хорошо перемешайте и залейте в форму для хлеба.Колетт Харрис, с Терезой Чунг КНИГА ПО ДИЕТАМ СПКЯ: Как можно использовать диетический подход для борьбы с поликистозом синдром яичников (2002)
Надо бы к этому привыкнуть.Times, Sunday Times (2011)
Отсутствие внимания к нуждам потерпевших в суде хорошо задокументировано.Уолклейт, Сандра Виктимология — жертва и процесс уголовного правосудия (1989)
Пользователи начинают чувствовать, что они не могут хорошо работать без стероидов.Коэн, Джулиан и Кей, Джеймс серьезно относятся к наркотикам (1994)
Задача его преемника — сделать двигатель меньше, но улучшить его работу.Times, Sunday Times (2011)
Он плохо спал с тех пор, как был там в последний раз.Теппер, Шери С. Чума ангелов (1993)
Кто мог лучше чувствовать персонажей изнутри, нежно оценивая их по улица?Times, Sunday Times (2013)
Кажется, получилось достаточно хорошо.Times, Sunday Times (2013)
Почему бы не жить так хорошо, как можно?Times, Sunday Times (2015)
Вы намного лучше этого.Times, Sunday Times (2009)
В центре был колодец, окруженный мухами.Times, Sunday Times (2007)
Мы хотим поддержать исследователей, которые помогут нам лучше понять причины и улучшить лечение.Times, Sunday Times (2013)
Мы утверждали, что в прошлом мы хорошо управляли и агрессивно увеличивали прибыль на акцию с помощью долга.Томпсон, сэр Питер делится успехом — история NFC (1990)
Определение правильно сформированных биомедицинских фраз в тексте MEDLINE®
J Biomed Inform. Авторская рукопись; доступно в PMC 1 декабря 2013 г.
Опубликован в окончательной отредактированной форме как:
PMCID: PMC3465642
NIHMSID: NIHMS384667
Национальная медицинская библиотека, Национальные институты здравоохранения, Bethesda, MD 20894, США85 Корреспондент.Текущий адрес: CBB / NCBI / Национальная медицинская библиотека 8600 Rockville Pike Bethesda, MD 20894 Телефон: 301435 5903 Факс: 301480 2290 vog.hin.liam@miknow Окончательная отредактированная версия этой статьи доступна на сайте J Biomed Inform См. Другие статьи в ЧВК, цитирующих опубликованную статью. В современном мире люди часто взаимодействуют с поисковыми системами для удовлетворения своих информационных потребностей. Понятные человеку правильно сформированные фразы представляют собой важный интерфейс между людьми и Интернетом, а возможность индексирования и поиска с использованием таких фраз полезна для взаимодействия человека и сети.В этой статье мы рассматриваем проблему выявления понятных, хорошо сформированных и высококачественных биомедицинских фраз в документах MEDLINE. Основными подходами, использовавшимися ранее для обнаружения таких фраз, являются синтаксический, статистический и гибридный подход, сочетающий эти два подхода. В этой статье мы предлагаем контролируемый подход к обучению для выявления качественных фраз. Сначала мы получаем набор известных хорошо сформированных полезных фраз из существующего источника и помечаем эти фразы как положительные. Затем мы извлекаем из MEDLINE большой набор строк из нескольких слов, не содержащих стоп-слов и знаков препинания.Мы считаем, что этот немаркированный набор содержит много правильно построенных фраз. Наша цель — выявить эти дополнительные высококачественные фразы. Мы исследуем различные комбинации функций и несколько стратегий машинного обучения, предназначенных для решения этой проблемы. Правильный выбор методов и функций машинного обучения определяет в большой коллекции строки, которые могут быть высококачественными фразами. Мы оцениваем наш подход, делая человеческие суждения о многословных строках, извлеченных из MEDLINE с помощью наших методов. Мы обнаружили, что более 85% таких извлеченных словосочетаний считаются людьми высокого качества. Ключевые слова: машинное обучение, несбалансированные данные, биомедицинские фразы, статистическая идентификация фраз, унифицированная система медицинского языка, полные формы аббревиатуры Биологические концепции часто выражаются в терминах фраз. Неудивительно, что исследования показывают, что значительная часть запросов в PubMed® — это многословные запросы, которые представляют собой значимые фразы, а не простые наборы терминов. Это говорит о том, что во многих случаях пользователи имеют в виду фразу при создании запроса [1].Поэтому определение высококачественных фраз может быть полезно как для индексации документов, так и для поиска информации. Мы заинтересованы в обнаружении синтаксически правильно сформированных высококачественных значимых биологических фраз, т. Е. Учитывая последовательность токенов в предложении, наша цель — оценить, является ли это выражение примером синтаксически правильно сформированного высококачественного значимого биомедицинского фраза. Центральное венозное давление, отслойка плаценты, семейная средиземноморская лихорадка — примеры таких фраз.Напротив, центральная нервная система не является синтаксически правильно сформированной фразой. Хотелось бы обнаружить центральная нервная система как фразу. Более того, синтаксически правильно сформированные фразы не всегда качественны. Например, фраза различные статистические методы синтаксически правильно сформирована, но фраза статистические методы представляет собой лучший выбор в качестве значащей фразы. Мы будем называть такие качественные осмысленные биологические фразы хорошими фразами.Мы не ограничиваем фразы терминологией или идиоматическими выражениями, а также не ограничиваем их длину. Идеальная фраза будет полезной, содержательной и эстетичной. Ясно, что часто используемая фраза полезна. Означает, что фраза понятна и понятна без какого-либо дополнительного контекста. Многие фразы в документе полезны и ценны в том контексте, в котором они встречаются, но оставят очевидные вопросы без этого контекста. Наконец, эстетическое удовлетворение признает, что это человеческие суждения без окончательного объективного критерия. Мы ограничиваемся фразами без предлогов и других стоп-слов. Избегая предлогов, мы теряем способность определять все качественные фразы. Однако это ограничение оставляет много хороших биомедицинских фраз для открытия. В версии UMLS® 2011 года только 24,9% уникальных фраз, содержащих только буквенно-цифровые символы, содержат стоп-слова. Только 10,1% этих фраз UMLS, которые появляются в MEDLINE, содержат стоп-слова. Точно так же только 16% полных форм сокращений, которые мы находим в MEDLINE®, содержат запрещающие слова.Список фраз UMLS со стоп-словами, которые появляются в MEDLINE, включает фразы, которые мы сожалеем потерять, такие как «качество жизни» и «голова и шея». Однако есть также много фраз, которые бесполезны без дополнительного контекста: «связано с», «использование» и «за которым следует». Очевидно, что подавляющее большинство значимых биомедицинских фраз, используемых в MEDLINE, не содержат ни слов, ни предлогов. Полезны надежные способы определения таких фраз. Предыдущие исследования касались определенных аспектов этой проблемы.Некоторые сконцентрировались на определении словосочетаний с существительными [2–4]. Чен [2] разработал систему для получения именных фраз из бегущего текста, используя вероятностный блок для определения границ фраз и лингвистические знания для извлечения именных фраз. Bennett et al. [4] просто использовали конечный набор правил, составленных из различных последовательностей тегов частей речи, для обнаружения словосочетаний в MEDLINE. Другие исследования изучали определение конкретных фраз, таких как многословная терминология для конкретной предметной области [5, 6] или многословные выражения [7], которые являются идиоматическими, фиксированными или частично разделяемыми выражениями.Многие из этих подходов ограничивают длину обнаруживаемых фраз. Было использовано несколько методов для извлечения полезных фраз из коллекции документов. Статистические подходы обнаруживают последовательности слов, которые встречаются в корпусе подряд чаще, чем ожидалось случайно [8–10]. Синтаксические подходы основаны на предположении, что последовательность слов, удовлетворяющая определенным синтаксическим отношениям или определенной структуре, образует фразу [4]. Сравнение нескольких алгоритмов распознавания терминов, проведенное Zhang et al.[11] идентифицировали алгоритм C-value, предложенный Frantzi et al. [6] как лучший по биологическому корпусу. Метод C-значения объединяет статистический и синтаксический подходы в гибридный метод. Некоторые из наших статистических характеристик напоминают статистические значения, используемые для расчета C-значения. Наши функции части речи предоставляют информацию, аналогичную их фильтрам части речи. Наш метод использует машинное обучение для очень гибкого комбинирования этой информации. Статистическая и синтаксическая информация, несомненно, является фундаментальным знанием, которое можно получить о цепочке токенов.Однако неясно, как оптимально объединить эту информацию. В этой работе мы предлагаем использовать подход машинного обучения, который учится на статистических и синтаксических функциях, используя существующие наборы высококачественных фраз. Одним из таких источников высококачественных фраз является UMLS, который является тщательно отобранным источником и содержит значимый и хорошо сформированный контент. Еще один источник хороших фраз — это список полных форм (определяющих фраз), полученных из пар аббревиатура-определение, извлеченных из MEDLINE с использованием алгоритма идентификации аббревиатуры-определения [12]. Сформулируем нашу задачу следующим образом. Предположим, у нас есть большая коллекция многословных строк без меток. Предположим далее, что у нас есть дополнительный меньший набор фраз, которые, как известно, являются высококачественными значимыми биомедицинскими фразами. Мы считаем, что таких качественных фраз в нашей большой немаркированной коллекции больше. Наша цель — обнаружить и извлечь эти неизвестные высококачественные фразы из немаркированного набора. Мы относимся к помеченным высококачественным фразам как к положительному классу, а непомеченные данные — к отрицательному классу.Мы используем термин отрицательный класс, несмотря на то, что фразы в отрицательном классе не обязательно отрицательные, они просто не различают возможные положительные и истинно отрицательные. В качестве алгоритмов обучения мы рассматриваем как чувствительную к стоимости SVM (CS-SVM), так и классификатор с широким диапазоном с модифицированной функцией потерь Хубера (Huber). Мы обнаружили, что Huber немного превосходит CS-SVM по производительности при оптимальном коэффициенте стоимости. Результатом нашей обработки является большой набор строк (более 700 000), из которых, по нашей оценке, не менее 85% являются фразами высокого качества. Работа организована следующим образом. В разделе «Методы» мы описываем алгоритмы обучения и наборы данных, а также определяем функции, используемые для представления фраз. В разделе «Результаты» мы описываем наши эксперименты и использованные методы оценки, а также представляем численные результаты. Затем следует Применение нашего метода. Наконец, обсуждение и заключение. Сначала MEDLINE обрабатывалась следующим образом.Мы обработали заголовки и отрывки из записей MEDLINE и извлекли все смежные многолинейные строки, которые не содержали ни знаков препинания, ни стоп-слов. Этот набор включает в себя все подстроки с несколькими токенами и более длинными строками. Затем полученные строки были нормализованы (нижний регистр, лишние пробелы были удалены), а дубликаты были удалены, в результате чего получился набор из 280 737 434 строк, который мы называем M . Мы рассмотрели два источника получения высококачественных содержательных многословных фраз для обучения: UMLS (http: // www.nlm.nih.gov/research/umls/) и список полных форм (определяющих аббревиатуру фраз), взятых из пар аббревиатура-определение, извлеченных из MEDLINE [12]. UMLS — это тщательно подобранный источник, содержащий значимый, хорошо сформированный контент. Список пар аббревиатуры-определение автоматически извлекается из MEDLINE с помощью AB3P, алгоритма идентификации аббревиатуры-определения, который обеспечивает F-меру 90% для нескольких наборов данных, оцениваемых вручную, и выгодно отличается от других существующих алгоритмов идентификации определения аббревиатуры. Из файла UMLS Metathesaurus® мы берем подмножество английских строк. Они нормализуются, а дубликаты удаляются. Перекрытие этого набора с M состоит из 297 005 фраз, которые мы обозначаем как U . Точно так же мы нормализуем набор полных форм, отбрасываем дубликаты и обнаруживаем, что совпадение с M состоит из 733 410 фраз, которые мы обозначаем F . Для каждой фразы в U мы случайным образом выбираем до 5 предложений MEDLINE, содержащих ее.Если есть пять или меньше предложений, содержащих фразу, мы берем их все, но если их больше пяти, мы случайным образом выбираем пять. Обозначим полученный набор из 1,198,849 предложений MEDLINE как S U . Так же, как мы обработали текст MEDLINE для получения M , мы обрабатываем S U для извлечения всех смежных нормализованных строк, состоящих из нескольких слов. Из этого набора 5 789 943 струны отсутствуют в U . Мы называем это подмножество M U .Начиная с F , мы выполняем точно такую же процедуру, чтобы получить S F и M F . Выбирая до 5 предложений MEDLINE, содержащих каждую фразу в F, мы получаем набор S F , а затем набор M F . M F состоит из 12044070 струн и по конструкции не перекрывается с F . Для машинного обучения мы рассматриваем U как положительный класс и M U как отрицательный класс.Аналогично для F и M F . Эти цифры сведены в. Размеры наборов фраз и строк. M Чтобы применить машинное обучение, мы должны определить функции для представления фразы (или строки с несколькими токенами). Сначала мы определяем основные статистические характеристики на основе свойств фразы и ее появления в тексте MEDLINE. Затем мы дискретизируем эти значения. Для фразы ph , состоящей из n слов, т.е. ph = w 1 w 2 … w n , мы извлекаем набор из 11 связанных числовых значений {fi (ph)} i = 111.Эти значения определены как: f 1 : количество вхождений фразы ph в MEDLINE; Обоснование : Частота фразы отражает полезность фразы. Часто используются хорошие фразы. f 2 : Количество появлений w 2 … w n не соответствует w 1 в документах с ph ; Обоснование : Является ли w 1 важной частью фразы ph или модификатором w 2 … w n , истинной важной фразой? Смотрим документы, которые содержат тел. .Если w 2 … w n часто встречается в этих документах без следования w 1 , тогда w 1 , вероятно, будет необязательным словом и не является основной частью фраза. Документы без ph игнорируются, потому что нас напрямую не интересует, является ли фраза w 2 … w n значимой. f 3 : Количество появлений w 1 … w n −1 не предшествующий w n в документах, содержащих ph ; Обоснование : Является ли w n важной частью фразы ph ? Смотрим документы, которые содержат тел. .Если w 1 … w n −1 часто встречается в этих документах, за которым не следует w n , то w n , вероятно, будет необязательным словом и не основная часть фразы. Документы без ph игнорируются, потому что нас напрямую не интересует, является ли фраза w 1 … w n -1 значимой. f 4 : количество вхождений строк в форме xw 1 … w n в MEDLINE; Обоснование : Эта особенность отражает тенденцию к тому, что ph предшествует другой термин.Может ли он стоять отдельно или ему нужно другое слово, чтобы начать фразу? Например, «пациенты с фиброзом» — не очень хорошее самостоятельное словосочетание, поскольку оно чаще всего встречается как «пациенты с муковисцидозом». f 5 : количество вхождений фраз формы w 1 … w n x в MEDLINE; Обоснование : Эта особенность представляет тенденцию к ph , за которым следует другой термин.Опять же, он может стоять отдельно или ему нужно другое слово, чтобы закончить фразу? Например, «центральная нервная система» — это не отдельное словосочетание, чаще всего оно встречается как «центральная нервная система». f 6 : байесовский вес между w 1 и w 2 , f6 = log (p (w1∣w2) (1 − p (w1∣¬w2)) ( 1 − p (w1∣w2)) p (w1∣¬w2)) Обоснование : Учитывая, что w 2 — второе слово во фразе ph , насколько вероятно w 1 первое слово? Более вероятно, что w 1 появляется перед w 2 , более вероятно, что w 1 является важной частью фразы. f 7 : взаимная информация между w 1 и w 2 ; Обоснование : Взаимная информация измеряет взаимозависимость между w 1 и w 2 . Чем больше w 1 и w 2 появляются вместе, тем более вероятно, что w 1 является важной частью фразы. f 8 : байесовский вес между w n −1 и w n , f8 = log (p (wn − 1∣wn) (1 − p (wn −1∣¬wn)) (1 − p (wn − 1∣wn)) p (wn − 1∣¬wn)) Обоснование : Учитывая, что w n −1 является предпоследнее слово во фразе ph , насколько вероятно, что w n будет последним словом? Чем больше w n появляется после w n -1 , более вероятно, что w n является важной частью фразы. f 9 : взаимная информация между w n −1 и w n ; Обоснование : Взаимная информация измеряет взаимозависимость между w n -1 и w n . Чем больше w n −1 и w n появляются вместе, тем более вероятно, что w n является важной частью фразы. f 10 : количество различных многословных фраз, начинающихся с w 1 в MEDLINE; Обоснование : Чем больше различных фраз начинается с w 1 , тем более вероятно, что w 1 является общим модификатором и не является существенной частью фразы. f 11 : Количество различных многословных фраз, заканчивающихся на w n в MEDLINE. Обоснование : Чем больше разных фраз заканчивается на w n , тем более вероятно, что w n является общим словом и не является важной частью фразы. Мы также нормализуем значения f i для 1 < i ≤11, разделив каждое f i на f 1 и обозначив его как fi ′ Следовательно, мы имеем Всего 21 значение базовой статистической характеристики (11 f i значений и 10 нормализованных fi ′), которые будут использоваться для машинного обучения. Хотя числовые значения можно использовать в качестве признаков для обучения классификатора, мы дискретизируем эти числовые значения на категориальные значения, чтобы получить более устойчивое поведение алгоритмов классификации. Учитывая набор фраз, каждая переменная функции определяет диапазон значений, которые принимает функция. При дискретизации этот диапазон значений разделяется на небольшое количество интервалов, и все значения, попадающие в один интервал, представляются с использованием одного номинального признака.Таким образом, для каждого числового признака дискретизация сокращает пространство значений признаков до гораздо меньшего набора категориальных значений. Преимущество этого заключается в том, что машинное обучение может затем независимо оценивать эти различные дискретные функции. В литературе предлагается несколько методов дискретизации, включая основанные на энтропии методы, которые являются одними из наиболее часто используемых методов дискретизации. Такие методы хорошо работают для получения оптимального результата для одного числового признака.Но когда нужно дискретизировать ряд числовых характеристик, такие методы не могут гарантировать, что окончательный набор характеристик будет оптимальным для обучения по всем характеристикам. Таким образом, мы используем единый подход дискретизации и исследуем разное количество бинов в поисках хороших результатов машинного обучения. В дополнение к статистическим функциям мы включаем функции, основанные на тегах части речи для фразы ph . Мы используем теггер MedPost [13]. Чтобы получить теги для данной фразы ph , мы случайным образом выбираем предложение из S U (или S F ), содержащее фразу ph , помечаем предложение и рассматриваем теги t. −1 t 1 t 2 … t n −1 t n t n 9040 +1 9040 −1 — это тег слова, предшествующего слову w 1 во фразе ph , t 1 — это тег слова w 1 во фразе ph , и так тег слова, предшествующего слову.Строим черты {ifn> 2: {(t − 1,1), (t1,2), (tn, 3), (tn + 1,4) t2,… tn − 1} в противном случае: {(t − 1, 1), (t1,2), (tn, 3), (tn + 1,4)}.} Эти функции выделяют левый и правый концы фразы и включают части речи в середине без маркировки их позиция. Фраза может иметь до n + 2 признаков, если внутренние слова имеют уникальные части речи. Если фраза начинается в начале предложения, то признак (Lend, 1) заменяет признак (t −1 , 1). Точно так же, если фраза заканчивается на конце предложения, тогда признак (Rend, 4) заменяет признак (t n + 1 , 4).Результирующие функции включены в дискретные функции, которые мы обсуждали в предыдущем разделе, чтобы представить эту фразу. Набор M U представляет собой большой набор немаркированных многословных строк для сравнения с набором U высококачественных фраз. Наша цель — использовать машинное обучение для определения дополнительных высококачественных фраз в M U на основе высококачественных данных в U .Аналогично для F и M F . Наивный подход к этой проблеме просто возьмет известные высококачественные фразы как положительный класс, а остальную часть коллекции как отрицательный класс (немаркированные документы) и применит машинное обучение с вектором поддержки, чтобы узнать разницу и ранжировать отрицательный класс. на основе полученных баллов. Разумно ожидать, что верхняя часть этого рейтинга пополнится положительным классом. Но предыдущие исследования [14–17] показали, что из-за несбалансированного характера проблемы соответствующий выбор методов может улучшить этот наивный подход. Проблема несбалансированного обучения заключается в том, что резкое различие в размере класса снижает эффективность некоторых методов классификации. Большое количество негативных документов влияет на процесс принятия решений и вредит эффективности классификации. Было предложено несколько подходов для решения этой проблемы, включая методы выборки и методы обучения, чувствительные к стоимости, и они описаны в [18–20]. Эти исследования показывают, что нет явного преимущества одного подхода перед другим.Фактически, чувствительные к стоимости методы и методы выборки связаны в том смысле, что изменение распределения классов обучающих данных эквивалентно изменению стоимости ошибочной классификации. Основываясь на этих исследованиях, мы решили изучить обучение, чувствительное к затратам, при котором увеличивается стоимость неправильной классификации элементов положительного набора. Чжан и Айенгар [16] рассмотрели проблему рекомендательных систем, которые используют исторические данные о предпочтениях клиентов, покупках и другие доступные данные для прогнозирования товаров, которые могут быть интересны покупателю.По своей природе рекомендательные системы работают с несбалансированными данными. Они показали, что для этой цели очень эффективен классификатор с широкой маржой и квадратичной функцией потерь. Это может быть лучший метод, чем варьирование затрат, поскольку он не требует поиска оптимального соотношения затрат между положительными и отрицательными примерами. В этом исследовании мы применяем как чувствительную к стоимости SVM, так и классификатор с широким диапазоном с модифицированной функцией потерь Хубера с квадратичными свойствами, разработанную с учетом идеи Чжана и Айенгара [16].Оба алгоритма решают проблемы с несбалансированными и зашумленными наборами данных. Здесь мы пишем стандартные уравнения для SVM, следуя Чжану [21]. Учитывая данные обучения {( x i , y i )}, где y i равно 1 или -1 в зависимости от того, является ли точка данных x i классифицируется как положительный ( C + или отрицательный ( C — ), SVM ищет этот весовой вектор w → который минимизирует ∑ih (yix → i⋅w → −1) + λ2‖w → ‖2, (2) где функция потерь определяется как h (z) = {∣1 − z∣, z <10,1≤z.} (3) Классификатор SVM может быть чувствительным к дисбалансу большого класса, что приводит к снижению производительности классификации. Он чувствителен к созданию классификатора, который имеет смещение оценки в сторону класса большинства, что приводит к большому количеству ложноотрицательных результатов. Для решения этой проблемы было предложено обучение с учетом затрат. Чувствительная к стоимости версия SVM модифицирует (3), чтобы стать, и теперь мы можем выбрать r + ⋅∑i∈C + h (yix → i⋅w → −1) + r − ⋅∑i∈C − h (yix → i⋅w → −1) + λ2‖w → ‖2 ( 4) и теперь мы можем выбрать r + и r — , чтобы соответствующим образом увеличить потери.Обычно мы принимаем r — равным 1, а r + — некоторым множителем, превышающим 1. Выбор значения r + больше чем r — помогает преодолеть преобладание отрицательных точек. в процессе принятия решений. Как правило, те же алгоритмы, что и для минимизации (2), можно использовать для минимизации (4). Чжан и Айенгар [16] предложили классификатор с широким запасом с квадратичной функцией потерь h ( z ) 2 как эффективный для несбалансированных и шумных тренировочных наборов.Мы используем вариацию квадратичной функции потерь, модифицированную функцию потерь Хубера [21], которая является квадратичной там, где это важно, и имеет вид h (z) = {- 4⋅z, z≤ − 1 (1 − z) 2, −1 (5) Мы называем это уравнением Хубера. метод в отличие от SVM. Сравниваем с CS-SVM. Мы также использовали многомерный наивный байесовский классификатор Бернулли [22, 23] в качестве основы, с которой мы сравниваем результаты. Мы считаем, что M U и M F содержат много синтаксически правильно сформированных и значимых фраз, и наша цель — идентифицировать их.Для этого мы провели эксперименты с машинным обучением, чтобы узнать разницу между фразами в наборе U и элементами в наборе M U . Аналогично узнаем разницу между фразами в наборе F и элементами в наборе M F . Мы выполняем трехкратную перекрестную проверку, обучая метод двум третям U ∪ M U и оценивая оставшуюся треть фраз.Когда все три складки заполнены, весь список фраз в U ∪ M U был оценен. Точно так же мы обучаем и оцениваем фразы в F ∪ M F . Затем мы ранжируем фразы в наборы M U и M F и ожидаем, что верхние позиции этих соответствующих рейтингов будут обогащены высококачественными фразами. Мы оцениваем эффективность обучения с помощью меры средней точности (MAP) [24].Средняя точность — это среднее значение точности для каждого ранга, содержащего истинно положительный элемент, то есть высококачественную фразу из положительного класса U . Мы сообщаем MAP или среднее значение средней точности, полученное в результате трех раундов перекрестной проверки. Мы полагаем, что лучшая классификация фраз в U и M U приводит к лучшему ранжированию фраз в наборе M U . Поскольку нас интересуют только фразы в M U , которые выглядят как фразы в U , тем более успешно мы можем научиться разделять фразы в M U , которые не выглядят U из U , тем полезнее будет полученный рейтинг M U .С другой стороны, мы ожидаем, что в M U будет много фраз, которые выглядят так близко к U , что их невозможно разделить при обучении, и это устанавливает верхнюю границу того, насколько хорошо может быть основано обучение. если считать только U как положительный набор. Те же примечания относятся также к F и M F . Перед завершением нашего подхода нам нужно было определить количество бинов в подходе с равномерной дискретизацией, чтобы получить наилучшую производительность обучения.показаны значения MAP для задач классификации U ∪ M U и F ∪ M F на основе 3-кратной перекрестной проверки с применением обучения Хубера с различным количеством однородных ячеек . Мы пришли к выводу, что 60 000 ящиков — разумный выбор. Для F ∪ M F можно было бы рассмотреть более 60 000 ячеек, но мы сомневаемся, что улучшение с 60 000 является значительным. Поэтому мы решили использовать 60 000 единообразных интервалов для дискретизации всех числовых характеристик для обеих задач и использовали полученные функции для всех протестированных алгоритмов обучения. Классификации Хубера с разным количеством унифицированных ячеек Здесь мы предоставляем результаты применения наших методов машинного обучения к U ∪ M U и F ∪ M Ф . и представляют значения MAP для U ∪ M U и F ∪ M F на основе трехкратной перекрестной проверки.Мы представляем результаты для трех различных классификаторов: наивный байесовский, который мы используем в качестве базового, Huber и CS-SVM с рядом факторов стоимости. Мы видим, что классификатор Huber и CS-SVM работает намного лучше, чем Naïve Bayes. CS-SVM с коэффициентом стоимости 1 (стандартный SVM) не является оптимальным. По мере увеличения фактора стоимости производительность CS-SVM улучшается и достигает максимальной производительности при оптимальном коэффициенте стоимости. Однако Huber работает лучше, чем CS-SVM, с оптимальным коэффициентом затрат. Кроме того, Huber не требует поиска оптимального фактора стоимости, как того требует CS-SVM.Таким образом, мы заключаем, что классификатор Хубера может представлять собой лучший подход к этой проблеме. Классификаторы Huber, CS-SVM и Байеса, примененные к U ∪ M U Классификаторы Huber, CS-SVM и Байеса, примененные к F ∪ F U Оценка MAP насколько хорошо помеченные положительные точки ранжируются перед отрицательными помеченными (фактически немаркированными) точками. Как мы утверждали выше, разумно использовать MAP для сравнения различных методов классификации.Однако наша главная цель — использовать обученные классификаторы для ранжирования немаркированных наборов и достижения рейтинга, который помещает немаркированные, но качественные фразы на высокие позиции в этом рейтинге. Чтобы оценить качество таких рейтингов, учащийся Huber использовался для создания рейтингов для обоих, а также для M U и M F . Затем мы извлекли четыре разных набора из 100 многословных строк: Набор 1: 100 фраз-кандидатов, случайно выбранных из подмножества строк M U , чьи оценки Хубера выше среднего балла набора U фраз.Таких строк 224 249 в M U . Набор 2: 100 фраз-кандидатов, случайно выбранных из подмножества строк M F , чьи баллы по Хуберу выше среднего балла набора фраз F . Таких строк 520 848 в M F . Набор 3: 100 фраз, случайно выбранных из набора F . Набор 4: 100 случайно выбранных многословных строк MEDLINE из набора M . Эти четыре набора фраз были индивидуально оценены всеми четырьмя авторами статьи. Фразы из разных источников были расположены в случайном порядке, и оценка проводилась без знания их источника. Судьи были проинструктированы не отмечать фразу, содержащую знак, используемый в качестве глагола, или фразу, оканчивающуюся знаком, используемую в качестве наречия или прилагательного, в качестве хорошей фразы. Помимо этого, они должны были использовать свое суждение, основанное на том, была ли фраза эстетически приятной и значимой без дополнительного контекста.Строка считалась высококачественной фразой, если она была оценена как высокое качество не менее чем тремя судьями. Результаты в формате. Оценка качества четырех наборов, оцененных людьми. Наборы 1 и 2 каждый содержат 100 фраз, случайно выбранных из подмножества фраз M U и M F , чьи баллы по Хуберу выше среднего балла набора U и набора фраз F , соответственно. Наборы 3 и 4 каждый содержат 100 фраз, случайно выбранных из наборов F и M соответственно. Мы обнаружили, что 85% фраз в наборе M U , которые набрали больше среднего балла набора U , являются хорошо сформированными содержательными фразами высокого качества. Это значительное улучшение по сравнению со случайным выбором фразы из набора M , который давал только 35% фраз высокого качества.Точно так же мы обнаружили, что 91% фраз в наборе M F , набравших больше среднего балла набора F , являются хорошо сформированными содержательными фразами высокого качества. Набор 3 был включен в качестве проверки качества F и показал, что хотя он и не идеален, он действительно высокого качества. Основываясь на размере M и приведенных выше наборах, оцененных людьми, мы можем оценить нижнюю границу количества высококачественных биомедицинских фраз в MEDLINE.Мы ожидаем не менее 9,2 миллиона качественных и правильно сформированных фраз на основе набора 1 качества, сопоставимого с U . Аналогичным образом, мы ожидаем, что по крайней мере 11 миллионов качественных, правильно сформированных фраз, оцененных из набора 2 качества, сопоставимого с F . Конечно, вероятно, будет гораздо больше фраз, которые имеют некоторый уровень приемлемости для человека, но не имеют высоких баллов ни по одной из используемых нами шкал (на уровне или выше медианы для U или F на основе обучения), включая половину самих U и F .Таким образом, мы рассматриваем эти оценки как довольно консервативные нижние границы количества качественных фраз. Мы также использовали алгоритм Хубера, чтобы узнать разницу между U и M U , и применили обученный классификатор для классификации F ∪ M F и наоборот. Средняя точность составляет 0,21 при классификации F ∪ M F и в обратном направлении 0.19. Это указывает на систематическое различие между наборами U и F , которое заслуживает дальнейшего изучения. In, мы измерили вклад каждой отдельной функции, удалив ее только в машинном обучении Huber. Можно заметить, что часть речевых тегов являются особенно важными функциями для этой проблемы. Вклад функций, измеренный по эффекту удаления их по одному. часто запрашивает больше документов, чем PubMed. Например, по таким запросам, как «болезнь Альцгеймера», «глухота», «аутизм» и «гипертрофическая кардиомиопатия», можно получить 81 326, 31 046, 18 974 и 13 543 документа соответственно.Очевидно, что вручную их все изучить не получится. В настоящее время мы участвуем в разработке системы, которая может предоставить альтернативные способы просмотра этих результатов. Один из способов представить извлеченное содержимое — разделить эти документы по основной теме. Затем мы должны представить фразы, которые являются наиболее важными и наилучшим образом представить каждую тему. При разработке тем мы рассматриваем как синонимичные многословные строки, которые имеют одно и то же начало в любом порядке, и строки, встречающиеся в одной и той же концепции UMLS.Например, в текстовых строках аутоиммунное заболевание, аутоиммунные заболевания, аутоиммунное расстройство, аутоиммунные расстройства, аутоиммунное заболевание, аутоиммунные заболевания, аутоиммунные расстройства распознаются как варианты одной и той же концепции. Если одна из лучших строк для представления темы является одним из нескольких синонимов, мы хотим представить читателю вариант, который, скорее всего, будет хорошей биомедицинской фразой. Мы используем метод определения правильно сформированных биомедицинских фраз, представленный в этой статье. Мы оцениваем все варианты текстовых строк, используя наши методы, и выбираем тот, который имеет наивысший балл, чтобы представить группу связанных текстовых строк.Баллы вычисляются с использованием тренировок U ⋃ M U и F ⋃ M F и усредняются. Этот процесс гарантирует, что с высокой вероятностью пользователю будет показана фраза хорошего качества. В качестве примера, фразы, определенные этой системой для представления документов, полученных с помощью запроса «глухота»: мутация a1555g; несиндромальная глухота; синдром Ваарденбурга; нарушения слуха, генетика; глухота, врожденная; вестибулярный акведук; синдром Альпорта; кохлеарные имплантаты; чистый тон; волосковые клетки, слуховые Из этих 10 фраз 6 фраз относятся к группам вариантов струнных.В частности, словосочетание кохлеарные имплантаты относится к группе, содержащей 12 вариантов струн, представленных в. Когда эти варианты струн оцениваются в баллах, фраза кохлеарные имплантаты имеет наивысший балл и выбирается для представления этой группы вариантов струн. Группа вариантов строк оценивается с использованием метода идентификации хорошо сформированных биомедицинских фраз, представленного в этой статье. Фраза кохлеарные имплантаты выбрана для обозначения этой группы вариантов струны. Мы обнаружили, что с учетом набора хорошо сформированных и значимых биомедицинских фраз, которые можно получить из метатезавра UMLS или полных форм, взятых из сокращений в MEDLINE, мы можем научиться отличать эти фразы от других аналогичным образом подготовленных фраз. кандидаты взяты из того же набора предложений на уровне ПДЧ около 42%. Когда мы используем такую обученную модель для оценки кандидатов фраз, мы обнаруживаем, что большое число баллов на уровне или выше среднего балла для набора высокого качества, который мы использовали при обучении, и, оценивая такие фразы с высоким баллом, мы обнаруживаем, что более 85% из них являются высокими. качественные содержательные фразы.Мы решили посмотреть на те фразы-кандидаты, которые набрали больше, чем медиана набора высокого качества, потому что при идеальном обучении это означало бы, что они, по крайней мере, так же хороши, как половина фраз в положительных данных обучения, с которых мы начали. Конечно, никакие тренировки не идеальны, поэтому мы не удивляемся, когда они состоят на 80–90% из качественных фраз. Тем не менее, мы считаем, что результаты оправдывают такой подход и доказывают, что здесь происходит значительное обучение. Можно спросить, что мотивировало выбор функций, которые мы используем для обучения.Если бы мы только пытались идентифицировать словосочетания с существительными, синтаксической информации могло бы быть достаточно, и, возможно, нам потребовались бы только части речи. Если бы мы снова определили полезную фразу как часто используемую, проблема была бы относительно простой. Но когда мы спрашиваем человека о наиболее полезных фразах, мы задаем гораздо более сложный вопрос без простого или точного ответа. Это усложняет задачу. Конечно, нам нужны правильно сформированные фразы, поэтому важен синтаксис. Также мы считаем, что наиболее полезные фразы будут использоваться чаще, чем менее полезные, поэтому важна информация о частоте.Но, как мы проиллюстрировали во Введении, частота не говорит всем, что нужно. Применяемые нами методы машинного обучения могут игнорировать бесполезные функции, поэтому в некотором смысле большее количество функций увеличивает шансы на хорошую производительность. Мы привели некоторые обоснования функций, которые мы выбрали для использования, в разделе 2.2. Однако основным оправданием использования этих функций является то, что мы обнаружили, что они улучшили MAP, как это было видно в наших тестах. Несмотря на то, что характеристики f 6 и f 7 измеряют аналогичные показатели, которые мы обнаружили, включая оба улучшения общей производительности.Как видно, многие функции, похоже, вносят лишь небольшой вклад в производительность. Мы полагаем, что это связано с двумя факторами. Во-первых, существует некоторая избыточность из-за большого количества различных функций, которые мы используем. Во-вторых, некоторые функции менее важны. Однако, даже если отдельные функции вносят лишь небольшой вклад, в совокупности они могут существенно улучшить производительность. Вполне возможно, что есть и другие полезные функции, которые еще предстоит открыть. Снова возникает вопрос, являются ли применяемые нами методы машинного обучения наилучшими из возможных.Причина, по которой мы выбрали их, довольно проста. Машины опорных векторов обычно дают отличную производительность при решении широкого круга задач классификации [25]. Дополнительные чувствительные к стоимости SVM и связанные с ними классификаторы на основе Хубера особенно хорошо подходят для проблемы несбалансированных данных, с которой мы имеем дело [14–17]. Тот факт, что мы получаем почти равную производительность с двумя методами, и результаты являются очень большим улучшением по сравнению с наивным байесовским методом, возможно, является некоторым оправданием нашего подхода. Поскольку наш подход основан на машинном обучении и отличается от предыдущих методов, интересно, как наш метод может сравниваться с предшествующими подходами. Для такого сравнения мы полагаемся на работу Zhang, Iria, Brewster и Ciravegna [11], которые сравнили пять различных методов распознавания терминов в корпусе GENIA и обнаружили, что метод C-value Франци и Ананиаду [6] показал наилучшие результаты. и даже лучше, чем сочетание различных методов голосования. Имея это в виду, мы сравнили метод C-значения с нашим подходом.Метод C-значения сначала применяет один из нескольких возможных фильтров для ограничения синтаксическим классом, а затем ранжирует все фразы, которые проходят фильтр, по их C-значению. Мы можем произвести по существу эквивалентное вычисление, объединив C-значение как функцию с функциями POS и обучив классификатор Huber этим функциям. Когда мы делаем это и вычисляем числа MAP, используя ту же перекрестную проверку, которая использовалась для вычисления результатов, мы получаем MAP 0,238 для UMLS и 0,219 для полных форм. Таким образом, наше машинное обучение почти вдвое увеличивает производительность, полученную с помощью подхода C-value, примененного к нашим данным с помощью нашего подхода к оценке.Основываясь на этих результатах, мы делаем вывод, что машинное обучение с множеством различных функций может дать значительное преимущество по сравнению с предшествующими методами, когда для обучения доступен большой набор высококачественных фраз. Особенностью нашего подхода является то, что у нас есть два набора высококачественных фраз, которые не полностью эквивалентны. Мы обнаружили, что когда классификатор обучается с данными U ⋃ M U и обучение применяется к задаче F ⋃ M F или наоборот, MAP классификации падает примерно до половины. значение, полученное в экспериментах с перекрестной проверкой.Это говорит о наличии значительных различий между U и F . Одно различие, которое, по нашему мнению, может быть важным, — это частота. Низкочастотных фраз в F больше, чем в U . Фактически, средняя частота фразы в F составляет 263, в то время как средняя частота фразы в U — 408. Подобным образом 20% фраз в F появляются в тексте MEDLINE только один раз, в то время как это верно для 15%. фраз в U . Хотя это постоянное различие, мы считаем, что это не полное объяснение различия между этими двумя источниками фраз.Дальнейшие исследования могут прояснить различия. Хотя фразы с высокими оценками, основанные на обученном классификаторе Хубера, как правило, имеют высокое качество, результаты не идеальны. Мы проверили ряд фраз с высокими оценками, которые были сочтены некачественными. Хотя некоторые ошибки кажутся уникальными, единственными в своем роде, можно обнаружить некоторые закономерности. Например, может случиться так, что два имени многократно встречаются вместе в корпусе, но комбинация не дает хорошей фразы. Например, «dia niemela» представляет собой сопоставление двух фамилий авторов, которые в тексте отображаются как «Dia & Niemela», но наша обработка игнорировала символ «&» и приводила к ошибке оценки «dia niemela» как хорошей фраза.Другой пример — выражение «ячейка ячейка», получившее высокую оценку, но не имеющее большого смысла как фраза. Еще один пример — «калифорния лос-анджелес», которое в тексте неоднократно встречается как «Калифорнийский университет в Лос-Анджелесе». Если бы в извлекаемых фразах можно было использовать предлоги, возможно, этой ошибки можно было бы избежать. Другой тип ошибки — это когда фраза обрезается с одного конца. Примером может служить фраза «ген слияния fkhr», которая усечена слева и появляется в тексте как «ген слияния PAX7-FKHR», где два слитых гена включены во фразу.Ясно, что более сложная обработка исправила бы эту ошибку. Другой пример — «функциональный класс ассоциации сердца», который в тексте фигурирует как «функциональный класс ассоциации сердца Нью-Йорка». Опять же, более сложная обработка могла исправить эту ошибку. Из этих примеров очевидно, что нашу обработку можно улучшить. Однако для нашего приложения, где фразы в классе синонимии предопределены, и мы выбираем только лучшего представителя этого класса, такие улучшения могут принести мало пользы. Наше приложение не требует идеальной идентификации высококачественных фраз, но оно имеет возможность с высокой вероятностью выбрать представителя из нескольких семантически эквивалентных вариантов, который будет наиболее приемлемым для человека, пользующегося системой. С другой стороны, можно представить себе другие приложения, в которых эта возможность может оказаться бесполезной. Например, система языковой генерации вряд ли сочтет такое различение полезным, потому что все фразы, с которыми мы имеем дело, как положительные, так и немаркированные, являются отрывками из реальной письменной речи, созданной человеком.Таким образом, для генерации языка может быть мало смысла в различении, как мы делаем здесь. Наконец, если требуется совершенство в выборе фраз, наиболее значимых для человека, наши результаты все равно потребуют проверки человеком. Мы изучаем извлечение хорошо сформированных и высококачественных биомедицинских фраз из MEDLINE. Используются синтаксические и статистические особенности. Машинное обучение применяется с использованием наборов известных хороших фраз. Более 85% таких извлеченных кандидатов признаны людьми высокого качества. Это исследование было поддержано Программой внутренних исследований NIH, Национальной медицинской библиотеки. Заявление издателя: Это PDF-файл неотредактированной рукописи, принятой к публикации. В качестве услуги для наших клиентов мы предоставляем эту раннюю версию рукописи.Рукопись будет подвергнута копирайтингу, верстке и проверке полученного доказательства, прежде чем она будет опубликована в окончательной форме для цитирования. Обратите внимание, что во время производственного процесса могут быть обнаружены ошибки, которые могут повлиять на содержание, и все юридические оговорки, относящиеся к журналу, имеют отношение. источник, источник, вздутие, хорошо, легко, удобно, выгодно, значительно, существенно, интимно больной, больной, плохо, плохо, невыгодно A Скважина — это выемка или сооружение, созданное в земле путем рытья, забивки или бурения для доступа к жидким ресурсам, обычно к воде.Самый старый и самый распространенный вид колодца — это колодец для доступа к грунтовым водам в подземных водоносных горизонтах. Вода из колодца всасывается насосом или с помощью контейнеров, например ведер, которые поднимаются механически или вручную. Вода также может закачиваться обратно в водоносный горизонт через скважину. Колодцы были впервые построены, по крайней мере, восемь тысяч лет назад, и исторически сложилось так, что их конструкция варьируется от простого черпака в донных отложениях сухого водотока до канатов Ирана и ступенчатых колодцев и сакиев в Индии.Размещение футеровки в стволе колодца помогает создать устойчивость, а футеровка из дерева или плетения восходит, по крайней мере, к железному веку. कुआँ या कुँवा या कूप जमीन को खोदकर बनाई गई एक जिसे जमीन के अन्दर स्थित जल को प्राप्त बनाया है। इसे खोदकर, ड्रिल करके बनाया जाता है। बड़े आकार के कुओं से बाल्टी या अन्य किसी बर्तन द्वारा से पानी निकाला जाता है। किन्तु इनमें जलपम्प भी लगाये जा सकते हैं जिन्हें हाथ से बिजली से चलाया जा सकता है। Недавно я копался в юридическом триллере ( Limitations Скотта Туроу), когда наткнулся на строчку, которая меня остановила: «Натан!» Джордж плачет, привет, дружище, и выходит ». Приветствую, молодец, хорошо встретил . Я встречал это выражение время от времени на протяжении многих лет, но никогда должным образом не исследовал его.Что именно это означает и откуда оно взялось? Macmillan Dictionary, который ставит эту фразу через дефис, говорится, что привет-дружище-хорошо встреченный — это прилагательное, которое означает «вести себя очень дружелюбно, что раздражает или не кажется искренним». Таким образом, он содержит довольно много нюансов в нескольких знакомых, хотя и непредсказуемо расположенных словах, обычно указывающих не столько на определенную степень социальной близости, сколько на предположение или демонстрацию ее слишком большого количества. Это может быть продолжение более короткой фразы , привет, (также , привет, товарищ! и т. Д.)), который, как отмечает OED, был как приветствием, так и описательным выражением, используемым в ряде конструкций. Вторая часть, Well met , также была приветствием: примерно «хорошо, что мы встретились», согласно World Wide Words. Если это выражение кажется вам архаичным или старомодным, вы правы — оно датируется по крайней мере шестнадцатым веком. Томас Харди использовал более короткую фразу в «Мэр Кэстербриджа, » (1886): «Он пересек комнату к ней с тяжелой неловкой походкой […] и что-то вроде приветствия».Значение прилагательного более прозрачно в совете лорда Деламера состоятельным людям в конце семнадцатого века: «Не позволяйте вашим Слугам быть слишком знакомыми или приветствовать вас товарищами». Иногда, однако, это не имеет негативного значения, и , привет, или , привет, хорошо встреченный, , передает простое дружеское знакомство, а не его избыток. Возможно, именно это имел в виду Джеймс Джойс в Ulysses , когда он описывает газетчиков, которые в один момент нападают друг на друга, а в следующий момент — приветствую вас, приятель. Град — очень старое слово, которое на протяжении веков накопило множество значений в разных грамматических категориях: глагол, существительное, прилагательное, междометие. Это последнее использование — где Да здравствует! сам по себе является приветствием или восклицанием — восходит к 1200 году и редко встречается сегодня. По крайней мере, не в повседневном дискурсе; Радуйся, Мария — это молитвенное приветствие, используемое в одноименной молитве. Связанный с ним глагол hail первоначально означал приветствовать кого-либо или приветствовать его Hail! , примерно того же возраста, и каким-то образом выживает — мы все еще ловим такси , то есть вызываем его или привлекаем его внимание.И если повезет, водитель не слишком-то приветлив. Фраза «вы можете привести лошадь к воде, но вы не можете заставить ее пить» — это пословица, означающая, что вы можете предоставить кому-то хорошую возможность, но вы не можете заставить их принять это, если они не хотят. Пример: У моего друга Брока нет работы, поэтому он изо всех сил пытается сводить концы с концами. Я предложил ему деньги, чтобы помочь, но, к моему удивлению, он отказался их брать.Позже я сказал своему отцу: «Трудно поверить, что Брок отказался от моих денег, учитывая его обстоятельства». «Ну, — сказал мой отец, — вы можете привести лошадь к воде, но вы не можете заставить ее пить ». Синонимы / похожие фразы: Откуда взялась фраза «вы можете привести лошадь к воде, но вы не можете заставить ее пить»? Похоже на выражение раздраженного всадника. Подумайте об этом: немного покатавшись, всадник может привести свою лошадь к ближайшему источнику воды, чтобы они могли пить.Это была бы идеальная возможность для лошади восполнить водный баланс. Но что, если лошадь не хочет? Ну, как говорится, «не напоишь». Так сколько лет этой пословице? Считается, что эта фраза (по крайней мере, сама идея) восходит к XII веку. Говорят, что он появился в книге под названием Old English Homilies , 1175: «Hwa is thet mei thet hors wettrien theself nule drinken?» Примечание: Я видел, как эта цитата была переведена двумя разными способами.Я перечислю их ниже: 1. «Кто может дать воду лошади, которая не будет пить сама по себе?» В первом переводе идея пословицы действительно выражена. Однако во втором переводе это звучит так, как будто, напоив лошадь водой, мужчина тоже выпивает. Это не похоже на пословицу, но, опять же, с моей стороны это могло быть недоразумением.В любом случае, поскольку я не уверен, какой перевод более точен, я просто скажу, что идея этого выражения , возможно, восходит к 1175 году. Во всяком случае, фраза определенно восходит к 16 веку . Это появляется в то время в книге Джона Хейвуда под названием A Dialogue Conteinyng The Nomber в сущности всех Prouerbes на английском языке , 1546: «Человек может хорошо бросить лошадь в воду, но он может не делай гимн дрынке без воли.” Знаете ли вы? Лошади — большие животные, а это значит, что они много пьющие. Abstract
1. Введение
2. Материал и методы
2.1. Источники данных и подготовка
Таблица 1
M , уникальные строки MEDLINE 280,737,434 9017 U , часть UMLS, содержащаяся в M 297 005 9018 9017 9017 9017 9018 M U , уникальные строки MEDLINE в наборе S U кроме фраз UMLS 5,789,943 F , полные формы S F , предложения 2,732,911 M F , уникальные строки MEDLINE в наборе S F кроме полных форм 12,0441470 12,0441470 2. Описание функций 2.2.1. Основные статистические характеристики
2.2.2. Дискретность
2.2.3. Синтаксические функции
2.3. Алгоритмы обучения
3. Результаты
Таблица 2
Набор 1 Набор 2 Набор 3 Набор 4 Доля качественных фраз 85% 91% % Таблица 3
Элемент удален UMLS ПОЛНАЯ ФОРМА Функция удалена UMLS ПОЛНАЯ ФОРМА Нет 0.417 0,415 f 1 0,417 0,405 f 2 0,409 0,406 f2 ′ 0,414 0,413 f 3 0,397 0,403 f3 ′ 0,399 0.407 f 4 0,411 0,423 f4 ′ 0,395 0,393 f 5 0,407 0,396 f5 ′ 0,401 0,292 f 6 0,393 0,407 f6 ′ 0,413 0,412 f 7 0.405 0,404 f7 ′ 0,410 0,410 f 8 0,397 0,405 f8 ′ 0,407 0,405 f 9 0,400 0,397 f9 ′ 0,407 0,418 f 10 0,389 0,396 f10 ′ 0.397 0,400 f 11 0,364 0,376 f11 ′ 0,392 0,409 POS 0,343 0,319 4. Приложение
Таблица 4
0,189 слуховые протезы 0,042 слуховой протез 0,739 кохлеарный имплант 0,326 процедура кохлеарной имплантации 0,319 процедуры кохлеарной имплантации 0,511 кохлеарная имплантация 0.471 кохлеарные имплантации 0,858 кохлеарные имплантаты 0.601 кохлеарные протезы 0,178 кохлеарный протез 0,063 имплантация кохлеарного протеза 0,165 слуховой протез 5.Обсуждение и выводы
Основные моменты
Благодарности
Сноски
Список литературы
[1] Еганова Л. и др. Как интерпретировать запросы Pubmed и почему это важно. Журнал Американского общества информационных наук. 2009. 60: 264–274. [Бесплатная статья PMC] [PubMed] [Google Scholar] [2] Чен К. Х., Чен Х. Х.Извлечение словосочетаний из крупных текстов: гибридный подход и его автоматическая оценка. ACL ’94 Труды 32-го ежегодного собрания Ассоциации компьютерной лингвистики, 1994. [Google Scholar] [3] Эванс Д.А., Чжай К. Анализ существительных и фраз в неограниченном тексте для поиска информации. Труды 34-го ежегодного собрания Ассоциации компьютерной лингвистики, 1996. С. 17–24. [Google Scholar] [5] Вермтер Дж., Хан У. Парадигматическая статистика модифицируемости для извлечения сложных многословных терминов.Материалы конференции по технологиям человеческого языка и эмпирическим методам обработки естественного языка HLT 05.2005. С. 843–850. [Google Scholar] [6] Франци К., Ананиаду С. Метод автоматического распознавания многословных терминов с C-значением / NC-значением. Труды Второй европейской конференции по исследованиям и передовым технологиям для электронных библиотек, 1998 г. С. 585–604. [Google Scholar] [7] Болдуин Т., Ким С.Н. Справочник по обработке естественного языка. CRC Press; Бока-Ратон, США: 2010. [Google Scholar] [8] Kim WG, Wilbur WJ.Статистический скрининг на основе корпуса для идентификации фраз. Журнал Американской ассоциации медицинской информатики. 2000. 7: 499–511. [Бесплатная статья PMC] [PubMed] [Google Scholar] [9] Мерфи Р. Обнаружение фраз и нейронная сеть ассоциативной памяти. представлен на Международной совместной конференции по нейронным сетям 2003 г .; 2003. Конференция. [Google Scholar] [10] Ким Х.Р., Чан П. Определение значимых фраз переменной длины с помощью корреляционных функций. представлен на Международной конференции IEEE по инструментам с искусственным интеллектом 2004 г.[Google Scholar] [11] Ziqi Zhang JI. Кристофер Брюстер и Фабио Чиравенья Сравнительная оценка алгоритмов распознавания терминов. Труды Шестой Международной конференции по языковым ресурсам и оценке, 2008 г. [Google Scholar] [13] Smith L, et al. MedPost: часть речевого тега для биомедицинского текста. Биоинформатика. 2004. 20: 2320–2321. [PubMed] [Google Scholar] [14] Льюис Д.Д., Ян Ю. RCV1: Новая коллекция тестов для исследования категоризации текста. Журнал исследований в области машинного обучения.2004; 5: 361–397. [Google Scholar] [15] Абкани Р., Квек С. Применение машин опорных векторов к сбалансированным наборам данных. ECML. 2004 [Google Scholar] [16] Чжан Т., Айенгар В.С. Рекомендательные системы с использованием линейных классификаторов. Журнал исследований в области машинного обучения. 2002; 2: 313–334. [Google Scholar] [17] Еганова Л. и др. Text Mining для использования положительно помеченных данных. представлен на BioNLP 2011; 2011. Конференция. [Google Scholar] [18] Чавла Н.В., Бойер К.В. SMOTE: Техника передискретизации синтетического меньшинства.Журнал исследований искусственного интеллекта. 2002. 16: 321–357. [Google Scholar] [19] Малоф М. Изучение несбалансированных наборов данных и неравных и неизвестных затрат. Proc. семинара ICML-2003: обучение с использованием несбалансированных наборов данных II. 2003: 73–80. [Google Scholar] [20] Вайс Дж., Маккарти К. Экономичное обучение или выборка: что лучше всего подходит для работы с несбалансированными классами с неравными затратами на ошибки ?. Материалы Международной конференции по интеллектуальному анализу данных 2007 г. [Google Scholar] [21] Чжан Т.Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска. Двадцать первая международная конференция по машинному обучению. 2004: 918–922. [Google Scholar] [22] Лэнгли П. Элементы машинного обучения. Морган Кауфманн Паблишерс, Инк .; Сан-Франциско: 1996. [Google Scholar] [23] Уилбур У. Дж., Ким У. Неэффективность частоты встречаемости терминов в документе при классификации текста. Поиск информации. 2009; 12: 509–525. [Бесплатная статья PMC] [PubMed] [Google Scholar] [24] Баеза-Йейтс Р., Рибейро-Нето Б.Современный информационный поиск. Addison-Wesley Longman Ltd.; Харлоу, Англия: 1999. [Google Scholar] [25] Ян И, Лю X. Переоценка методов категоризации текста. 22-я ежегодная конференция ACM по исследованиям и разработкам в области информационного поиска; Беркли, Калифорния. 1999. С. 42–49. [Google Scholar] английских предложений со звуком с использованием слова «Well»
английских предложений со звуком со словом «Well» well — Значение на хинди
Словоформы / склонения
лучше (сравнительное прилагательное)
лучшее (превосходное прилагательное)
колодцев (существительное множественное число)
wellled (глагол в прошедшем времени)
welling (причастие в настоящем времени)
колодцев (глагол в настоящем времени) Определения и значение слова хорошо на английском языке
хорошо
прилагательное 922 67
Пример
— было бы хорошо начать рано
Синонимы : хорошо Примеры
— все хорошо, что хорошо кончается
— это хорошо хорошо, что вы остались
— хорошо, что вас никто не видел
— хорошо, что меня не было
Примеры
— здоровый человек
— вроде все хорошо
— думаю, я здоров; по крайней мере чувствую себя хорошо
— рана почти зажила
существительное
Синонимы : легко Примеры
— ошибка, которая легко могла закончиться катастрофой
— он с тем же успехом мог попытаться обмануть нас
— Я вполне могу это сделать
— вам может понадобиться ваш зонт
Примеры
— книга, которую стоит прочитать
— слишком хорошо подозревал, что может происходить
— хорошо знал о предстоящих трудностях
Синонимы : интимно Пример
— мы хорошо знали их
Примеры
— не могли бы отказать
— Вы бы не отказались не говоря больше
Примеры
— он пишет хорошо
— она да nces well
Синонимы : значительно, существенно Примеры
— Боюсь, фильм был намного выше бюджета
— покраска комнаты в белый цвет заставила ее казаться значительно (или существенно) больше
— стоимость дома значительно упала
— цена существенно выросла
Синонимы : выгодно Примеры
— она вышла замуж
— Дети устроились выгодно в Сиэтле
Синонимы : комфортно Примеры
— она смогла жить комфортно с тех пор, как умер ее муж
— Они живут хорошо
Примеры
— его отец был доволен его оценками
— плод га s хорошо развитые органы
— проект шёл успешно
Примеры
— он хорошо подумал о книге
— соседи хорошо о них отзывались
Примеры
— во избежание пищевого отравления убедитесь, что мясо хорошо приготовлено
— хорошо встряхните перед использованием
— она была хорошо информирована
— Проблема хорошо изучена
— хорошо- говядина
— образованная
— довольные клиенты
Примеры
— хорошо воспринял шутку
— хорошо воспринял трагические новости
Синонимы : хорошо Примеры
— хорошо выполненное задание
— хорошо аргументированный тезис
— хорошо спланированная вечеринка
— хорошо приправленное блюдо
— он хорошо спал
— ребенок может довольно хорошо ходить
— дети хорошо себя вели
— вечеринка прошла хорошо
глагол
Синонимы : источник, источник Пример
— она была колодцем информации
Синонимы : набухать Примеры
— Слезы на глазах
— токи поднимаются 85 Синонимы хорошо
Антонимы колодца
Описание
Кредит: Didiervberghe
Лицензия: общественное достояние Больше совпадений для колодца
прилагательное
междометие
наречие
глагол
существительное
фраза-хорошо встреченный | Блог словаря Macmillan
Вы можете привести лошадь к воде, но …
2. «Кто может напоить коня, а сам не напиться?»