Список форумов Bolide Software Bolide Software
Форум общения пользователей
 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

 
 
[Bolide Software Home] [All My Movies™ page] [All My Books™ page] [Image Comparer™ page]


Можно ли загрузить весь IMDB? :)
На страницу 1, 2, 3, 4  След.
 
Начать новую тему   Ответить на тему    Список форумов Bolide Software -> All My Movies
Автор Сообщение
Ivan30
Пользователь


Зарегистрирован: 21.03.2007
Сообщения: 25

СообщениеДобавлено: Ср Мар 21, 2007 2:03 am    Заголовок сообщения: Можно ли загрузить весь IMDB? :) Ответить с цитатой

Предположим я хочу составить свою базу фильмов отталкиваясь не от частного (т.е. изначально забивая то что нравится) а от общего (импортировав максимально полную базу данных), сортируя фильмы по предпочтениям и жанрам, а всю информацию используя при этом как справочную базу (например, пробивая телепрограммы).
И тут сразу множество вопросов.
Во-первых по производительности самой программы.
Насколько ее хватит если общая база фильмов перевалит за 100000ед. как быстро будут формироваться группировки и пр. Далее, если я правильно понял, то стержнем для загрузки дополнительной информации по фильмам с помощью скриптов является оригинальное название (как главная ключевая фраза), таким образом дело за малым - получить максимально полный реестр названий. Как это возможно сделать? Например с IMDB?
Т.е. я вижу такой подход к заполнению:
1. Получаем максимально полный список оригинальных названий фильмов за всю историю кинематографа с авторитетного ресурса (то бишь IMDB)
2. Загружаем максимально полную достоверную информацию по фильмам (возможно от чего то на этом этапе придется отказаться, ввиду объема)
3. Заменяем те поля где можем найти русскоязычную информацию, опять же руководствуясь наиболее достоверными источниками
4. Формируем свой пользовательский рейтинг любимых фильмов
5. Догружаем по максимуму информацию теперь уже для данного списка (с русских и прочих ресурсов)
6. Загружаем обложки, скриншоты и пр. украшательства. Все.

Кто-нибудь пытался такое вытворить? Поделитесь опытом.
Вернуться к началу
Widescreen
Пользователь


Зарегистрирован: 24.02.2007
Сообщения: 29

СообщениеДобавлено: Ср Мар 21, 2007 6:04 am    Заголовок сообщения: Ответить с цитатой

А не лучше ли (и не эффективнее ли) пойти не от общего к частному, а от частного к общему.
Навряд ли число предпочитаемых фильмов перевалит за тысячу (а иначе это уже не предпочитаемые, а так, с бору по сосёнке). Вот и вбить их в программу, а затем заполнить сведениями откуда угодно.
Вернуться к началу
Pard
Опытный пользователь


Зарегистрирован: 30.11.2006
Сообщения: 100

СообщениеДобавлено: Ср Мар 21, 2007 6:49 am    Заголовок сообщения: Re: Можно ли загрузить весь IMDB? :) Ответить с цитатой

Ivan30 писал(а):
Как это возможно сделать? Например с IMDB?

Ну, в топике "Фильмы на IMDB" я уже писал, что у меня есть Excel-табличка с примерно 50 тысячами наиболее известных фильмов IMDB. Ее можно импортировать в AMM и играться с нею сколько угодно Smile
Вернуться к началу
Ivan30
Пользователь


Зарегистрирован: 21.03.2007
Сообщения: 25

СообщениеДобавлено: Ср Мар 21, 2007 9:51 am    Заголовок сообщения: Ответить с цитатой

Widescreen писал(а):
.................. Навряд ли число предпочитаемых фильмов перевалит за тысячу (а иначе это уже не предпочитаемые, а так, с бору по сосёнке).

Это то верно, но хотелось бы задействовать программу на полную, в том числе и как некую справочную базу (типа всем известной TvГуру, там занесено порядка 36000 фильмов) а также как некий ориентир к поиску того, что достойно просмотра (на основании рейтингов, отзывов и пр.). Ведь за историю кино снято достаточно много интересных фильмов о существовании которых мы и не подозреваем.
Я так полагаю, порядка 100000 фильмов (если исключить Гондурасы и Гваделупы) вполне могли представить основную часть существующего материала, по ним можно иметь минимум информации для справочных целей, дополняя лишь то, в отношении чего может возникнуть интерес, а первую топовую тысячу уже можно загрузить по полной, для души так сказать.
Pard писал(а):
.................. есть Excel-табличка с примерно 50 тысячами наиболее известных фильмов IMDB. Ее можно импортировать в AMM и играться с нею сколько угодно.

Ее я сразу нашел, штука нужная, спасибо. Это действительно 50 тыс. наиболее известных фильмов? Как вам удалось вытянуть такую информацию и можно ли ее расширять количественно а также обновлять с учетом новых поступлений (вероятно есть какой-то скрипт)?
Вернуться к началу
Pard
Опытный пользователь


Зарегистрирован: 30.11.2006
Сообщения: 100

СообщениеДобавлено: Ср Мар 21, 2007 10:56 am    Заголовок сообщения: Ответить с цитатой

Ivan30 писал(а):
Ведь за историю кино снято достаточно много интересных фильмов о существовании которых мы и не подозреваем.

Почему же не подозреваем? Я, например, веду рассылку http://subscribe.ru/catalog/tv.review.kinonatv обо всех хороших фильмах (рейтинг IMDB от 7,0), показываемых по ТВ и идущих в прокате. Кроме того, все толковые фильмы можно увидеть в моей табличке простой сортировкой по рейтингу, и они также окрашены цветом - красным (рейтинг от 8 ), заленым (от 7), серым (ниже 5).

Ivan30 писал(а):
Как вам удалось вытянуть такую информацию и можно ли ее расширять количественно а также обновлять с учетом новых поступлений (вероятно есть какой-то скрипт)?


На IMDB список всех фильмов с нужными данными можно получить через поисковый запрос http://us.imdb.com/list, а уж его результаты (html'ки с названиями фильмов, их URL, годом, рейтингом и числом голосов) обработать, как надо. В моей таблице есть все фильмы с числом голосов от 50, так что все остальные фильмы можно смело считать малоизвестными Smile

Таблицу я периодически обновляю, и обновленные данные отмечены фиолетовым или светло-зеленым - я не все их еще как следует внес (нужно вычеркивать дублирующиеся)...


Последний раз редактировалось: Pard (Ср Мар 21, 2007 11:21 am), всего редактировалось 1 раз
Вернуться к началу
Widescreen
Пользователь


Зарегистрирован: 24.02.2007
Сообщения: 29

СообщениеДобавлено: Ср Мар 21, 2007 11:20 am    Заголовок сообщения: Ответить с цитатой

Ну, хороший фильм не значит высокий рейтинг на имдб.
Вернуться к началу
Pard
Опытный пользователь


Зарегистрирован: 30.11.2006
Сообщения: 100

СообщениеДобавлено: Ср Мар 21, 2007 11:26 am    Заголовок сообщения: Ответить с цитатой

Widescreen писал(а):
Ну, хороший фильм не значит высокий рейтинг на имдб.

Если честно, мне уже надоело объяснять, что лучшей характеристики фильма, чем рейтинг IMDB, не существует. Почему-то каждый любитель кино считает, что уж остальные-то любители кино со всего мира (те, кто голосует на IMDB) в фильмах вообще не разбираются Smile

Проанализировав рейтинги, я пришел к выводу, что лучшими в итоге считаются те фильмы, которые можно потом долго обсуждать (нюансы сюжета, игру актеров и тд и тп). А фильмы, простые, как 3 копейки, после просмотра которых и сказать-то нечего (несмотря на замечательных актеров в них), всегда имеют низкий рейтинг.

Единственная проблема: на IMDB мало голосов отдано за наши фильмы (поэтому они только подбираются к "топ 250", околачиваясь пока в жанровых "топах", где требуется меньшее число голосов), но каждый россиянин может пойти, зарегистрироваться там, создать список для голосования и за часок оценить две-три тысячи фильмов.
Вернуться к началу
Widescreen
Пользователь


Зарегистрирован: 24.02.2007
Сообщения: 29

СообщениеДобавлено: Ср Мар 21, 2007 11:44 am    Заголовок сообщения: Ответить с цитатой

Итак, признаётся наличие одной проблемы - советское кино малоизвестно, потому имеет малый рейтинг.
Где одна проблема, там и вторая - та же самая картина с другими малоизвестными фильмами.

Кроме того, на имдб голоса за тот или иной фильм отдаются преимущественно любителями этого жанра. У каждого жанра свои любители, и не секрет, что любителей, к слову, Джеймса Бонда несколько больше (а требования к фильму у них несколько иные), чем, скажем, любителей "Барбареллы". Так что, Барбарелла однозначно хуже Мунрейкера, только лишь потому, что её рейтинг уступает? Разумеется, нет.

Рейтинги имдб - вещь полезная, но не абсолютная. Во внимание принимать, но культа из них не делать Very Happy
Вернуться к началу
Ivan30
Пользователь


Зарегистрирован: 21.03.2007
Сообщения: 25

СообщениеДобавлено: Ср Мар 21, 2007 12:01 pm    Заголовок сообщения: Ответить с цитатой

Pard писал(а):
...........Я, например, веду рассылку

Подписался, пригодится Smile
Pard писал(а):
...........На IMDB список всех фильмов с нужными данными можно получить через поисковый запрос

Вот за эту ссылку особое спасибо! А то я так с ходу и не нашел на заглавной странице как юзать поиск, полагая, что такая функция доступна только для IMDbPro. Кстати с чем едят последнее?
Попробовал сейчас сформировать список, что-то выдал только первые 80 наименований, может небольшой ликбез провести по поиску на IMDB для чайников? Smile
Pard писал(а):
...........таблицу я периодически обновляю, и обновленные данные отмечены фиолетовым или светло-зеленым - я не все их еще как следует внес (нужно вычеркивать дублирующиеся)...с

Есть отличная примочка к Excel - ASAP Utilities, кроме всего прочего умеющая убирать дубликаты, либо еще эти, для профи -
Excel Unique and Duplicate Data Remover
Fuzzy Duplicate Finder for Excel
Duplicates Manager for Excel
Excel Compare
Вернуться к началу
Pard
Опытный пользователь


Зарегистрирован: 30.11.2006
Сообщения: 100

СообщениеДобавлено: Ср Мар 21, 2007 12:13 pm    Заголовок сообщения: Ответить с цитатой

Widescreen писал(а):
Итак, признаётся наличие одной проблемы - советское кино малоизвестно, потому имеет малый рейтинг.

Ничего подобного: многие советские фильмы имеет очень даже хороший рейтинг, позволяющий им попадать во все "топы". Проблема в том, что в "топ 250" могут попасть лишь фильмы, имеющие не менее 1300 голосов от "регулярных голосовальщиков" (то есть тех, кто оценил много фильмов, а не несколько, чтобы раскрутить нужные фильмы).

Из советских фильмов больше всего голосов на сегодня имеет "Солярис" (8275), и рейтинг у него неплохой - 8,0, что позволяет рассчитывать в будущем примерно на 140-е место в "топ 250". К сожалению, из этих 8 тысяч голосов регулярных - всего тысяча с небольшим. И это позволило ему попасть в "топ 50 фантастики" (19-е место), поскольку там достаточно 1000 регулярных голосов. Кстати, вручную раскрученный "Кин-дза-дза" (я видел фанатские сайты, призывающие голосовать именно за него) - на 24-м месте. Аналогичным образом в "топ 50 военных" (на 29-е и 40-е место) сумели протиснуться "Иваново детство" и "Андрей Рублев", в "топ 50 драма" (на 31-е) - "Баллада о солдате". Наверняка можно найти и еще.

У российских фильмов успехи скромнее - самый известный ("Ночной дозор") ни в какие топы не попадет (рейтинг всего 6,4), а лучшие шансы на попадание в топы (в будущем) у фильма "Возвращение".

Widescreen писал(а):
Кроме того, на имдб голоса за тот или иной фильм отдаются преимущественно любителями этого жанра. У каждого жанра свои любители, и не секрет, что любителей, к слову, Джеймса Бонда несколько больше (а требования к фильму у них несколько иные), чем, скажем, любителей "Барбареллы". Так что, Барбарелла однозначно хуже Мунрейкера, только лишь потому, что её рейтинг уступает?

Ничего подобного! Просто за фильмы действительно хорошие с большим энтузиазмом спешат выставить свою оценку. Причем с ростом числа голосов оценка фильма меняется крайне редко (обычно после 500 голосов меняется не более чем на 0,1-0,2). Можно сделать запрос (например, отобрать все фильмы с числом голосов от 20 тысяч) и убедиться, что среди них много средних фильмов (рейтинг менее 7,0) и попадаются даже плохие (рейтинг менее 5,0) - у того же "Wild Wild West" при 28 тысячах голосов рейтинг всего 4.0.

Widescreen писал(а):
Рейтинги имдб - вещь полезная, но не абсолютная. Во внимание принимать, но культа из них не делать

Это фраза, если вдуматься, подразумевает утверждение: "Мнение любителей и знатоков кино - полная ерунда" Smile
Вернуться к началу
Pard
Опытный пользователь


Зарегистрирован: 30.11.2006
Сообщения: 100

СообщениеДобавлено: Ср Мар 21, 2007 12:32 pm    Заголовок сообщения: Ответить с цитатой

Ivan30 писал(а):
Попробовал сейчас сформировать список, что-то выдал только первые 80 наименований, может небольшой ликбез провести по поиску на IMDB для чайников?

Я когда-то писал про это, процитирую:

1. Сначала зайдите на http://us.imdb.com/rg/sub-register/navbar/register/?why=personalize и зарегистрируйтесь:
E-mail напишите свой E-mail
Confirm E-mail подтвердите E-mail ещё раз
Sex Male Female пол - мужской или женский
Year of Birth год рождения
ZIP/Postal Code почтовый код в США (не указывайте)
Country страна (например, Russian Federation)
Select a password укажите свой пароль
Confirm password подтвердите свой пароль

Нажмите кнопку Register (зарегистрироваться).

После этого на указанный вами почтовый адрес придёт письмо. Кажется (я точно не помню) нужно будет зайти по линку, указанному в нём, чтобы завершить регистрацию.

2. Теперь можно голосовать на страничке любого фильма, которую рассматриваете. Для этого при заходе на сайт залогиньтесь (справа вверху линк Login) - укажите свой E-mail и пароль. Если вверху уже указаны ваши данные, значит сервер автоматически распознал вас и ещё раз логиниться не надо.

3. Чем голосовать за каждый фильм по отдельности, проще запросить список нужных вам фильмов и голосовать уже по нему. Для этого зайдите на страничку http://us.imdb.com/list и отметьте всё, что вас интересует:

- во 2-м разделе укажите страну производства фильма (Country of Origin) - например СССР (Soviet Union) или Россия (Russia),
- там же отметьте года, в которых вы ориентируетесь (Year), например 1980-2006,
- чтобы список получился не слишком большим, можно запросить только более-менее известные фильмы, скажем, с числом проголосовавших за них не менее 50 - напишите это число в 3-м разделе, графа Minimum number of voters (для русских фильмов можно не указывать ничего или указать, например 5),
- и, наконец, в 5-м разделе поставьте галочку на Create a vote ballot for the titles found - создать на основе полученного списка форму для голосования.

Нажмите кнопку поиска (SEARCH) и вы получите результат. Сверху будет указано количество найденных фильмов. Если оно больше 200, то будут показаны только первые 200, а следующие придётся получать по линкам, указанным внизу (201, 401 и тд).

Возле каждого фильма будет стоять небольшая форма для голосования. Отметьте оценки нужных фильмов и внизу нажмите на кнопку добавления ваших голосов (Add these votes). Вам покажут список фильмов, оценки за которые приняты. После этого вернитесь назад и перейдите к следующим двум сотням фильмов...
Вернуться к началу
Ivan30
Пользователь


Зарегистрирован: 21.03.2007
Сообщения: 25

СообщениеДобавлено: Ср Мар 21, 2007 12:34 pm    Заголовок сообщения: Ответить с цитатой

Pard писал(а):
......кроме того, все толковые фильмы можно увидеть в моей табличке простой сортировкой по рейтингу, и они также окрашены цветом - красным (рейтинг от 8 ), заленым (от 7), серым (ниже 5).

Сейчас внимательно просмотрел ваш список и возникли вопросы.
Почему в нем не везде указаны рядовые сведения (режиссер, жанр, страна и т.д.)?
Почему нет рейтинга равного 10, или его нет в принципе?
Очень много непонятных раскрасок..., может поясните, если не сложно.

Я так понял вы этот список получили уже дополненный через экспорт, хотел узнать, каково юзать базу из 50000 фильмов, если это так?

Да, и большое спасибо за верхний пост, щас бум пробовать Smile
Вернуться к началу
Pard
Опытный пользователь


Зарегистрирован: 30.11.2006
Сообщения: 100

СообщениеДобавлено: Ср Мар 21, 2007 2:34 pm    Заголовок сообщения: Ответить с цитатой

Ivan30 писал(а):
Сейчас внимательно просмотрел ваш список и возникли вопросы. Почему в нем не везде указаны рядовые сведения (режиссер, жанр, страна и т.д.)?

Потому что, как я писал, при запросе списка на IMDB выдаются лишь название фильма (в тч и на других языках), его URL, год выпуска, рейтинг и число голосов. Это легко импортируется в Excel-список. А все остальные данные (русское название, режиссер, жанр, актеры, длительность, страна, оскары) я вбиваю вручную по мере получения этих самых данных (загружая странички с фильмами на IMDB).

Ivan30 писал(а):
Почему нет рейтинга равного 10, или его нет в принципе?

Он бывает у фильмов в самом начале голосования (если ставят одни десятки). Потом он всегда уменьшается.

Ivan30 писал(а):
Очень много непонятных раскрасок..., может поясните, если не сложно.

Первый столбец - URL. Это - то, что нужно добавить к http://us.imdb.com/title/, чтобы попасть на страничку фильма.

Затем столбец, где указываются "не" кинотеатральные фильмы (tv - телевизионный, v - видео, mini - мини-сериал, ser - сериал).

RD - рейтинг на IMDB

V - число голосов

Z - Здесь строчки обновлений, с которыми нужно еще разобраться.

Название - Раскраска оригинального названия фильма (через слэши идут другие названия) привязана к рейтингу: красный - от 8,0, зеленый - от 7,0, серый - менее 5,0. Замечу, что средний рейтинг фильмов IMDB - около 6,5, так что "средние" во всех смыслах фильмах имеют рейтинг 6-7, поэтому красные фильмы таблицы можно условно считать шедеврами, зеленые - просто хорошими фильмами (выше средних), серые - полный отстой. Все остальные - более-менее средние фильмы.

Далее, столбец с русским названием - главное, для чего нужна таблица (по нему можно найти фильм и его оригинальное название, и задать его АММ). Русскоязычные фильмы написаны красным шрифтом.

КН - Экранизация книг, повестей, комиксов и тд. Указан автор. Как правило фильмы-экранизации смотрятся лучше прочих - в них лучше продуман сюжет, интереснее диалоги.

ЖАНР - Если импортировать список в АММ, то здесь (как и в актерах, и в некоторых других столбцах) предварительно нужно заменить слэши запятыми.

ОСК - Оскары - число номинаций и наград, и за что (в примечании).

SR - номер фильма на ШареРеакторе.

ОП - Описание фильма.

Ivan30 писал(а):
Я так понял вы этот список получили уже дополненный через экспорт, хотел узнать, каково юзать базу из 50000 фильмов, если это так?

Нет, этот список я составляю сам, более 10 лет. Каково юзать базу, если в нее импортировать весь мой список, я не знаю - не пробовал (у меня есть просто база фильмов моей коллекции, и еще пара других баз).
Вернуться к началу
Ivan30
Пользователь


Зарегистрирован: 21.03.2007
Сообщения: 25

СообщениеДобавлено: Чт Мар 22, 2007 4:21 am    Заголовок сообщения: Ответить с цитатой

Pard писал(а):
..........на IMDB выдаются лишь название фильма (в тч и на других языках), его URL, год выпуска, рейтинг и число голосов. Это легко импортируется в Excel-список

Получается общий список можно получить только последовательно открывая ссылки по 200 наименований результата поиска, нда.., легким импортов едва ли это возможно назвать Smile

Я вот по русским фильмам думаю, а что нет у нас ответа иностранцам в этом плане? Вроде как-то мне попадался мощный ресурс по рос-советскому кинематографу, никто не в курсе?
А то получается из IMDB наши фильмы надо переводить в обратной транслитерации, в принципе не сложно с помощью спец. программ.

Я теперь понял как решить проблему производительности.
Нужно сделать отдельно базу рус-советского кино, американского, европейского, прочего. А также отдельными базами сериалы и ТВ-фильмы, документальное кино, анимация и возможно XXX. Аккурат выйдет тыщ на 10 каждая, юзать будет достаточно удобно.
Кстати, кто-то упомянал что XXX фильмы в поиске появляются только если в личных настройках включить опцию "Показывать в поиске фильмы категории Adult", вроде все просмотрел (в частности Search Preferences) ничего не нашел, может уже нет таких настроек.., хотелось бы объять все.., в целях, так сказать, повышения образованности Smile


Последний раз редактировалось: Ivan30 (Чт Мар 22, 2007 4:55 am), всего редактировалось 1 раз
Вернуться к началу
Pard
Опытный пользователь


Зарегистрирован: 30.11.2006
Сообщения: 100

СообщениеДобавлено: Чт Мар 22, 2007 4:41 am    Заголовок сообщения: Ответить с цитатой

Ivan30 писал(а):
Кстати, кто-то упомянал что XXX фильмы в поиске появляются только если в личных настройках включить опцию "Показывать в поиске фильмы категории Adult", вроде все просмотрел (в частности Search Preferences) ничего не нашел, может уже нет таких настроек.., хотелось бы объять все.., в целях, так сказать, повышения образованности Smile

Это я писал. Все остается по-прежнему - такие фильмы не попадают в результаты поиска, и разрешить это делать из обычных настроек тоже нельзя - об этом написано здесь: http://us.imdb.com/help/search?domain=helpdesk_faq&index=1&file=adultmatches

Разрешить себе видеть в результатах поиска "взрослые" фильмы можно только пройдя по линку на указанной странице: http://www.imdb.com/find/preferences?_adult=1 - нужная опция появится в самом начале. Это доступно только зарегистрированным пользователям.

Ivan30 писал(а):
Нужно сделать отдельно базу рус-советского кино, американского, европейского, прочего. А также отдельными базами сериалы и ТВ-фильмы, документальное кино, и возможно XXX. Аккурат выйдет тыщ на 10 каждая, юзать будет достаточно удобно.

Сомневаюсь, что можно уложиться в это количество: всего на IMDB 400 тысяч наименований фильмов, одних только ХХХ, снятых в 1980-2007 годах, более 30 тысяч: http://us.imdb.com/List?ep=on&&page=/Title&&vid=on&&year=1980-2007&&tv=on&&exact=off&&showmyvotes=off&&genre1=Adult&&tvm=on&&skip=0
Вернуться к началу
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов Bolide Software -> All My Movies Часовой пояс: GMT
На страницу 1, 2, 3, 4  След.
Страница 1 из 4

 


Powered by phpBB © 2001, 2005 phpBB Group